Archive for the '知识组织' Category
DC-2011 征文通告
都柏林核心元数据应用国际会议
元数据协同:超越语言进行描述
原文参见:http://dcevents.dublincore.org/index.php/IntConf/dc-2011/schedConf/cfp
本届都柏林核心元数据年会将于2011年9月21日-23日在荷兰海牙召开。
“当今的网络环境下, 元数据正日益成为大规模分布式资源管理的核心工具。近年来,由于跨领域合作交流的驱使,原先相对孤立的元数据社区之间的联系日益密切。但元数据标准尚无法满足各类机构社团间的互操作性需求。元数据协同(Metadata Harmonization)被定义为支持多个元数据规范进行组合的互操作问题,它已成为未来网络资源元数据应用的核心问题.”[1]理解元数据应用纲要的关键在于元数据协同,虽然对于这一点人们有所了解,但是如何设计描述语言却依旧挑战巨大。DC-2011将基于不同元数据方案的交融交汇,重点探讨描述语言设计的理论和实践问题,进行探讨不同的元数据方案之间的相互融合需要解决语言的问题。
截稿及重要时间安排:
- 投稿截止:2011年4月16日
- 录用通知:2011年6月18日
- 定稿提交:2011年7月23日
大会除上述主题外,也欢迎任何其它元数据主题的论文、报告和海报等形式的投稿,如:
- 元数据制定原则、指南和最佳实践
- 元数据质量(方法、工具和实践)
- 概念模型和框架(例如,RDF,DCAM,OAIS)
- 应用纲要
- 元数据生成(方法、工具和实践)
- 跨领域、语言、时间、结构和规模的元数据互操作
- 跨领域的元数据应用(例如记录留存、永久保存、保管(curation)、机构库、出版)
- 领域元数据 (例如,企业、文化记忆机构、 教育、 政府及科研领域)
- 作为语义网词汇的书目标准(例如,RDA、FRBR、主题词表)
- 可获得性元数据
- 科学数据、e-Science和网格应用方面的元数据
- 社会化标注和元数据构建中的用户参与
- 使用情况数据(paradata/attention元数据)
- 知识组织系统(例如:本体、分类法、规范档、大众分类法和叙词表)和SKOS(简单知识组织系统)
- 本体的设计与开发
- 元数据与本体的整合
- 搜索引擎和元数据
- 关联数据和语义网(元数据及应用)
- 词汇表注册及注册服务
投稿
- 所有提交的论文、报告、挂图摘要,和社团工作组、分会场会议必须经过DCMI的同行评议系统(链接在页面底部)。
- 作者需进入同行评议系统进行注册,在“作者信息”的链接下有相关提交流程的介绍。
- .所有的投稿必须用英文撰写。
- 所有投稿都将由国际性的学术委员会进行专家评审。
出版
- 经审核通过的论文、项目报告和挂图摘要将在此次会议的官方文集上发表,见http://dcpapers.dublincore.org/ojs/pubs。
- 分会场会议和社团工作组的文摘将在在线会会议议程上发表
- 论文、研究报告和挂图摘要必须符合DCMI同行评议系统的格式模板要求。
- 若无特殊安排,被录用的论文、项目报告和挂图应该至少由其中一位作者在海牙会议上宣读。
- 为了稿件能够顺利接收与出版,所有的投稿者需提供自己的基本资料,包括目前的专业职务和联系方式等。
稿件的种类
论文(8-10 页) 论文既可以详细描述创新性的工作,也可以对前述的一些领域性重要进展或者最佳实践进行介绍评议。
论文评判标准如下:
- 实现方法的创新性
- 所做贡献的质量
- 呈现结果的重要性
- 表达的明确性
项目报告 (4-5 页) 项目报告应该简明扼要地介绍一个特定的模型、应用或者活动。 项目报告的评判标准如下:
- 技术描述的精确性和完整性
- 对其他潜在用户技术指导的可用性
- 表达的明确性
挂图 (1-2页) 挂图是关于正在进行中的项目或课题研究的展示,或者已完成项目、课题研究的最新结果的展示。挂图建议应当包括一个长为一到两页的摘要。
挂图的评判标准如下:
- 精确陈述研究项目的目标和里程碑事件
- 研究课题或者项目的重要性
- 陈述主要的难点和进一步的研究
- 陈述结果和取得的主要成果
- 表达的明确性
会议现场将会安排一个或多个分会场来展示和讨论这些挂图。在会议网站上将会有关于如何准备挂图展示的指导和说明。除非另有安排,已录用的挂图必须至少由其中一位作者在海牙会议上宣读。根据前期安排,挂图的摘要可能被收入在此次会议的论文集中,并通过4-10分钟的视频进行展示,同时根据提交挂图摘要的URL地址将该视频上传到YouTube网站。
分会场会议 & DCMI社团工作组会议 分会场会议和社团工作组会议的提案应控制在800-1200字内,并含35-50字的用于宣传会议的摘要。会议提案必须明确一下内容:
- 会议召集人
- 假如可能,请给出参与者的类型
- 会议:
- 目的
- 议程
- 活动 (包括任何技术要求)
- 周密而完善的会议日程安排(包括会后总结报告)
- 工作小组会议的提案必须明确具体的DCMI社团(请参见http://www.dublincore.org/groups/#communities)
分会场召集人在会议申请审核通过后需就会议的完善、日程安排和会议的召开与会议主席密切合作。工作组主席经与会议委员会磋商,将会审查分会场会议的提案。工作组主席与DCMI相关社团的主席或联席主席进行磋商后,可以审核社团工作组的提案。会议提案的评估标准如下:
- 内容的质量和组织结构
- 选择该格式的理由
- 调动互动和参与的方法的证据
- 参与的包容性和多样性
- 要有吸引一般参会者的可能性,对于工作组会议,则还要吸引社团的兴趣。(包括除会场以外任何必需的技术如Skype)
[1] Nilsson, Mikael. (2010). 元数据标准化从互操作到统一:为元数据的统一设计一个可发展的框架.论文.瑞典皇家理工学院计算机科学和通信专业。斯德哥尔摩,瑞典。http://kmr.nada.kth.se/papers/SemanticWeb/FromInteropToHarm-MikaelsThesis.pdf
作者指南 所有经审核通过后的论文、项目报告和挂图都将收录到DC-2010会议论文集。根据提交文档的类别确定适当的模板格式:
为了确保可读性和文面的一致性,作者应该使用模板来规范投稿格式。
每个类别稿件的最大长度和评判标准都罗列在http://dcevents.dublincore.org/index.php/IntConf/dc-2011/schedConf/cfp的论文要求中。
DCMI坚持以盲审方式进行同行评审,这样作者不知道评审者的方式。但不采用双盲审的方式,因此,评审者可以知道作者的身份。
投稿可以点击下列链接:
投稿流程第一步……
就“数字索引学”回答Kentsin网友的留言
1 對象是開放的,不是封閉的 — 即集合不是既定的,是不確定的
“索引”很早就取得了独立的地位,并不一定要作为某个封闭集合(如一本书)的附庸。例如《全国报刊索引》数据库。此时它是某一方面的独立的检索工具。
2 各種試想 — 是否需有細分,細緻的界定?將各種域細分出來?
有需求就有动力。细不细分是根据必要性来决定的,并无定论。
3 URI? 如古文的索引,存不确定性?是否仍存在歧義?或歧义乃是必然的?歧义的處理該如何?
URI是网络上任何事物的标识,可以通过一种索引机制(例如域名+IP)获得,可以是一个封闭的信息宇宙(只有进入这个宇宙才能解析、定位)。
看不出来与古文索引以及索引单元的确定性有什么关系。歧义问题跟URI无关,甚至跟索引都没有关系,歧义是领域专家的事情,甲专家可以指出乙专家论著里的索引索错了,这虽然影响索引的质量,但与索引这种方式和检索工具本身没有直接关系。
4 有序化 — 圖化? 單一的序是否某種結構的特殊形式? 而索引需可變形以配合某一特定的顯示形式? 如: 依字順,依頻度,依影照到某一主題結構, 時間順序,空間順序,時/空結構等的圖化?
图化(可视化)是一种展示方式,并不一定反映了秩序i,但是秩序如果用图示的方式能够更好地展示,特别对于数字资源之间的关系,可以通过三维可视化方式,三维方式也可以模拟多种效果,如星空、分子结构等。
单一的顺序也是有序,同一个索引应该可以有多种排序方式。
5 索引與元素據該沒有什麼關係吧
索引与元数据关系密切。索引单元本身是对文献的一种主题或其它信息的提取,类似于标签(tag),一般都标注了出处、页码或链接,因此它本身其实就是元数据。整个索引可以看成是一个词表,这个词表甚至比单纯的大众分类法(folksonomy)还要规范、可信、权威。索引从方法学上来看,我认为就是“元数据方法”的一种。
6 自動化是必行之路,但自動化的目標是什麼?是自部可能的?是人机合作的?還是純智能的? 選擇的標準又如何?
自动化的目标是机器能够根据需要自动或半自动地建立索引,有很多方法可以实现。现在一般认为全自动的技术还不成熟,Web2.0提供了大量的“群体智慧”,可以结合相关反馈得以实现。这方面的研究正方兴未艾,前途无可限量。。。
請介紹一些基礎理論的書或文章給我。
你要哪方面的?技术?还是图书馆学?这种边缘交叉的学科领域,互联网才是最好的资料库。
“数字索引学”要旨
张琪玉先生说:
“索引是对某种文献或某一文献集合中所包含的各篇文章,或所讨论的各个局部主题,或所涉及的各种试想(如地区、人物、机构、事件、生物、矿 物、产品、设备、公式、数据、著作等)以简明的方式分别著录标引,即确定其检索标识和指出其所在位置,并将款目按一定的可检顺序排列和组织,以方便检索的 一种工具。”
由以上定义,可以得出以下两点结论:
一、索引与目录一样,都是提供一种检索方法或工具,通过析出知识单元并加以有序组织,而在大量的信息中进行定位。
二、索引有三要素:
- 结构化–带来“单元性”–要有URI和元数据格式;
- 有序化–产生“组织性”–要采用知识体系(本体)进行组织;
- 可视化–造就“交互性”–要有二维、三维界面进行时空或抽象呈现;
传统索引的有序化主要是指对索引单元(款目)的编排以字符或语义单元的自然属性(通过音序、字形编码顺序来检字)来排列的方式,在印刷过程中通过排版技巧(字体字号空格缩进段落等)来实现,可以认为其有序化和可视化是一体的。
数字索引学的研究课题:
除与传统索引进行转换之外(如书后索引的自动建立、方正格式等的索引点标注等),数字索引学还将研究:
- 资源标识体系(索引什么,如何标识,如各种URI);
- 元数据格式(如何描述、表达、互操作,如RDFa、各种微格式等);
- 有序化(自然顺序之外,还包括本体和各类KOS)组织方式;
- 自动索引(信息或知识单元的自动抽取);
- 可视化方式。
数字索引学技术基础:
- Web架构;
- XML/RDF编码;
- 语义描述(元数据与本体标准);
- 关联数据;
- 规范控制;
- 信息可视化。
结论:索引与索引学已经与数字资源组织的各专门领域和学科大融合。
“2010图书馆前沿技术论坛:关联数据与书目数据的未来会议”日程及演示稿下载
Linked Data Workshop Shanghai
(日程及会议演示稿)
主办单位:上海图书馆学会学术委员会
协办单位:上海市普陀区图书馆
活动主题:关联数据:技术实现和应用前景
费用:无
会议时间:2010年8月23日13:00-18:00pm
会议地点:普陀区图书馆 大渡河路1800号(铜川路口)12楼多功能会议室
会议日程(执行):
13:00-13:10 上海市图书馆学会学术委员会主任范并思致辞,普陀区图书馆馆长司颖致辞
13:10-13:40 曾蕾教授远程发言(ppt)
13:40-14:20 林海青 关联数据的功能需求及其实现(ppt)
14:20-15:00 刘 炜 关联数据ABC及近两年来的应用进展(ppt)
15:00-15:40 胡小菁 RDA与关联数据(ppt)
15:40-15:50 休息
15:50-16:15 黄田青 关联数据:语义万维网的新坐标 (ppt)
16:15-16:45 夏翠娟 应用开源内容管理软件Drupal发布关联数据的探索(ppt)
16:45-17:10 张春景 关联数据开放的有关法律问题(ppt)
17:10-17:40 白海燕 基于关联数据的信息组织深度序化初探(ppt)
17:40-18:05 赵 亮 主持远程参会者发言及讨论
18:05-18:06 范并思 会议总结并宣布闭幕
群组资料在此:http://sns.libspace.org/space-mtag-tagid-38.html
会议通知在此:https://docs.google.com/ 或pdf格式:http://sns.libspace.org/

2010图书馆前沿技术论坛:关联数据与书目数据的未来
沿着张琪玉先生开创的道路奋勇前进
记得当年祝希龄老师给我们上情报检索语言课,用的当然是张琪玉先生的教材。这门课给我印象最深的是:情报检索语言是一种规范的人工语言,应该与自然语言区别开来。这种思想方法在近年来元数据和本体的学习中,一直让我受益匪浅。
最近在看一些本体的东西,想借鉴一下自然语言处理领域长期以来的研究成果,看着看着发现他们走不下去的一个重要原因是忽略了自然语言与人工语言的区别(他们并不是不懂,但却一定要将两者调和,或者说从自然语言中发现可以被形式化的东西),数字图书馆领域一直在搞的本体和元数据,一直想突破基于字词匹配的全文检索而达成基于概念(知识)的检索,一直在开发适用于网络和机器处理的人工语言规则,这条道路我认为是充满希望的康庄大道。
自然语言处理(NLP)的水很深,发展了很多年,规则繁复,成果众多,还跟人工智能有不小的瓜葛,特别是汉语的自然语言处理,其典型应用是机 器翻译。前一阵还跟一位网上偶遇的朋友聊起汉外自动翻译,我认为如果不局限于领域应用,普适的翻译机是开发不出来的。但是据我知道我们有不少科研机构从七 十年代开始就钻牛角尖,浪费了无数科研经费,还在做“无畏”的努力。而领域应用,实际上已经不是单纯的自然语言处理范畴了,例如我们目前积极推进的本体 (包括KOS)、元数据的应用,其目的就在于避开自然语言的弱点,而发明、构建一套人工语言和规则,达成机器对于语义的理解。在这个机器世界里,是不存在 语种差别的,任何语言都被机器理解为符号。这个目标能不能完全实现,能不能建立一套完全形式化的机器语言规则,很好地适用于某些领域,现在还不好说,可能 还有赖于我们当前的努力。
汉语的问题,曾经让汉外翻译系统的研发结结实实地摔跟头的,主要有以下一些(汉语分词问题由于引入了语境、采用穷 尽方法等,目前已经解决得相当不错,就不说了):
1. 汉语同一词类担任多种语法成分且无形态变化;
2. 汉语句子的构造原则与短语的构造原则基本一致;
3. 汉语中的虚词;
4. 汉语的语序;
5. 汉语的书写习惯。
自然语言的机器处理有一个基本假设可能有问 题,这个假设即“语言表达的客观性假设”,即认为语言之所以能够达成交流的目的,是因为关于语言的表达 (包括语义、语法和结构)是客观的,对于客观性的认识能够使我们采用有限的形式 语法组合规则和统计规律,来“变换”、“重构”语言的表达,因此计算机也就能够“理解”“客观的”语言。然而迄今为止的研究似乎证明,语言的客观性是无法 被彻底揭示的。或者我们只能说语言有一定的客观性,但是本质上还是主观的。其客观性表现为人与人之间达成的理解“协议”,这种协议是可以随时变化的。
近 年来由于网络的发展带来语言现象的巨大变化,各种新的“火星语”“符号语”等网络语言层出不穷,老夫子们斥责这些表达不符合汉语习惯,需要规范,但毕竟 语言是活的东西,能够进行交流沟通,就一定会影响目前的语言规范。因此自然语言处理原有的套路(通过穷尽有限的规则来达到机器可处理)越来越不合时宜,应 该从哲学方法论的角度进行大规模的梳理和反省。当然,目前计算机的能力越来越强大,结合网络的发展而形成的巨大的云计算能力,可以支持越来越复杂的穷尽算 法、规则和统计规律,汉语输入法和搜索引擎的发展似乎也印证了这一点,因此如果应用得法,在一段时间内采用传统方法应该也是能够取得一定进展的,但是这种 方法应该看不到最终的解决自然语言机读化问题的希望。
前述5个问题在规范的情报检索系统(IR,或者说数字图书馆系统,或者说应用了本体和元数据 的系统)的开发中只有第一点略有相关,其余都可以绕过。因为概念体系(本体)的架构依赖于自然语言的,基本上只到单词(概念)一级(就是说概念来自于单 词,是对自然语言的规范产生的,是人为指定的概念符号),这一级(字词处理,包括分词和词性标注等)从理论到实践已基本成熟,到更宏观的句法(语法和结构)一级IR基本上与NLP开始分道扬镳了,都是采用“人工”的机器语言(RDF/XML)了,这是自然语言处理与情报检索系统两 个领域在研究对象方面最大的不同。正因为此,在领域应用方面就能够按照比较严格的规范体系来做(至于如何做又是一个大课题,如自顶向下一般是对于新建系统 可行,自底向上进行标注则不可能完全采用人工来做,就需要进行自然语言理解、模式识别或者原有结构的转换映射等方法)。其缺点可能是不够“自然”,即如果 让人直接进行阅读,人性化程度还是要差一点(就如同编程语言由机器语言向高级语言进化,但高级语言也主 要是给机器用的,如果在进行RDF/XML编码转换时能够尽可能应采用软件工具来实现,人性化程度可以高一些)。
上面一大通罗嗦,其实是想说:本体、元数据规则等,其实是(可以看成)一套人工语言规则系统,我们现在应该学习张琪玉先生当初的做法,为网络信息资源的描述和检索,提供一套形式化或半形式化的人工(规范)语言系统(概念体系)和规则,用以规范网络信息资源的管理,建立一套新的知识组织理论(和方法论)体系。或可叫做“元数据方法”或“本体方法”。目前计算语言学研究,就是要从自然语言中发现可被形式化的规则(可以理解为这部分内容只是语言现象的一部分,不可能找到所有的规则,否则就不是“自然”语言了),并对这部分 内容进行“机读化”。从这个角度思考,人工语言应该比对于传统的纯自然语言的形式化处理更为简单,从机器翻译等领域对于语言形式化的研究成果中应该可以找 到大量丰富的养料。
例如以下“计算机语言处理模式”的抽象思考就很有启发:
1、 处理对象(输入)为有限种符号的有限长序列。其中包括如何编码、如何形式化的一整套规则。
2、处理方式(运算)为有限的程序变换。早期采用 简单模式匹配法,后来(至今)采用基于规则的处理方法,近年来流行基于语料库的统计方法。
3、处理结果(输出)为符合新规则的表达 式。
计算语言学研究对象有点像现在的网络世界,在其中寻找规律,或者规范表达(通过语法、 惯用法等),有点像营造一个语义网,只不过网络世界使得人们有了一个工具进行规范(因为有一个前提是:必须机读),而自然语言因为无法规范,才具有无限的 创造力和想象力。上帝的归上帝,凯撒的归凯撒,整个世界才能和谐有序,语言问题的处理才能找到终极方案。
———————————无聊的分 隔符:搞研究是最无聊的——————————
附:以前收集的一个有关机器翻译困境的帖子:
发信人: chris (亦云), 信区: LanguageLogic
标 题: 机器翻译难在哪里
发信站: BBS 曙光站 (Thu Apr 8 14:08:34 1999)
机器翻译难在哪里
做这么多年的机器翻译,感到最大的意外是翻译竟然要调用如 此之深之广之
多层次的知识,而且各个层次的知识彼此如此强烈相关,剪不断,理还乱。
首先,翻译需要彻底的源自然 语言理解以及纯熟的目标自然语言运用,决
不是很多人以为的有一本英汉词典,记住所有英语词法句法规则就可以的。
而深层的自然语言理解则不 得不触及到人类生活的各个层面各个角落,而
且需要浩瀚的背景知识(国外已经有人在谈论语言是知识的海洋)。有的
知识和语种有关,如汉语世 界谈及黄色新闻则会想到“色情”,英语世界
则认为黄色新闻是“那种危言耸听,追求轰动效应的新闻”;有的知识和
语种无关,如:孔子是中国 春秋战国时代的思想家、教育家;乔丹是芝加
哥公牛队的篮球球星;克林顿和莱温斯基有某种关系;邓小平已经去世……
翻 译界常常讨论翻译人员不仅要熟习两种语言,而且要熟知两种文化的差异。
但对计算机来讲,还有大量对人来说不讲自明的知识,如“苹果不能吃人,
只 有人可以吃苹果”;“冬天比夏天冷”;“擀面杖和做饺子有关”这样的
知识。其中绝大部分知识都不是老师教的或书本上讲的,而是我们从小长到
大 所见所闻所感所悟,从具体的到抽象的,从星星点点的到连成体系的。我
们在翻译时不知不觉(偷偷摸摸)调用了这些知识,计算机当然自叹弗如。
请 看:
A. 1979年以前,中国大部分老百姓还没有解决温饱问题。
B. 2500年以前,中国出了一个教育家孔子。
为什 么前者理解为“公元1979年以前”,而后者是“距今2500年以前的那一年”?
常识告诉我们孔老二早已作古。
I can see Peking University tower on the mountain.
为什么翻译成“我在山上能看见北京大学的水塔”而不 是“我能看见山上的
北大水塔”?
去过北大未名湖区的人都知道水塔并不在山上。
妻子晚餐还做了两个丈夫喜欢吃的菜。
为 什么不能理解为“两个丈夫”而是“两个菜”?
在我们这个一夫一妻制的国家里一个妻子不可能有两个丈夫。
演员谢幕时,不要坐着不鼓 掌。
为什么“不要坐着不鼓掌”的主体是观众,不是演员?而“演员谢幕时,不要
站着不鞠躬。”主体是演员?常识告知。
政府 发给她一次性生活补贴。
为什么是“一次性 生活补贴”而不是“一次 性生活 补贴”?常识嘛!性
生活怎么会发给补贴?
等 等,等等。
于是我们也就理解了为什么计算机不能向人那样翻译,它根本不是人类社会生活
的一员嘛!
语音上也能提示 一些消解歧义的信息。当一个老人说“孙子每天教我一点计算机。”
我们知道他不是指战国时代的军事家孙子。因为他读为”sun1 zi4″,而不是”sun1
zi3″。 “1979年以前”读成“一九七九年以前”则很可能是公元1979年;若读
成“一千九百七十九 年以前”则疑为“1979 years ago”。
语言生活在语境里,正如人生活在社会里一样。即使是孤立的一句话,人也是要
给 它造语境,使它有生命。“他今天没有喝酒。”言外之意,他一定经常喝酒。
“在学校一定要听老师的话。”一定是爸爸妈妈送小孩上学时叮嘱的话。英语 也
是一样,“Mr. Smith was a great man.” 言外之意,要么史密斯先生已经去世,
要么他曾经是个伟人,但现在 不是了。
众所周知的信息,我们就不必说了;许多默认的你知我知的知识(公共知识)也不
用显性地字面上表达出来,只有那些新的,不 那么明显的信息,才需要使用语言澄
清。当代世界,语言是用来交流信息的。人们讲究的是语言的时效性,而不是
规范性。在公共汽车里,我们拿 着钱递给售票员说“三个天安门”(”Three tickets
for Tiananmen” rather “Three Tiananmens”)。告诉售票员两个新的信息,(1)
买三张票,(2)目的地是天安门。机器翻译必须把隐性(unsaid)的信息,提升
到 字面上说出来。
因此,我认为,之所以机器翻译如此之难,是因为它涉及到诸多层次知识的调用。
语言是一个多层次交织的系统,这些层 次包括:语法,语义,语境,语音,常识,
专业知识,以及场景和文化背景知识……如果说靠乔姆斯基式的句法知识能够解
决(汉语)40%(这 个数是瞎写的)问题;概念性的知识能够再解决到60%的问题;
剩下的就都是语用知识。因此,机器翻译无法突破, say, 60%,而突破不了60%的
机器翻译是没有什么实用价值的。
出路何在?或许我们应该把大百科全书都输入到计算机里?或许知识的获 取要靠
机器和人,机器和机器,机器和环境相互交流来获得?或许计算机的世界和人类
的世界根本就是两个世界,别指望机器能理解人类社会?