关于“元数据研究和应用的最新进展”

作为一只DC老鸟,此次参加2009年会却一博未发,实在是因为“百感交集,夜不能寐,思绪万千,无语凝噎”的结果(具体以后禀告)。好在此次有牛排同学亲临现场,据说受到了强烈的culture shock,就让我们就期待他的精彩报道吧(透露一下,此次还有一位研究生mm也前往参会,也让我们一同期待)。

最近接到两个题目要开讲座,1、介绍“元数据研究和应用的最新进展”,2、介绍“元数据互操作研究”。今天就前一个问题做一些思考。

要介绍“元数据研究和应用的最新进展”,恐怕首先需要对“新”“旧”进行分界。

元数据已经谈论得很多了,“研究”与“应用”总有脱节,图书馆界内和界外也有很大不同。

介绍元数据是“关于数据的数据”或者“结构化的数据”是没什么意义的,罗列各个领域的各类元数据规范标准和应用也肯定out-of-date了。那么什么是“最新进展”呢?

DC-2009上Tom Baker和Makx Dekkers的介绍(TomMakx)有了许多新意。当然Makx主要是从DCMI的使命和任务的角度,从如何推动DC元数据运动的角度,担当起他统一协调的职业经理人的角色,更多的是关注组织建设、计划规划等方面的事情。Tom作为Usage Board的头,一直是负责DCMI”内容建设”,包括各项标准规范的研制发布、讨论协调、方向把握、宣传推广、指导应用等等。

关于DCMI组织架构、管理模式的历史变迁我曾经有专文介绍过,虽然每次都在变化,让人惊异于DCMI始终是一个不断发展变化的“有机体”,但是这些也属于“旧”的内容了。

DCMI对于元数据标准规范的认识的变化,以及基于这些认识的变化而产生的工作重点和方法论的变化,一直在发生,年年迈小步不停步,所以回过头去看,进展还是很大的。士别三日,如隔三秋。感觉倒是可以以国内大规模开展元数据标准规范建设为分界点,这之后国内实际上是止步了,人们对于元数据的认识停留于各类领域应用属性元素集的研制,及其“纵向”、“横向”扩展,描述(著录)方法的规定也向传统的MARC著录靠拢,事无巨细,人为判断,可严可宽,没人关心(或者懂得解决)编码方面的一致性问题,这之后(应该从DC2004上海会议之后算起吧)国际元数据研究和应用(主要是前者)发生了哪些变化?澄清了哪些问题?这些变化意味着什么?我们目前的所谓“元数据方案”或“元数据应用”之所以落后,落后在哪些方面?可以做一些梳理,应该是很有意义的。

一言以蔽之,DCMI的元数据进展,一直走在探讨元数据规范如何更加彻底地“机读化”的方向上,也就是比MARC的所谓“机读”更进一步,让机器和机器之间,在互联网(主要是Web)上,能够对于元数据所描述的语义进行编码,并且拷贝不走样(大家知道,MARC只是让机器对于数据的处理和输出代码化,是人和机器之间的交互,不能实现异构系统之间的交互)。例如DCMI近年来发展起来的抽象模型应用纲要新加坡框架描述集规范链接二)、互操作层次以及各种编码规范的不断推出,都可以看成是对于元数据方案“形式化”的努力。当然这个方向也极大地受益于Web技术环境特别是语义Web的发展,并且DCMI的实践应该说是成功地“反哺”于后者,为Web提供更加强有力的语义描述工具和支撑。

相对于源自于图书馆界的DC来说,其它领域的元数据(包括数据挖掘或其它计算机技术领域),基本上没有达到DCMI的深度和水平(包括图书馆界自身的RDA,也在向DC不断学习),基本上还只是把元数据作为简单的、互不相关的属性字典(也就是说没有考虑概念之间的相关性描述,或者说相关性没有外在(explicit)的方法进行形式化的描述)。当然这样比较可能有失公允,因为传统的应用和商业化的领域解决方案基本上不考虑在Web分布式环境下的互操作,以及语义描述和功能实现的灵活性、独立性、可扩展性等,因此概念模型、属性关系以及各类约束的实现可以排除在元数据方案之外,由系统来实现即可。这也是造成为什么企业界、商用系统对于DCMI元数据并不感冒,甚至不买账的原因。系统之间的互操作很少成为他们关注的重点,他们只需要实现业务方面的功能需求即可,这种实现往往采用商业化解决方案更有效率、更成熟。而DCMI所做的事情跟目前语义Web运动是一路货色,叫好而不叫座。只能指望政府信息、学术界、教育界以及社会公共部门(例如图书馆)界的应用,他们的需求的特点是开放、共享和长期保存。

因此可以认为,DCMI的新进展就代表了“元数据研究和应用的最新进展”。然而要说清楚这些“最新进展”,以及为什么这么做,还真不是件容易的事情,颇费思量。

顺便一说:DC-2009的大多数ppt已经上网(pdf格式),在会议网站上可以下载,另外会议论文也存档在这里 (http://dcpapers.dublincore.org/ojs/pubs),欢迎参观访问。

DC元数据最新报告

一般DCMI执行总裁Makx Dekkers每年要发布两次“发展报告”(Status Report应该是“状态报告”,我觉得翻成“发展报告”更吸引眼球,呵呵),国庆/中秋过后就要召开DC-2009年会了,上周新鲜出炉的发展报告,要去参会的同仁们要做点功课。

我最近多个场合说,我们在做完《我国数字图书馆标准规范研究》(一期)项目之后就基本上止步不前了,该项目固然取得了很大的成绩,但看起来并未达成初衷。首先本人需要检讨,本人的“资源集合”子项目就做得很烂(感谢张大组长给我面子,一直没有机会向您检讨,现在DC的资源集合元数据已经完全不是那个样子了,嘿嘿)。从DCMI的进展来看,后来在元数据标准规范方面最大的进步,基本上可以归结为向“机读化”的不懈努力:提出了语义互操作层次,建立了抽象模型,讨论了大量的编码规范,并探索了元数据各类功能(主要是语义功能)在机器环境中的实现机制(如linked data)。

最新的发展报告一如往常一样琐碎,撮其要点绍介如下:

1、DC元数据互操作层次“Interoperability Levels for Dublin Core Metadata”作为DCMI的推荐文件发布。该文当把DC元数据的应用(通常将应用规范称为“应用纲要”AP: Application Profile)分成四个层次:a 仅用元素名称(目前大多数应用都只到这个级别),b 把元素作为严格的“概念”(具有机器可判断的形式语义),c 不光用元素,还要包括编码模式,即在语法格式上也要严格规范,d 整个元数据记录(包括各类语义和语法的约束)都要符合规范。其中c和d都必须符合DC元数据抽象模型(DCAM)。

2、Karen Coyle和 Thomas Baker修订了《DC元数据应用纲要指南》“Guidelines for Dublin Core Application Profiles”,这可以说是当前DC元数据应用最重要的文档,我们DC元数据中文网居然没有翻译,罪过啊罪过,有没有志愿者愿意翻译的?嘿嘿。

3、Pete Johnston 和 Andy Powell辛苦修订的最终版《DC元数据XML编码规范》“Expressing Dublin Core Description Sets using XML (DC-DS-XML)” 即将公布。这个文档将使DC的XML编码完全符合DCAM。

4、Mikael Nilsson起草的《DC应用纲要描述集规范》( Description Set Profile specification for Dublin Core application profiles)和Karen Coyle起草的《应用纲要设计模式》(“application profile design patterns” )均可作为设计元数据实用工具和应用系统的非常好的技术文档。

5、DCMI的Diane Hillmann一直在为RDA的词表(包括FRBR实体、属性词表)建立注册系统,并试图提供符合DCAM的编码规范。一系列成果散件于一些演示文件中:

6、元数据登记注册系统,在这里有一个应用可以在三个系统之间进行映射转换,似乎是一项元数据Web服务的雏形。

7、DCMI与IEEE联合教育组提出了一个应用于教育领域的元数据应用纲要草案

DC-2009征文通知

************************************************************
征文:研究论文、项目报告、招贴简报(POSTERS)
会议:都柏林核心元数据年会(DC-2009),”关联数据的语义互操作(Semantic Interoperability of Linked Data)” (메타데이터와 온톨로지의 의미적 상호운용), 韩国首尔, 2009年10月12-16日
会议网站:http://www.dc2009.kr/
************************************************************

都柏林核心元数据年会是国际元数据界的盛会,DC-2009是继东京、佛罗伦萨、西雅图、上海、马德里、曼萨尼约、新加坡和柏林之后的第九届年会,本次年会以”关联数据的语义互操作”为主题,将于2009年10月12-16日在韩国首都首尔召开,由韩国国家图书馆主办。

DC- 2009将聚焦”关联数据”和”语义Web的实现”主题,探讨打破数据仓储之间的藩篱,建立数据、信息和知识之间普遍联系的理论和实践问题。元数据是支持语义网结构化数据相互联系和揭示的关键要素,近来元数据领域对当前和未来机构数据仓储进行语义获取和建立关联十分重视,DC-2009将通过大会报告、小组讨论、简报交流、工作组会议、培训等各种形式,介绍和讨论与数据关联相关的技术和社会问题。

欢迎广大同行踊跃投稿(完整的征文通知请参见会议网站: <http://www.dc2009.kr/>。

截止日期:

* 论文/报告/简报投稿截止日期:2009年4月24日
* 录用通知:2009年6月22日
* 全文打印排版稿(Camera-ready copy)提交日期:2009年7月30日

征文要求:

研究论文 (8-10页):原创性的研究或实质性进展报告。
项目报告 (4-5页):具体项目总结或评述,希望能够理论联系实际。
招贴简报 (1-2页):专题研究或项目中某一方面的进展或者闪光点。

所有投稿必须是英文撰写,将经过大会学术委员会的匿名评审。入选论文、报告和简报都将刊载于会议录中,所有入选文章应该至少有一位作者能够前往首尔参会。

征文在线提交网址:

所有投稿均可通过大会专设的审稿系统提交:<http://dcpapers.dublincore.org/>

会议录:

所有会议论文都将在DCMI会议录网站存档:<http://dcpapers.dublincore.org/ojs/pubs/issue/archive>. 录用文章将被大英图书馆会议馆藏、OCLC FirstSearch ProceedingsFirst和PapersFirst数据库、美国计算机协会(ACM)计算机文献指南(Guide to Computing Literature)以及其它索引文摘数据库收录。

征文主题:

除了与会议主题”关联数据的语义互操作”相关的论题,也欢迎涉及以下主题的投稿:

* 元数据原则、指南、最佳实践(Metadata principles, guidelines, and best practices);
* 元数据质量、形式化和映射(Metadata quality, normalization, and mapping);
* 概念模型和框架(Conceptual models and frameworks (例如:RDF, DCAM, OAIS等) );
* 元数据应用纲要(Application profiles);
* 跨领域、语言和时间的元数据互操作(Metadata interoperability across domains, languages, and time);
* 跨领域元数据应用(Cross-domain metadata uses (例如:记录保存、永久保存、机构仓储等) ;
* 领域元数据(Domain metadata (l例如:企业、文化记忆机构、教育、政府、以及科研领域);
* 作为语义Web词表的书目标准(Bibliographic standards (例如:RDA, FRBR, 主题标目等);
* 可获得性元数据(Accessibility metadata);
* 科学数据元数据(Metadata for scientific data);
* e-Science和网格应用中的元数据(Metadata in e-Science and grid applications);
* 社会性标签(Social tagging);
* 知识组织系统(Knowledge Organization Systems (例如:本体、分类法、规范文档、民俗分类法、叙词表等以及SKOS);
* 本体设计开发(Ontology design and development);
* 元数据与本体的集成(Integration of metadata and ontologies);
* 元数据生产(Metadata generation (方法、工具和实践));
* 搜索引擎和元数据(Search engines and metadata);
* 语义Web元数据及其应用(Semantic Web metadata and applications);
* 词表注册与注册服务(Vocabulary registries and registry services)。

关于DC-2009的进一步信息:
* 请参见会议网站http://www.dc2009.kr/
* 问题或建议请发电子邮件:dc2009@mail.nl.go.kr
* 关于DCMI和DC元数据,请参考DCMI官方网站:http://dublincore.org/,以及DC中文网:http://dublincore.cn/

本通知的英文版下载地址:http://www.dc2009.kr/sub/DC-2009-CfP.zip