关于“元数据研究和应用的最新进展”

作为一只DC老鸟,此次参加2009年会却一博未发,实在是因为“百感交集,夜不能寐,思绪万千,无语凝噎”的结果(具体以后禀告)。好在此次有牛排同学亲临现场,据说受到了强烈的culture shock,就让我们就期待他的精彩报道吧(透露一下,此次还有一位研究生mm也前往参会,也让我们一同期待)。

最近接到两个题目要开讲座,1、介绍“元数据研究和应用的最新进展”,2、介绍“元数据互操作研究”。今天就前一个问题做一些思考。

要介绍“元数据研究和应用的最新进展”,恐怕首先需要对“新”“旧”进行分界。

元数据已经谈论得很多了,“研究”与“应用”总有脱节,图书馆界内和界外也有很大不同。

介绍元数据是“关于数据的数据”或者“结构化的数据”是没什么意义的,罗列各个领域的各类元数据规范标准和应用也肯定out-of-date了。那么什么是“最新进展”呢?

DC-2009上Tom Baker和Makx Dekkers的介绍(TomMakx)有了许多新意。当然Makx主要是从DCMI的使命和任务的角度,从如何推动DC元数据运动的角度,担当起他统一协调的职业经理人的角色,更多的是关注组织建设、计划规划等方面的事情。Tom作为Usage Board的头,一直是负责DCMI”内容建设”,包括各项标准规范的研制发布、讨论协调、方向把握、宣传推广、指导应用等等。

关于DCMI组织架构、管理模式的历史变迁我曾经有专文介绍过,虽然每次都在变化,让人惊异于DCMI始终是一个不断发展变化的“有机体”,但是这些也属于“旧”的内容了。

DCMI对于元数据标准规范的认识的变化,以及基于这些认识的变化而产生的工作重点和方法论的变化,一直在发生,年年迈小步不停步,所以回过头去看,进展还是很大的。士别三日,如隔三秋。感觉倒是可以以国内大规模开展元数据标准规范建设为分界点,这之后国内实际上是止步了,人们对于元数据的认识停留于各类领域应用属性元素集的研制,及其“纵向”、“横向”扩展,描述(著录)方法的规定也向传统的MARC著录靠拢,事无巨细,人为判断,可严可宽,没人关心(或者懂得解决)编码方面的一致性问题,这之后(应该从DC2004上海会议之后算起吧)国际元数据研究和应用(主要是前者)发生了哪些变化?澄清了哪些问题?这些变化意味着什么?我们目前的所谓“元数据方案”或“元数据应用”之所以落后,落后在哪些方面?可以做一些梳理,应该是很有意义的。

一言以蔽之,DCMI的元数据进展,一直走在探讨元数据规范如何更加彻底地“机读化”的方向上,也就是比MARC的所谓“机读”更进一步,让机器和机器之间,在互联网(主要是Web)上,能够对于元数据所描述的语义进行编码,并且拷贝不走样(大家知道,MARC只是让机器对于数据的处理和输出代码化,是人和机器之间的交互,不能实现异构系统之间的交互)。例如DCMI近年来发展起来的抽象模型应用纲要新加坡框架描述集规范链接二)、互操作层次以及各种编码规范的不断推出,都可以看成是对于元数据方案“形式化”的努力。当然这个方向也极大地受益于Web技术环境特别是语义Web的发展,并且DCMI的实践应该说是成功地“反哺”于后者,为Web提供更加强有力的语义描述工具和支撑。

相对于源自于图书馆界的DC来说,其它领域的元数据(包括数据挖掘或其它计算机技术领域),基本上没有达到DCMI的深度和水平(包括图书馆界自身的RDA,也在向DC不断学习),基本上还只是把元数据作为简单的、互不相关的属性字典(也就是说没有考虑概念之间的相关性描述,或者说相关性没有外在(explicit)的方法进行形式化的描述)。当然这样比较可能有失公允,因为传统的应用和商业化的领域解决方案基本上不考虑在Web分布式环境下的互操作,以及语义描述和功能实现的灵活性、独立性、可扩展性等,因此概念模型、属性关系以及各类约束的实现可以排除在元数据方案之外,由系统来实现即可。这也是造成为什么企业界、商用系统对于DCMI元数据并不感冒,甚至不买账的原因。系统之间的互操作很少成为他们关注的重点,他们只需要实现业务方面的功能需求即可,这种实现往往采用商业化解决方案更有效率、更成熟。而DCMI所做的事情跟目前语义Web运动是一路货色,叫好而不叫座。只能指望政府信息、学术界、教育界以及社会公共部门(例如图书馆)界的应用,他们的需求的特点是开放、共享和长期保存。

因此可以认为,DCMI的新进展就代表了“元数据研究和应用的最新进展”。然而要说清楚这些“最新进展”,以及为什么这么做,还真不是件容易的事情,颇费思量。

顺便一说:DC-2009的大多数ppt已经上网(pdf格式),在会议网站上可以下载,另外会议论文也存档在这里 (http://dcpapers.dublincore.org/ojs/pubs),欢迎参观访问。

DC元数据最新报告

一般DCMI执行总裁Makx Dekkers每年要发布两次“发展报告”(Status Report应该是“状态报告”,我觉得翻成“发展报告”更吸引眼球,呵呵),国庆/中秋过后就要召开DC-2009年会了,上周新鲜出炉的发展报告,要去参会的同仁们要做点功课。

我最近多个场合说,我们在做完《我国数字图书馆标准规范研究》(一期)项目之后就基本上止步不前了,该项目固然取得了很大的成绩,但看起来并未达成初衷。首先本人需要检讨,本人的“资源集合”子项目就做得很烂(感谢张大组长给我面子,一直没有机会向您检讨,现在DC的资源集合元数据已经完全不是那个样子了,嘿嘿)。从DCMI的进展来看,后来在元数据标准规范方面最大的进步,基本上可以归结为向“机读化”的不懈努力:提出了语义互操作层次,建立了抽象模型,讨论了大量的编码规范,并探索了元数据各类功能(主要是语义功能)在机器环境中的实现机制(如linked data)。

最新的发展报告一如往常一样琐碎,撮其要点绍介如下:

1、DC元数据互操作层次“Interoperability Levels for Dublin Core Metadata”作为DCMI的推荐文件发布。该文当把DC元数据的应用(通常将应用规范称为“应用纲要”AP: Application Profile)分成四个层次:a 仅用元素名称(目前大多数应用都只到这个级别),b 把元素作为严格的“概念”(具有机器可判断的形式语义),c 不光用元素,还要包括编码模式,即在语法格式上也要严格规范,d 整个元数据记录(包括各类语义和语法的约束)都要符合规范。其中c和d都必须符合DC元数据抽象模型(DCAM)。

2、Karen Coyle和 Thomas Baker修订了《DC元数据应用纲要指南》“Guidelines for Dublin Core Application Profiles”,这可以说是当前DC元数据应用最重要的文档,我们DC元数据中文网居然没有翻译,罪过啊罪过,有没有志愿者愿意翻译的?嘿嘿。

3、Pete Johnston 和 Andy Powell辛苦修订的最终版《DC元数据XML编码规范》“Expressing Dublin Core Description Sets using XML (DC-DS-XML)” 即将公布。这个文档将使DC的XML编码完全符合DCAM。

4、Mikael Nilsson起草的《DC应用纲要描述集规范》( Description Set Profile specification for Dublin Core application profiles)和Karen Coyle起草的《应用纲要设计模式》(“application profile design patterns” )均可作为设计元数据实用工具和应用系统的非常好的技术文档。

5、DCMI的Diane Hillmann一直在为RDA的词表(包括FRBR实体、属性词表)建立注册系统,并试图提供符合DCAM的编码规范。一系列成果散件于一些演示文件中:

6、元数据登记注册系统,在这里有一个应用可以在三个系统之间进行映射转换,似乎是一项元数据Web服务的雏形。

7、DCMI与IEEE联合教育组提出了一个应用于教育领域的元数据应用纲要草案

纪念Rachel

刚看Weibel的博文,Rachel Heery: A Remembrance,一种不祥的感觉,到网上一查,果然是不幸的消息,DCMI的元老,UKOLN的资深研究员Rachel Heery于7月24日不幸去世了

我对Rachel的记忆颇深,她和当时同样来自UKOLN的Andy Powell都是DCMI的中间力量,都属于技术派,为DC元数据提供了非常丰富的思想,与Dianne Hillmann形成英美两派,但远没有后者那么强势,非常亲切,颇有英国人的礼貌和风度。

如果没有记错的话,元数据应用纲要(Metadata Application Profile)就是她最先倡导的。DC-2004在年上海召开的时候,她就因为生病开刀没有来成,Andy还特地为她要了一套会议资料、纪念品和T恤带回去。

对于Rachel的回忆,Weibei的纪念文章写得非常生动感人,让人回到过去。这里还有Lorna的回忆文章

DCMI元数据运动一转眼十五年了,距离我第一次参加DC会议也有9年,早期的参与者老的老,退的退,随着Weibel不再主导,OCLC的全面退出,现在是越来越倒向W3C,越来越“技术”了。

更新(每读一篇友人的纪念文章,都不免心中潸然):

DCMI 官网: In memoriam: Rachel Heery

2009-08-06, With great sadness we have learned that Rachel Heery, a long-time participant in the Dublin Core community and member of the DCMI Advisory Board until her retirement in 2007, passed away on 24 July 2009. With her ground-breaking introduction of the idea of Application Profiles at the eighth Dublin Core workshop in Ottawa in 2000, Rachel helped move DCMI in the direction we still follow. Her numerous research and development projects as Assistant Director of UKOLN at the University of Bath (UK) made essential contributions to defining the evolving state of the art in metadata. We will miss her.

交大数图会议上的发言ppt

语义互操作与关联数据
View SlideShare presentation or Upload your own. (tags: dcmi metadata)
会议网站:http://www.lib.sjtu.edu.cn/adls/

DCMI向实体化发展

29日早上刚到会场,就碰到昨天念叨的张晓星主任,聊了几句。张主任谈到,会议的组织者感到不可理解,元数据在中国应该也算一个热门话题,为什么参会的国内代表那么少。

找了一个有电源位置坐下来,发现桌上放了一份声明:“DCMI working towards incorporation in Singapore”。这实际上是近年来在DCMI内部讨论过多次的问题,作为一个虚拟的、以志愿者为主的学术实体,难免碰到资源有限、进展缓慢等问题, 虽然DCMI也开始引入了一定的项目激励机制,但“实体化”、“公司化”发展是大势所趋。

声明中说,DCMI将向一个在法律上独立的实体(Legal entity)方向发展,计划与新加坡国家图书馆局合作,在2008年中,成立成立非营利性公司(not-for-profit public company)。新加坡图书馆局将对这个法律实体提供行政管理上的支持(我的理解就是由新加坡图书馆局进行管理),以后几个月中将就达成目标的各项 法律问题,与OCLC、DCMI的会员以及法律专家进行磋商,确定这个“DC元数据公司”的法律地位、组织结构框架等细节问题。这表明新加坡在成为 DCMI的会员(Affiliation)之后不久,又有了更深层次的合作。反观我泱泱大国,富足丰饶,就是不知道在干些什么。