关于“元数据研究和应用的最新进展”

作为一只DC老鸟,此次参加2009年会却一博未发,实在是因为“百感交集,夜不能寐,思绪万千,无语凝噎”的结果(具体以后禀告)。好在此次有牛排同学亲临现场,据说受到了强烈的culture shock,就让我们就期待他的精彩报道吧(透露一下,此次还有一位研究生mm也前往参会,也让我们一同期待)。

最近接到两个题目要开讲座,1、介绍“元数据研究和应用的最新进展”,2、介绍“元数据互操作研究”。今天就前一个问题做一些思考。

要介绍“元数据研究和应用的最新进展”,恐怕首先需要对“新”“旧”进行分界。

元数据已经谈论得很多了,“研究”与“应用”总有脱节,图书馆界内和界外也有很大不同。

介绍元数据是“关于数据的数据”或者“结构化的数据”是没什么意义的,罗列各个领域的各类元数据规范标准和应用也肯定out-of-date了。那么什么是“最新进展”呢?

DC-2009上Tom Baker和Makx Dekkers的介绍(TomMakx)有了许多新意。当然Makx主要是从DCMI的使命和任务的角度,从如何推动DC元数据运动的角度,担当起他统一协调的职业经理人的角色,更多的是关注组织建设、计划规划等方面的事情。Tom作为Usage Board的头,一直是负责DCMI”内容建设”,包括各项标准规范的研制发布、讨论协调、方向把握、宣传推广、指导应用等等。

关于DCMI组织架构、管理模式的历史变迁我曾经有专文介绍过,虽然每次都在变化,让人惊异于DCMI始终是一个不断发展变化的“有机体”,但是这些也属于“旧”的内容了。

DCMI对于元数据标准规范的认识的变化,以及基于这些认识的变化而产生的工作重点和方法论的变化,一直在发生,年年迈小步不停步,所以回过头去看,进展还是很大的。士别三日,如隔三秋。感觉倒是可以以国内大规模开展元数据标准规范建设为分界点,这之后国内实际上是止步了,人们对于元数据的认识停留于各类领域应用属性元素集的研制,及其“纵向”、“横向”扩展,描述(著录)方法的规定也向传统的MARC著录靠拢,事无巨细,人为判断,可严可宽,没人关心(或者懂得解决)编码方面的一致性问题,这之后(应该从DC2004上海会议之后算起吧)国际元数据研究和应用(主要是前者)发生了哪些变化?澄清了哪些问题?这些变化意味着什么?我们目前的所谓“元数据方案”或“元数据应用”之所以落后,落后在哪些方面?可以做一些梳理,应该是很有意义的。

一言以蔽之,DCMI的元数据进展,一直走在探讨元数据规范如何更加彻底地“机读化”的方向上,也就是比MARC的所谓“机读”更进一步,让机器和机器之间,在互联网(主要是Web)上,能够对于元数据所描述的语义进行编码,并且拷贝不走样(大家知道,MARC只是让机器对于数据的处理和输出代码化,是人和机器之间的交互,不能实现异构系统之间的交互)。例如DCMI近年来发展起来的抽象模型应用纲要新加坡框架描述集规范链接二)、互操作层次以及各种编码规范的不断推出,都可以看成是对于元数据方案“形式化”的努力。当然这个方向也极大地受益于Web技术环境特别是语义Web的发展,并且DCMI的实践应该说是成功地“反哺”于后者,为Web提供更加强有力的语义描述工具和支撑。

相对于源自于图书馆界的DC来说,其它领域的元数据(包括数据挖掘或其它计算机技术领域),基本上没有达到DCMI的深度和水平(包括图书馆界自身的RDA,也在向DC不断学习),基本上还只是把元数据作为简单的、互不相关的属性字典(也就是说没有考虑概念之间的相关性描述,或者说相关性没有外在(explicit)的方法进行形式化的描述)。当然这样比较可能有失公允,因为传统的应用和商业化的领域解决方案基本上不考虑在Web分布式环境下的互操作,以及语义描述和功能实现的灵活性、独立性、可扩展性等,因此概念模型、属性关系以及各类约束的实现可以排除在元数据方案之外,由系统来实现即可。这也是造成为什么企业界、商用系统对于DCMI元数据并不感冒,甚至不买账的原因。系统之间的互操作很少成为他们关注的重点,他们只需要实现业务方面的功能需求即可,这种实现往往采用商业化解决方案更有效率、更成熟。而DCMI所做的事情跟目前语义Web运动是一路货色,叫好而不叫座。只能指望政府信息、学术界、教育界以及社会公共部门(例如图书馆)界的应用,他们的需求的特点是开放、共享和长期保存。

因此可以认为,DCMI的新进展就代表了“元数据研究和应用的最新进展”。然而要说清楚这些“最新进展”,以及为什么这么做,还真不是件容易的事情,颇费思量。

顺便一说:DC-2009的大多数ppt已经上网(pdf格式),在会议网站上可以下载,另外会议论文也存档在这里 (http://dcpapers.dublincore.org/ojs/pubs),欢迎参观访问。

3 Responses to “关于“元数据研究和应用的最新进展””

  1. “百感交集,夜不能寐,思绪万千,无语凝噎”

  2. Keven憋不住了。
    说真的,这次是完全体会了DCMI一整套运转流程,领教了DC在应用与研究之间的平衡,也近距离见到了一直熟悉于指尖的DC大腕。套用代表们用的最多的一词“impressive”来形容我的感觉真不够劲,应该是more than shocked。
    等着老鸟第二个蛋。菜鸟。

  3. Dc的翅膀长硬了,展翅翱翔了

Leave a Reply




*