Archive for the '元数据' Category

KISS测试

Web时代东西太复杂就自然被淘汰,有一个著名的KISS原则(大智若愚原则),即Keep It Simple and Stupid,似乎目前Web上的很多东西都符合这个原则,不符合这个原则的东西都死翘翘了。因此联想到DC元数据现在整出三大法宝:抽象模型、应用纲要 (包括互操作级别)和DSP(描述集纲要)未免感到有点前景堪忧。

关于KISS,曾看到一项测试,可以用来作为便捷的衡量方法:

  1. 记事本测试:你能否用记事本(notepad)手工创建一条符合规范的记录,大小不超过4k?
  2. 阅读测试:你能否在一小时内基本读懂规范文本?
  3. 编码测试:你能否在一天内编制一个简单的客户端或服务器软件,实现简单的功能?

根据这个标准,传统图书馆自动化系统的很多东西,包括图书馆员的很多思路,都要更新换代了!

讲座预告:关于元数据的最新进展

Update:讲座时间:10月30日上午9:30-11:30。地点:上海图书馆系统网络中心3508会议室。

感谢王松林老师,让我就元数据的最新发展和对语义互操作的理解,给他的研究生介绍一下。我最近将花些时间,系统地进行一些梳理,打算于10月30日和11月20日上午进行介绍,届时也欢迎我的同事以及华师大的研究生一同参与交流(时间可能会有变动,地点也未定,如您感兴趣,请关注本博客的更新)。

10月30日的讲座大纲目前考虑包括如下十二部分内容(这是个雄心勃勃的计划,如介绍不完,将顺延至下次):

1、DCMI组织机构的变化
自从写完那篇《DC元数据的历史、现状和发展》一文之后发生了哪些变化,为什么。
2、DC元数据应用纲要(DCAP)方面的进展
主要是两个AP的规范文档以及两个三个AP实例(其中一个是草案)。
3、DC元数据抽象模型(DCAM)
为什么及是什么
4、元数据描述的新加坡框架
为应用纲要提供理论基础,回答“一个实用的元数据方案应该包含哪些内容?各类内容的关系是什么?”的问题。
5、元数据描述集的定义(DSP:Description Set Profile)
为什么需要DSP?与应用纲要什么关系?
6、DC元数据编码
包括XHTML、XML、Text、RDF四个编码规范。
7、语义互操作层次
同一组属性集在编码和约束上的不同规定决定了互操作程度的不同,据此区分语义互操作层次。
8、部分元数据应用项目简介
主要是这两年DC年会的案例以及应用了DC元数据的项目汇总。其它不用DC元数据的项目也需要做些介绍。
9、元数据应用相关工具
包括生成工具、转换工具、映射工具、抽取工具、质量控制工具等。
10、关联数据是一种元数据
图书馆有哪些数据值得做关联数据?
11、元数据与规范控制
元数据与本体术语体系,规范控制如何实现?
12、RDA作为一种元数据方案(规范但不是格式)
哪些地方用到了/借鉴了DCMI的元数据方法论?比AACR2有什么大的变化?

关于“元数据研究和应用的最新进展”

作为一只DC老鸟,此次参加2009年会却一博未发,实在是因为“百感交集,夜不能寐,思绪万千,无语凝噎”的结果(具体以后禀告)。好在此次有牛排同学亲临现场,据说受到了强烈的culture shock,就让我们就期待他的精彩报道吧(透露一下,此次还有一位研究生mm也前往参会,也让我们一同期待)。

最近接到两个题目要开讲座,1、介绍“元数据研究和应用的最新进展”,2、介绍“元数据互操作研究”。今天就前一个问题做一些思考。

要介绍“元数据研究和应用的最新进展”,恐怕首先需要对“新”“旧”进行分界。

元数据已经谈论得很多了,“研究”与“应用”总有脱节,图书馆界内和界外也有很大不同。

介绍元数据是“关于数据的数据”或者“结构化的数据”是没什么意义的,罗列各个领域的各类元数据规范标准和应用也肯定out-of-date了。那么什么是“最新进展”呢?

DC-2009上Tom Baker和Makx Dekkers的介绍(TomMakx)有了许多新意。当然Makx主要是从DCMI的使命和任务的角度,从如何推动DC元数据运动的角度,担当起他统一协调的职业经理人的角色,更多的是关注组织建设、计划规划等方面的事情。Tom作为Usage Board的头,一直是负责DCMI”内容建设”,包括各项标准规范的研制发布、讨论协调、方向把握、宣传推广、指导应用等等。

关于DCMI组织架构、管理模式的历史变迁我曾经有专文介绍过,虽然每次都在变化,让人惊异于DCMI始终是一个不断发展变化的“有机体”,但是这些也属于“旧”的内容了。

DCMI对于元数据标准规范的认识的变化,以及基于这些认识的变化而产生的工作重点和方法论的变化,一直在发生,年年迈小步不停步,所以回过头去看,进展还是很大的。士别三日,如隔三秋。感觉倒是可以以国内大规模开展元数据标准规范建设为分界点,这之后国内实际上是止步了,人们对于元数据的认识停留于各类领域应用属性元素集的研制,及其“纵向”、“横向”扩展,描述(著录)方法的规定也向传统的MARC著录靠拢,事无巨细,人为判断,可严可宽,没人关心(或者懂得解决)编码方面的一致性问题,这之后(应该从DC2004上海会议之后算起吧)国际元数据研究和应用(主要是前者)发生了哪些变化?澄清了哪些问题?这些变化意味着什么?我们目前的所谓“元数据方案”或“元数据应用”之所以落后,落后在哪些方面?可以做一些梳理,应该是很有意义的。

一言以蔽之,DCMI的元数据进展,一直走在探讨元数据规范如何更加彻底地“机读化”的方向上,也就是比MARC的所谓“机读”更进一步,让机器和机器之间,在互联网(主要是Web)上,能够对于元数据所描述的语义进行编码,并且拷贝不走样(大家知道,MARC只是让机器对于数据的处理和输出代码化,是人和机器之间的交互,不能实现异构系统之间的交互)。例如DCMI近年来发展起来的抽象模型应用纲要新加坡框架描述集规范链接二)、互操作层次以及各种编码规范的不断推出,都可以看成是对于元数据方案“形式化”的努力。当然这个方向也极大地受益于Web技术环境特别是语义Web的发展,并且DCMI的实践应该说是成功地“反哺”于后者,为Web提供更加强有力的语义描述工具和支撑。

相对于源自于图书馆界的DC来说,其它领域的元数据(包括数据挖掘或其它计算机技术领域),基本上没有达到DCMI的深度和水平(包括图书馆界自身的RDA,也在向DC不断学习),基本上还只是把元数据作为简单的、互不相关的属性字典(也就是说没有考虑概念之间的相关性描述,或者说相关性没有外在(explicit)的方法进行形式化的描述)。当然这样比较可能有失公允,因为传统的应用和商业化的领域解决方案基本上不考虑在Web分布式环境下的互操作,以及语义描述和功能实现的灵活性、独立性、可扩展性等,因此概念模型、属性关系以及各类约束的实现可以排除在元数据方案之外,由系统来实现即可。这也是造成为什么企业界、商用系统对于DCMI元数据并不感冒,甚至不买账的原因。系统之间的互操作很少成为他们关注的重点,他们只需要实现业务方面的功能需求即可,这种实现往往采用商业化解决方案更有效率、更成熟。而DCMI所做的事情跟目前语义Web运动是一路货色,叫好而不叫座。只能指望政府信息、学术界、教育界以及社会公共部门(例如图书馆)界的应用,他们的需求的特点是开放、共享和长期保存。

因此可以认为,DCMI的新进展就代表了“元数据研究和应用的最新进展”。然而要说清楚这些“最新进展”,以及为什么这么做,还真不是件容易的事情,颇费思量。

顺便一说:DC-2009的大多数ppt已经上网(pdf格式),在会议网站上可以下载,另外会议论文也存档在这里 (http://dcpapers.dublincore.org/ojs/pubs),欢迎参观访问。

DC元数据最新报告

一般DCMI执行总裁Makx Dekkers每年要发布两次“发展报告”(Status Report应该是“状态报告”,我觉得翻成“发展报告”更吸引眼球,呵呵),国庆/中秋过后就要召开DC-2009年会了,上周新鲜出炉的发展报告,要去参会的同仁们要做点功课。

我最近多个场合说,我们在做完《我国数字图书馆标准规范研究》(一期)项目之后就基本上止步不前了,该项目固然取得了很大的成绩,但看起来并未达成初衷。首先本人需要检讨,本人的“资源集合”子项目就做得很烂(感谢张大组长给我面子,一直没有机会向您检讨,现在DC的资源集合元数据已经完全不是那个样子了,嘿嘿)。从DCMI的进展来看,后来在元数据标准规范方面最大的进步,基本上可以归结为向“机读化”的不懈努力:提出了语义互操作层次,建立了抽象模型,讨论了大量的编码规范,并探索了元数据各类功能(主要是语义功能)在机器环境中的实现机制(如linked data)。

最新的发展报告一如往常一样琐碎,撮其要点绍介如下:

1、DC元数据互操作层次“Interoperability Levels for Dublin Core Metadata”作为DCMI的推荐文件发布。该文当把DC元数据的应用(通常将应用规范称为“应用纲要”AP: Application Profile)分成四个层次:a 仅用元素名称(目前大多数应用都只到这个级别),b 把元素作为严格的“概念”(具有机器可判断的形式语义),c 不光用元素,还要包括编码模式,即在语法格式上也要严格规范,d 整个元数据记录(包括各类语义和语法的约束)都要符合规范。其中c和d都必须符合DC元数据抽象模型(DCAM)。

2、Karen Coyle和 Thomas Baker修订了《DC元数据应用纲要指南》“Guidelines for Dublin Core Application Profiles”,这可以说是当前DC元数据应用最重要的文档,我们DC元数据中文网居然没有翻译,罪过啊罪过,有没有志愿者愿意翻译的?嘿嘿。

3、Pete Johnston 和 Andy Powell辛苦修订的最终版《DC元数据XML编码规范》“Expressing Dublin Core Description Sets using XML (DC-DS-XML)” 即将公布。这个文档将使DC的XML编码完全符合DCAM。

4、Mikael Nilsson起草的《DC应用纲要描述集规范》( Description Set Profile specification for Dublin Core application profiles)和Karen Coyle起草的《应用纲要设计模式》(“application profile design patterns” )均可作为设计元数据实用工具和应用系统的非常好的技术文档。

5、DCMI的Diane Hillmann一直在为RDA的词表(包括FRBR实体、属性词表)建立注册系统,并试图提供符合DCAM的编码规范。一系列成果散件于一些演示文件中:

6、元数据登记注册系统,在这里有一个应用可以在三个系统之间进行映射转换,似乎是一项元数据Web服务的雏形。

7、DCMI与IEEE联合教育组提出了一个应用于教育领域的元数据应用纲要草案

RDA资料精华

有更新!见后文。

出处:Best Links for RDA 来自MARS Authority Control by Chad

2009年9月29日原作者对这个“资料贴”有更新,如下: