DC元数据最新报告
一般DCMI执行总裁Makx Dekkers每年要发布两次“发展报告”(Status Report应该是“状态报告”,我觉得翻成“发展报告”更吸引眼球,呵呵),国庆/中秋过后就要召开DC-2009年会了,上周新鲜出炉的发展报告,要去参会的同仁们要做点功课。
我最近多个场合说,我们在做完《我国数字图书馆标准规范研究》(一期)项目之后就基本上止步不前了,该项目固然取得了很大的成绩,但看起来并未达成初衷。首先本人需要检讨,本人的“资源集合”子项目就做得很烂(感谢张大组长给我面子,一直没有机会向您检讨,现在DC的资源集合元数据已经完全不是那个样子了,嘿嘿)。从DCMI的进展来看,后来在元数据标准规范方面最大的进步,基本上可以归结为向“机读化”的不懈努力:提出了语义互操作层次,建立了抽象模型,讨论了大量的编码规范,并探索了元数据各类功能(主要是语义功能)在机器环境中的实现机制(如linked data)。
最新的发展报告一如往常一样琐碎,撮其要点绍介如下:
1、DC元数据互操作层次“Interoperability Levels for Dublin Core Metadata”作为DCMI的推荐文件发布。该文当把DC元数据的应用(通常将应用规范称为“应用纲要”AP: Application Profile)分成四个层次:a 仅用元素名称(目前大多数应用都只到这个级别),b 把元素作为严格的“概念”(具有机器可判断的形式语义),c 不光用元素,还要包括编码模式,即在语法格式上也要严格规范,d 整个元数据记录(包括各类语义和语法的约束)都要符合规范。其中c和d都必须符合DC元数据抽象模型(DCAM)。
2、Karen Coyle和 Thomas Baker修订了《DC元数据应用纲要指南》“Guidelines for Dublin Core Application Profiles”,这可以说是当前DC元数据应用最重要的文档,我们DC元数据中文网居然没有翻译,罪过啊罪过,有没有志愿者愿意翻译的?嘿嘿。
3、Pete Johnston 和 Andy Powell辛苦修订的最终版《DC元数据XML编码规范》“Expressing Dublin Core Description Sets using XML (DC-DS-XML)” 即将公布。这个文档将使DC的XML编码完全符合DCAM。
4、Mikael Nilsson起草的《DC应用纲要描述集规范》( Description Set Profile specification for Dublin Core application profiles)和Karen Coyle起草的《应用纲要设计模式》(“application profile design patterns” )均可作为设计元数据实用工具和应用系统的非常好的技术文档。
5、DCMI的Diane Hillmann一直在为RDA的词表(包括FRBR实体、属性词表)建立注册系统,并试图提供符合DCAM的编码规范。一系列成果散件于一些演示文件中:
- http://www.slideshare.net/smartbroad/registering-the-rda-vocabularies-1734427
- Staff of Cambridge University Library
- Staff of the National Library of Scotland
- Libraries in the Digital Age (LIDA) conference 2009, Zadar, Croatia
6、元数据登记注册系统,在这里有一个应用可以在三个系统之间进行映射转换,似乎是一项元数据Web服务的雏形。
7、DCMI与IEEE联合教育组提出了一个应用于教育领域的元数据应用纲要草案。
xtykc Said on 九月 28th, 2009 at 9:08 上午 quote
近年来IT界风起云涌,被一个接一个的浪头打得云里雾里。恍然又见“元数据”,好像是见到了一个被冷落了好久的老朋友,虽然亲切但难免有陌生的感觉,DC竟然已经有了“Interoperability Levels for Dublin Core Metadata”而我尚不觉,真是惭愧!
Leon Said on 九月 29th, 2009 at 8:55 下午 quote
《DC元数据应用纲要指南》, 这东东偶来弄吧。前一版实际上偶已经弄得差不多了,只是这一来新版,呵呵,又费事。
等一些时日吧,这文档长了些。
keven Said on 九月 29th, 2009 at 9:48 下午 quote
嘿嘿,那感情好!太好了!
beefsteak Said on 九月 30th, 2009 at 2:45 上午 quote
leon冒泡,AP就好看多了。
远洋过客 Said on 十月 3rd, 2009 at 11:01 上午 quote
第5条那个本来为NSDL做的注册系统实在是浪费纳税人的钱,看不下去,我都不愿把那当个什么例子了,我看你们也别在那上面花功夫,国会的那个词汇系统倒可能还有点真东西。你们也能做一个出来吗?希望计划一下!Caveman和牛排还有你这次应该好好交流一下。
远洋过客 Said on 十月 3rd, 2009 at 11:34 上午 quote
Gorden的ppt(”staff at Cambridge Library”)做得很好,特别是将卡片目录‘拆’成FRBR的实体又添上RDA的框框那一部分,值得看。
keven Said on 十月 4th, 2009 at 9:58 下午 quote
曾师好!虽然没有仔细研读,但我一直以为NSDL的注册系统应该是很有意义的一件事情,这个东西将来应该主要用给机器和软件工具用作一致性参考,RDA如果没有这样一个集中的术语及关系的登记系统,只能在应用中依靠人工的理解和掌握来执行规范,会带来很多互操作问题。
当然该系统如何做到这一点可能需要推敲,目前通过linked data做RDF的发布只是很基础的做法,可能还应该提供更多的服务。另外Diane本人很强势,可能也是常常致人不快的一个原因。
远洋 Said on 十月 6th, 2009 at 12:49 下午 quote
@keven,
不是说那个注册系统没有意义,当时得到经费就是对它的肯定,大家都很exciting。可是这么些年过去了,这么多钱抛下去了,应该有很不一样的结果。我觉得一万美元就可以做出来了,哪里要耗几十万。而且注册进去的词汇实在不好意思去看。这种速度可能只能用品均一天注册一个词汇来计算(这还是虚报的)。现在如果RDA能用上,起码每个词得到一个URI,可能还算挣回来一点。
beefsteak Said on 十月 7th, 2009 at 12:43 上午 quote
远洋师说的极是:“我觉得一万美元就可以做出来了,哪里要耗几十万。而且注册进去的词汇实在不好意思去看。”那道这也是一个形象工程?
keven Said on 十月 8th, 2009 at 11:11 上午 quote
我倒是没想到这个注册系统花那么多钱,看DCMI内部的信息,DCMI/RDA小组建设这个登记注册系统还是JISC和一家公司赞助的经费。
不过其实联想到国内的科研课题,这样一个项目耗费几十万,似乎并不太过啊!看来我们是富强了。
远洋 Said on 十月 8th, 2009 at 12:35 下午 quote
可能JISC是在NSF的经费花完了之后补上的,不清楚,但是funding又完了。用NSDL的项目做的一开始还好…
回牛排:美国政府赞助研究更主要的是刺激大家想主意,促发创造力,例如那么多钱花在DLIl-1和-2的项目还有NSDL的,很多都不再有用了,但是这个过程促发了很多的新技术和管理、操作方式和模型,最后有一两个从这里面得到知识和灵感,自己去发展、做出来了就行了(包括Google)。我原来也很奇怪,在NSDL大家都做digital collection,每年让新项目从头开始,每个人都在摸索同样的问题,为什么不设一套程序、规则、系统让大家能直接做collection呢?后来才知道这就是目的之一,让新的思路出现,不受任何前人的影响。