Archive for the '元数据' Category
KISS测试
Web时代东西太复杂就自然被淘汰,有一个著名的KISS原则(大智若愚原则),即Keep It Simple and Stupid,似乎目前Web上的很多东西都符合这个原则,不符合这个原则的东西都死翘翘了。因此联想到DC元数据现在整出三大法宝:抽象模型、应用纲要 (包括互操作级别)和DSP(描述集纲要)未免感到有点前景堪忧。
关于KISS,曾看到一项测试,可以用来作为便捷的衡量方法:
- 记事本测试:你能否用记事本(notepad)手工创建一条符合规范的记录,大小不超过4k?
- 阅读测试:你能否在一小时内基本读懂规范文本?
- 编码测试:你能否在一天内编制一个简单的客户端或服务器软件,实现简单的功能?
根据这个标准,传统图书馆自动化系统的很多东西,包括图书馆员的很多思路,都要更新换代了!
讲座预告:关于元数据的最新进展
Update:讲座时间:10月30日上午9:30-11:30。地点:上海图书馆系统网络中心3508会议室。
感谢王松林老师,让我就元数据的最新发展和对语义互操作的理解,给他的研究生介绍一下。我最近将花些时间,系统地进行一些梳理,打算于10月30日和11月20日上午进行介绍,届时也欢迎我的同事以及华师大的研究生一同参与交流(时间可能会有变动,地点也未定,如您感兴趣,请关注本博客的更新)。
10月30日的讲座大纲目前考虑包括如下十二部分内容(这是个雄心勃勃的计划,如介绍不完,将顺延至下次):
1、DCMI组织机构的变化
自从写完那篇《DC元数据的历史、现状和发展》一文之后发生了哪些变化,为什么。
2、DC元数据应用纲要(DCAP)方面的进展
主要是两个AP的规范文档以及两个三个AP实例(其中一个是草案)。
3、DC元数据抽象模型(DCAM)
为什么及是什么
4、元数据描述的新加坡框架
为应用纲要提供理论基础,回答“一个实用的元数据方案应该包含哪些内容?各类内容的关系是什么?”的问题。
5、元数据描述集的定义(DSP:Description Set Profile)
为什么需要DSP?与应用纲要什么关系?
6、DC元数据编码
包括XHTML、XML、Text、RDF四个编码规范。
7、语义互操作层次
同一组属性集在编码和约束上的不同规定决定了互操作程度的不同,据此区分语义互操作层次。
8、部分元数据应用项目简介
主要是这两年DC年会的案例以及应用了DC元数据的项目汇总。其它不用DC元数据的项目也需要做些介绍。
9、元数据应用相关工具
包括生成工具、转换工具、映射工具、抽取工具、质量控制工具等。
10、关联数据是一种元数据
图书馆有哪些数据值得做关联数据?
11、元数据与规范控制
元数据与本体术语体系,规范控制如何实现?
12、RDA作为一种元数据方案(规范但不是格式)
哪些地方用到了/借鉴了DCMI的元数据方法论?比AACR2有什么大的变化?
关于“元数据研究和应用的最新进展”
作为一只DC老鸟,此次参加2009年会却一博未发,实在是因为“百感交集,夜不能寐,思绪万千,无语凝噎”的结果(具体以后禀告)。好在此次有牛排同学亲临现场,据说受到了强烈的culture shock,就让我们就期待他的精彩报道吧(透露一下,此次还有一位研究生mm也前往参会,也让我们一同期待)。
最近接到两个题目要开讲座,1、介绍“元数据研究和应用的最新进展”,2、介绍“元数据互操作研究”。今天就前一个问题做一些思考。
要介绍“元数据研究和应用的最新进展”,恐怕首先需要对“新”“旧”进行分界。
元数据已经谈论得很多了,“研究”与“应用”总有脱节,图书馆界内和界外也有很大不同。
介绍元数据是“关于数据的数据”或者“结构化的数据”是没什么意义的,罗列各个领域的各类元数据规范标准和应用也肯定out-of-date了。那么什么是“最新进展”呢?
DC-2009上Tom Baker和Makx Dekkers的介绍(Tom, Makx)有了许多新意。当然Makx主要是从DCMI的使命和任务的角度,从如何推动DC元数据运动的角度,担当起他统一协调的职业经理人的角色,更多的是关注组织建设、计划规划等方面的事情。Tom作为Usage Board的头,一直是负责DCMI”内容建设”,包括各项标准规范的研制发布、讨论协调、方向把握、宣传推广、指导应用等等。
关于DCMI组织架构、管理模式的历史变迁我曾经有专文介绍过,虽然每次都在变化,让人惊异于DCMI始终是一个不断发展变化的“有机体”,但是这些也属于“旧”的内容了。
DCMI对于元数据标准规范的认识的变化,以及基于这些认识的变化而产生的工作重点和方法论的变化,一直在发生,年年迈小步不停步,所以回过头去看,进展还是很大的。士别三日,如隔三秋。感觉倒是可以以国内大规模开展元数据标准规范建设为分界点,这之后国内实际上是止步了,人们对于元数据的认识停留于各类领域应用属性元素集的研制,及其“纵向”、“横向”扩展,描述(著录)方法的规定也向传统的MARC著录靠拢,事无巨细,人为判断,可严可宽,没人关心(或者懂得解决)编码方面的一致性问题,这之后(应该从DC2004上海会议之后算起吧)国际元数据研究和应用(主要是前者)发生了哪些变化?澄清了哪些问题?这些变化意味着什么?我们目前的所谓“元数据方案”或“元数据应用”之所以落后,落后在哪些方面?可以做一些梳理,应该是很有意义的。
一言以蔽之,DCMI的元数据进展,一直走在探讨元数据规范如何更加彻底地“机读化”的方向上,也就是比MARC的所谓“机读”更进一步,让机器和机器之间,在互联网(主要是Web)上,能够对于元数据所描述的语义进行编码,并且拷贝不走样(大家知道,MARC只是让机器对于数据的处理和输出代码化,是人和机器之间的交互,不能实现异构系统之间的交互)。例如DCMI近年来发展起来的抽象模型、应用纲要、新加坡框架、描述集规范 (链接二)、互操作层次以及各种编码规范的不断推出,都可以看成是对于元数据方案“形式化”的努力。当然这个方向也极大地受益于Web技术环境特别是语义Web的发展,并且DCMI的实践应该说是成功地“反哺”于后者,为Web提供更加强有力的语义描述工具和支撑。
相对于源自于图书馆界的DC来说,其它领域的元数据(包括数据挖掘或其它计算机技术领域),基本上没有达到DCMI的深度和水平(包括图书馆界自身的RDA,也在向DC不断学习),基本上还只是把元数据作为简单的、互不相关的属性字典(也就是说没有考虑概念之间的相关性描述,或者说相关性没有外在(explicit)的方法进行形式化的描述)。当然这样比较可能有失公允,因为传统的应用和商业化的领域解决方案基本上不考虑在Web分布式环境下的互操作,以及语义描述和功能实现的灵活性、独立性、可扩展性等,因此概念模型、属性关系以及各类约束的实现可以排除在元数据方案之外,由系统来实现即可。这也是造成为什么企业界、商用系统对于DCMI元数据并不感冒,甚至不买账的原因。系统之间的互操作很少成为他们关注的重点,他们只需要实现业务方面的功能需求即可,这种实现往往采用商业化解决方案更有效率、更成熟。而DCMI所做的事情跟目前语义Web运动是一路货色,叫好而不叫座。只能指望政府信息、学术界、教育界以及社会公共部门(例如图书馆)界的应用,他们的需求的特点是开放、共享和长期保存。
因此可以认为,DCMI的新进展就代表了“元数据研究和应用的最新进展”。然而要说清楚这些“最新进展”,以及为什么这么做,还真不是件容易的事情,颇费思量。
顺便一说:DC-2009的大多数ppt已经上网(pdf格式),在会议网站上可以下载,另外会议论文也存档在这里 (http://dcpapers.dublincore.org/ojs/pubs),欢迎参观访问。
DC元数据最新报告
一般DCMI执行总裁Makx Dekkers每年要发布两次“发展报告”(Status Report应该是“状态报告”,我觉得翻成“发展报告”更吸引眼球,呵呵),国庆/中秋过后就要召开DC-2009年会了,上周新鲜出炉的发展报告,要去参会的同仁们要做点功课。
我最近多个场合说,我们在做完《我国数字图书馆标准规范研究》(一期)项目之后就基本上止步不前了,该项目固然取得了很大的成绩,但看起来并未达成初衷。首先本人需要检讨,本人的“资源集合”子项目就做得很烂(感谢张大组长给我面子,一直没有机会向您检讨,现在DC的资源集合元数据已经完全不是那个样子了,嘿嘿)。从DCMI的进展来看,后来在元数据标准规范方面最大的进步,基本上可以归结为向“机读化”的不懈努力:提出了语义互操作层次,建立了抽象模型,讨论了大量的编码规范,并探索了元数据各类功能(主要是语义功能)在机器环境中的实现机制(如linked data)。
最新的发展报告一如往常一样琐碎,撮其要点绍介如下:
1、DC元数据互操作层次“Interoperability Levels for Dublin Core Metadata”作为DCMI的推荐文件发布。该文当把DC元数据的应用(通常将应用规范称为“应用纲要”AP: Application Profile)分成四个层次:a 仅用元素名称(目前大多数应用都只到这个级别),b 把元素作为严格的“概念”(具有机器可判断的形式语义),c 不光用元素,还要包括编码模式,即在语法格式上也要严格规范,d 整个元数据记录(包括各类语义和语法的约束)都要符合规范。其中c和d都必须符合DC元数据抽象模型(DCAM)。
2、Karen Coyle和 Thomas Baker修订了《DC元数据应用纲要指南》“Guidelines for Dublin Core Application Profiles”,这可以说是当前DC元数据应用最重要的文档,我们DC元数据中文网居然没有翻译,罪过啊罪过,有没有志愿者愿意翻译的?嘿嘿。
3、Pete Johnston 和 Andy Powell辛苦修订的最终版《DC元数据XML编码规范》“Expressing Dublin Core Description Sets using XML (DC-DS-XML)” 即将公布。这个文档将使DC的XML编码完全符合DCAM。
4、Mikael Nilsson起草的《DC应用纲要描述集规范》( Description Set Profile specification for Dublin Core application profiles)和Karen Coyle起草的《应用纲要设计模式》(“application profile design patterns” )均可作为设计元数据实用工具和应用系统的非常好的技术文档。
5、DCMI的Diane Hillmann一直在为RDA的词表(包括FRBR实体、属性词表)建立注册系统,并试图提供符合DCAM的编码规范。一系列成果散件于一些演示文件中:
- http://www.slideshare.net/smartbroad/registering-the-rda-vocabularies-1734427
- Staff of Cambridge University Library
- Staff of the National Library of Scotland
- Libraries in the Digital Age (LIDA) conference 2009, Zadar, Croatia
6、元数据登记注册系统,在这里有一个应用可以在三个系统之间进行映射转换,似乎是一项元数据Web服务的雏形。
7、DCMI与IEEE联合教育组提出了一个应用于教育领域的元数据应用纲要草案。
RDA资料精华
有更新!见后文。
出处:Best Links for RDA 来自MARS Authority Control by Chad
- http://www.rda-jsc.org/rda.html RDA官网,当然是最重要的(搬家之前在这里:http://www.collectionscanada.gc.ca/jsc/rda.html),包含RDA的草案文本、背景信息等,其中“范围与原则(Scope and Principles)”尤其重要,还有权威的“映射(mapping)”。FAQ也非常有用。
- http://www.rdaonline.org/ 将发布RDA的演示,敬请关注。
- http://www.ifla.org/VII/s13/frbr/ IFLA的FRBR官网(千万别忘了FRBR是IFLA正宗的孩子)。
- http://www.ifla.org.sg/VII/d4/FRANAR-ConceptualModel-2ndReview.pdf IFLA的FRAD草案(另一个孩子).
- http://www.bn.gov.ar/archivos/anexos_proyectos_especiales/encuentro/ponencias/ponencia_Patton_ingles.pdf 作于2007年的文章,提供了有关FRAD很好的背景介绍。
- http://www.loc.gov/catdir/cpso/rdawebcasts.html 包含美国国会图书馆RDA权威 Barbara Tillett的两个重要演讲(视频,每个一个多小时,可下载)。
- http://courses.unt.edu/smiksa/documents/4_Hello%20RDA,%20Goodbye%20AACR2!_15April2008.pdf 非常好的演示,通俗易懂。
- http://nla.gov.au/lis/stndrds/grps/acoc/documents/Walls2008.ppt 澳大利亚图书馆关于FRBR和RDA的所作所为,末尾还奉送很多有用的链接。
- http://www.nelib.org/netsl/conference/2009/RickBlock.pdf 对于RDA和MARC全面透彻的讲解,虽然“盗”自很多他人的演示,但是组织得很好,值得参考。
- http://www.loc.gov/marc/development.html 关于MARC21格式的建议和讨论( MARC Proposals 和 MARC Discussion Papers),存档在这里。其中2009年的内容大多是关于RDA的。
- http://www.libraries.psu.edu/tas/jca/ccda/marbi0806.html ALA仲冬会议上相关问题的讨论和结论。
- http://www.libraries.psu.edu/tas/jca/ccda/marbi0901.html 这里是2009年仲冬ALA MARBI会议上的讨论。
- http://wikis.ala.org/midwinter2009/index.php/ALCTS CCS论坛上关于FRBR和RDA的演示,特别是关于未来的编目,有一些具体的实例。 特别包含Barbara Tillett和John Espley关于 VTLS OLE项目的识见。
- http://vtls.com/products/virtua 来自John Espley关于FRBR化目录的演示(点击Virtua Enriched User Searching Presentation)。
- http://thenoisychannel.com/2009/03/10/functional-requirements-for-bibliographic-records/ 清晰明了而又浅显易懂的关于FRBR的介绍。
- http://journal.code4lib.org/articles/775 题为 “Identifying FRBR Work- Level Data in MARC Bibliographic Records for Manifestations of Moving Images”的文章,发表于code[4]lib journal Issue t, 2008-12-15。
- http://celeripedean.wordpress.com/2009/03/12/code4lib-and-frbr/ 这个博客中有许多很好的链接。
- http://www.loc.gov/marc/formatchanges-RDA.html 美国国会图书馆关于MARC21自从2008年以来的变动决议,大多是为了适应RDA的推荐意见而修改。
2009年9月29日原作者对这个“资料贴”有更新,如下:
- http://metadataregistry.org/rdabrowse.htm 即Diane Hillmann主持开发的RDA术语词表注册系统,将作为开发RDA相关工具和Web服务的基础。
- http://www.rda-jsc.org/docs/5sec6rev.pdf 包含了RDA发布之后的改动。
- http://www.rda-jsc.org/rdapresentations.html JSC官方对于RDA所做的权威演示稿,值得持续关注。
- http://www.loc.gov/today/cyberlc/feature_wdesc.php?rec=4554 美国国会图书馆的RDA权威Barbara Tillett所做的关于FRBR的报告,主要针对非编目人员做的,注重实践,通俗易懂。(前文中的芭芭拉的两个视频报告,是关于RDA的,这个是关于FRBR的)。
- http://tsig.wikispaces.com/Pre-conference+2009+presentation+materials 在加拿大蒙特利尔召开的一个会前会的演示资料,非常棒。这个会议是“从规则到实体:用RDA进行编目”(From rules to entities: cataloging with RDA)。(我在这里做过介绍)
- http://www.d-nb.de/standardisierung/formate/marc_symposium.htm 一个在德国召开的有关MARC21项目的研讨会上的演示稿,有一些有Youtube视频,可惜你们看不了!
- http://www.loc.gov/marc/marc-functional-analysis/frbr.html 美国国会图书馆关于MARC与FRBR如何和平共处的一些文档,包括映射等。还有一个FRBR的展示工具,可以用来将MARC记录展示为FRBR视图。
- http://www.rda-jsc.org/docs/5sec7rev.pdf 该文档罗列了在开发RDA过程中试图区别于AACR2的变化。
- http://www.archive.org/details/ResourceDescriptionAccessrdaDraftNov.2008 Karen Coyle压缩的RDA文本(2008年11月的草案)。
- http://www.ifla.org/VII/s13/icp/ IFLA国际编目原则生命,取代了巴黎原则。
- http://www.loc.gov/bibliographic-future/rda/ 美国国家图书馆对于RDA进行测试的网站,包含测试合作伙伴及背景信息等。
- http://frbr.slis.kent.edu/ 肯特州关于FRBR的项目网站,包含了他们的一些演示,如下面在2009年仲冬ALCTS FRBR兴趣小组上的演示“Developing a FRBR-Based System to Effectively Support User Tasks”。
- http://exlibris.memphis.edu/music/mla/glennan.pdf 2006年的一个演示:“From AACR2 to RDA: An Evolution”,包含了一些背景信息。
- http://celeripedean.wordpress.com/2009/03/12/code4lib-and-frbr/ 包含FRBR、RDA、FRAD的一些很好的链接。
- http://cidoc.ics.forth.gr/frbr_drafts.html FRBRoo草案,这是一个试图将博物馆的CIDOC模型与FRBR进行调和的项目。
