关于DC元数据元素的定义格式和各国翻译情况
由于申报DCMES元数据国标的需要,在这里汇总一些有关DC元数据元素定义和各国翻译情况的资料。
由于早期(DCMES1.1-1999更新成2003版以前)DCMI对于元数据元素的定义是遵循ISO11179标准“数据元素的基本属性(Basic Attributes of Data Elements)”,从中选取了10个属性进行定义(参见这里):
- Name – The label assigned to the data element
- Identifier – The unique identifier assigned to the data element
- Version – The version of the data element
- Registration Authority – The entity authorised to register the data element
- Language – The language in which the data element is specified
- Definition – A statement that clearly represents the concept and esential nature of the data element
- Obligation – Indicates if the data element is required to always or sometimes be present (contain a value)
- Datatype – Indicates the type of data that can be represented in the value of the data element
- Maximum Occurrence – Indicates any limit to the repeatability of the data element
- Comment – A remark concerning the application of the data element
从中可以看出Name属性是赋予元素的一个给人识别的标签,而Identifier是给机器读的。
后来(DCMES1.1-2003开始)感到这种定义会在整个元素集的定义中产生大量冗余信息,而且ISO11179作为一个庞大的元数据应用标准体系,只用了这么一点点也不尽合适,于是从实际出发,采用了W3C和IETF的标准,即把给人读的名字定义为标签(Lable)属性,并明确把URI作为Identifier,Name就作为一个机读的token。这样就发展成目前对于DC元素的定义形式(参见 这里):
| Name: | A token assigned to the term, unique within the term’s DCMI namespace. |
| Label: | The human-readable label assigned to the term. |
| URI: | The Uniform Resource Identifier used to uniquely identify a term. |
| Definition: | A statement that represents the concept and essential nature of the term. |
| Type of Term: | The type of term as described in the DCMI Abstract Model |
进一步地,如果必要,还会有以下属性:
| Comment: | Additional information about the term or its application. |
| See: | Authoritative documentation related to the term. |
| References: | A resource referenced in the Definition or Comment. |
| Refines: | A Property of which the described term is a Sub-Property. |
| Broader Than: | A Class of which the described term is a Super-Class. |
| Narrower Than: | A Class of which the described term is a Sub-Class. |
| Has Domain: | A Class of which a resource described by the term is an Instance. |
| Has Range: | A Class of which a value described by the term is an Instance. |
| Member Of: | An enumerated set of resources (Vocabulary Encoding Scheme) of which the term is a Member. |
| Instance Of: | A Class of which the described term is an instance. |
| Version: | A specific historical description of a term. |
当然在目前的DCMES(俗称简单DC)的元素集定义里,没有Type of Term(因为都是Element,不存在子元素或修饰词),但有Comment和References(说明了取值方式)。
DC元数据在发展演进过程中逐渐被许多国际组织和国家认可,成为国际标准或者国家标准。目前有:
- ISO15836-2003
- NISO3985-2007(取代NISO3985:2001)
- CEN CWA 13874
- IETF RFC 5013 (取代IETF RFC 2413)
- 英国国家标准
- 澳大利亚国家标准
- 芬兰国家标准
- 丹麦国家标准
- 荷兰国家标准
其中除了NISO3985-2007根据DCMES最新版更新的之外,其余大都基于1999年的DCMES1.1版的文本(其中ISO15836的修订比原计划有所拖延,几个国家标准都没有查到文本,这里列出的是各国的翻译):
- Catalan – maintained by the Biblioteca de Catalunya
- Chinese (Big 5 font) — hosted by Cheng-Juei Wu, Prof. in Library & Information Science Dept. at Fu-Jen University (undated)
- Czech
- Danish – by Leif Andresen, Danish National Library Authority
- Dutch
- Greek (Word file) — by Sarantos Kapidakis, Laboratory on Digital Library and Electronic Publishing Ionian University (2003-11-20)
- Japanese – by Shigeo Sugimoto
- Arabic — maintained by Hachim Haddouti (1998-12-29)
- Chinese (Simplified) — maintained by Shanghai Library (2003-06-02)
- Finnish (PDF) — maintained by the National Library of Finland (2002-10-09)
- French — by Anne-Marie Vercoustre, Inria (2002-03-26)
- German (PDF) — by KIM (Kompetenzzentrum Interoperable Metadaten) (2007-08-22)
- Italian — by Central Institute for the Union Catalogue of Italian Libraries and for Bibliographic Information (undated)
- Interlingua — by Emerson José Silveira da Costa (2001-02-01)
- Korean — by Sam-Gyun Oh, SungKyunKwan University (1999-07-02)
- Latvian (PDF) — translation by the National Library of Latvia (2006-12-18)
- Maori — Te Kete Ipurangi — The Online Learning Centre (undated)
- Marathi — by Shubhada Nagarkar, Bioinformatics Centre, University of Pune (undated)
- Norwegian — by Frank B. Haugen and Carol van Nuys, Nasjonalbiblioteket (2002-03-04)
- Persian — by Sayyed Mahdi Taheri (2007-06-05)
- Polish — by Marek Nahotko, EBIB Electronic Information Bulletin For Librarians (2000-10-28)
- Portuguese — by José Luis Borbinha, National Library of Portugal (2002-07-29)
- Russian — by Alexey Beshenov (2007-06-06)
- Swedish — by Stina Degerstedt, The Royal Library, National Library of Sweden (2006-01-30)
- Thai (Word file) — by Praditta Siripan, Technical Information Access Center (TIAC) (1999-07-02)
其中可以看出,如果是采用ISO11179格式定义的早期文本,有一些的确把Name翻译成本国语言了,有一些两种语言都保留(包括我们的翻译),有些则没有翻译(如韩文),而Identifier一定是保留英文。后来的翻译,则一律跟随DCMI的改变而改变。
DCMI目前的态度很明确,元素的Name是一个机读的token,并且为了能够作为一个合法URI的组件,不能有任何特殊符号(例如空格、冒号等),以此来看,如果规定两个Name(中英文)似乎更有些荒谬了,试想这样的话注册系统如何来做?术语服务是按照哪个作为URI?
相对而言Label则自由得多,可以是多个单词,也可以是任何语种、符号,在具体应用中也可以有其它别名(这当然不属于本文档所规定的范围)。
人的认识总有一个过程,但是一旦跨过了某各阶段,再折回去走老路就显得十分没有必要了。当然,如果充分发表意见之后,大多数人仍然认为应该按照老的做法走,也是没有办法的事情,毕竟事情是向前推进了,有标准总比没有好。
DC2008中的Tagging主题
Image via Wikipedia
Web2.0的相关内容在DC-2008会上占了很大的比例,可能因为元数据与tag的天然联系吧,其中讲标签/民俗分类法的又占了其中的绝大多数,牛排对此已有观察(在这里),只是大大的不全。偶就干脆补全吧:
- 德语的tutorial:Tutorial 4: Einführung in Social Tagging/Computing – Johannes Hercher Slides (PDF)
- J. Trant的主题演讲: Social Tagging Museums:Research and Reflections
- 三篇大会报告:
- Relating Folksonomies with Dublin Core – Maria Elisabete Catarino, Ana Alice Baptista Slides (PDF)
- Hak Lae Kim的The State of the Art in Tag Ontologies: A Semantic Model for Tagging and Folksonomies
- 秦健等的Semantic Extraction from Socially Generated Tags
- 一个工作组会议:Workshop 4 Tagging - Liddy Nevile (External Web Link)Slides (PDF)
- 一个特别会议:Seminar A:User Generated Metadata,里面有多个香喷喷热乎乎的案例。如:
- www.openstreetmap.org:地图标注
- www.bibsonomy.org:书签(网摘)共享服务
- DBpedia
- Openlibrary
- ……
除了标签之外,DC-2008中涉及的其它Web2.0相关主题(Semantic Web作为Web 3.0自然也作为相关了):
- 语义Web:包括Paul Miller的Keynote 4: Why the Semantic Web matters?,德文的培训2: Einführung in Semantic Web 和一个项目报告分会场(包含两个报告):Toward the Semantic Web;
- 维基应用或维基百科主题:Seminar A中有部分内容(可能由于是Wikimedia主持的缘故吧,其实这个Session的主题是“用户产生元数据”,更多的是Tagging的内容。
- Linked Data主题(如曾师在前文回复中介绍的)。
- Microformat主题(在DCMI内部对于为DC元素集提出一种微格式还有争议,因为RDFa即可以做同样的事情)。
Related articles by Zemanta
DC2008听会记(四)
2008年9月25日 晴 星期四 多云
本届会议在日程上作了调整,“板块”设置更加分明,方便了选择性参加。除了前面两天后面一天的内部会议依旧,tutorial一天,正式会议三天,Seminar一天,今天是正式会议的最后一天了。
早上去看了一个古巴比伦文明展,是由大英博物馆、卢浮宫和德国国家博物馆联合举办的,曾蕾老师强烈推荐,的确不错,为有关“巴比伦塔”的传说提供了丰富的背景知识。
上午Paul Miller的主题演讲是今天的一个亮点。Paul在UKOLN工作时曾经是DCMI的骨干,后来去了Talis做Technology Evangelist,是推动 Web2.0、Library2.0和Semantic Web的一员干将。他的Keynote 自然与此相关。
这天还有秦健、陈淼的报告和一系列工作组会议。
最后Makx对于大会进行了总结。本次大会正式注册代表312名(包括28位学生),来自 39个国家和地区,职业分别为“图、博、档”占三分之一强,研究人员四分之一不到,政府及公共部门六分之一,教育、学术出版和商业各在十分之一左右。三天 时间内,共举行了4场主题报告,5场大会发言(计12篇论文),3场项目报告(计8个项目),1场特别会议(维基与元数据),12个海报交流以及17场工 作组会议,是一个效率极高的会议。Makx的总结报告在此 。
值得高兴的是,曾蕾老师和Fan Wei,林夏的Poster: SKOS and Its Application in Transferring Traditional Thesauri into Networked Knowledge Organization Systems获得本次会议的Best Poster奖(如下图,曾老师发表获奖感言),热烈祝贺!报告可以至此下载 。奖品好像是一盒巧克力,呵呵。
(to be completed)
DC2008听会记(二)
2008年9月23日星期二 雨 柏林 洪堡大学
DC年会的开幕式依然简洁。虽然此次DC年会的组织者多达6、7家,但未见多少头头脑脑,似乎就来了一位洪堡大学的干部,不知道够不够厅局级,but seems nobody care。据我长期的观察,DCMI的现当家老汤老马其实并非毫无虚荣之人,只是不刻意追求而已。谁不希望来个主席部长之类?
当然头一天的这个Keynote应该还是够级别的,请到了马克斯普朗克学会 (MPG)的主席(应该是其下某个指导委员会(Steering Committee sInfo)的主席吧),一个风度扁扁的老头Kurt Mehlhorn 先生。主持人专门介绍了Mehlhorn先生对于开放存取的热情和贡献,可能对OA的柏林宣言起到重要作用吧,没有考证。不过最近与斯普林格的一次战役 也够让人肃然起敬了。这个机构应该大致相当于中科院。
他的ppt 先简单介绍了MPG,足够把人雷趴下了。MPG拥有78个研究所,每年14亿欧元经费,50年内出了18个诺贝尔奖获得者……。他演讲的主题是eScience,领导嘛总是高举高打,给eScience下了一个无可无不可的定义:应用信息技术装备科学研究:新的基础设施,新的工具,新的仪器设备,不就是我们对于“信息化”的定义吗?“应用信息 技术改造传统XX”(XX等于“产业”、“事业”、“研究”)。Mehlhorn的报告主要介绍了MPG在 eScience框架下的一些项目,可以从中看出他们对于未来科学研究的理解。
本身eScience这个主题也很让我们感到 亲切。一个网友在网络直播的时候问:是不是“抄袭”我们中科院张大教授的?
茶歇之后又进行了一个Keynote,由加拿大 Archives and Museum Informatics的合伙人(Partner)Jennifer Trant介绍他们对于博物馆资源应用标签情况研究的项目,总结了标签对于视觉作品检索的作用、用户体验和特征等。会议网站没有给出她的ppt,曾蕾老师 说她的介绍与上次在OCLC的介绍差不多,上网查到了今年3月在台湾的同名演讲ppt ,可资参考。
Encoding Application Profiles in a Computational Model of the Crosswalk – Carol Jean Godby, Devon Smith, Eric Childress
上午的三场实际上都是2.0的主题:集中于tag/folksonomy。
(sorry, to be finished…)

DC2008听会记(一)
2008年9月22日星期一 阴 柏林 洪堡大学
会议内容:培训Tutorial(参见会议日程)
- Tutorial 1: Dublin Core History and Basics – Jane Greenberg Slides (PDF)
- Tutorial 2: Dublin Core Key Concepts – Pete Johnston Slides (PDF)
- Tutorial 3: Dublin Core and Other Metadata Schema – Mikael Nilsson Slides (PDF)
- Tutorial 4: Dublin Core in Practice: Implementation Issues – Marcia Zeng Slides (PDF)
早上来会场报道,报上姓名,一位工作人员兴奋地说“Are you Keven?”,然后把身上的T恤秀给我看。偶以一种中国人的含蓄点点头,“Yes,that’s me”。现场的工作人员都穿着这件蓝色T恤走来走去,金鑫公司logo在各个会场游动,品牌宣传效果应该不错。
缴费时发现550欧元变成了early bird的460元,可以参加所有的Session(包括培训、正式会议和特别会议),可能算一种特殊优待吧。
每次年会的培训都大同小异,今年的后两场会有所不同,因此我们只参加了后面两场。实际上报到完之后Jane的第一个培训已经快结束了,我们进去打了个招呼,正好听到Jane把DC2004弄到北京去开了,向她指出之后,她terribly sorry,说一定改正并消除影响。
关于Mikael Nilsson和曾蕾老师的培训内容,容我后叙…(to be continued…)
![Reblog this post [with Zemanta]](http://img.zemanta.com/reblog_e.png?x-id=6ba63958-cb9f-4f2c-ab6c-2157fe0b0970)

