关于DC元数据元素的定义格式和各国翻译情况
由于申报DCMES元数据国标的需要,在这里汇总一些有关DC元数据元素定义和各国翻译情况的资料。
由于早期(DCMES1.1-1999更新成2003版以前)DCMI对于元数据元素的定义是遵循ISO11179标准“数据元素的基本属性(Basic Attributes of Data Elements)”,从中选取了10个属性进行定义(参见这里):
- Name – The label assigned to the data element
- Identifier – The unique identifier assigned to the data element
- Version – The version of the data element
- Registration Authority – The entity authorised to register the data element
- Language – The language in which the data element is specified
- Definition – A statement that clearly represents the concept and esential nature of the data element
- Obligation – Indicates if the data element is required to always or sometimes be present (contain a value)
- Datatype – Indicates the type of data that can be represented in the value of the data element
- Maximum Occurrence – Indicates any limit to the repeatability of the data element
- Comment – A remark concerning the application of the data element
从中可以看出Name属性是赋予元素的一个给人识别的标签,而Identifier是给机器读的。
后来(DCMES1.1-2003开始)感到这种定义会在整个元素集的定义中产生大量冗余信息,而且ISO11179作为一个庞大的元数据应用标准体系,只用了这么一点点也不尽合适,于是从实际出发,采用了W3C和IETF的标准,即把给人读的名字定义为标签(Lable)属性,并明确把URI作为Identifier,Name就作为一个机读的token。这样就发展成目前对于DC元素的定义形式(参见 这里):
| Name: | A token assigned to the term, unique within the term’s DCMI namespace. |
| Label: | The human-readable label assigned to the term. |
| URI: | The Uniform Resource Identifier used to uniquely identify a term. |
| Definition: | A statement that represents the concept and essential nature of the term. |
| Type of Term: | The type of term as described in the DCMI Abstract Model |
进一步地,如果必要,还会有以下属性:
| Comment: | Additional information about the term or its application. |
| See: | Authoritative documentation related to the term. |
| References: | A resource referenced in the Definition or Comment. |
| Refines: | A Property of which the described term is a Sub-Property. |
| Broader Than: | A Class of which the described term is a Super-Class. |
| Narrower Than: | A Class of which the described term is a Sub-Class. |
| Has Domain: | A Class of which a resource described by the term is an Instance. |
| Has Range: | A Class of which a value described by the term is an Instance. |
| Member Of: | An enumerated set of resources (Vocabulary Encoding Scheme) of which the term is a Member. |
| Instance Of: | A Class of which the described term is an instance. |
| Version: | A specific historical description of a term. |
当然在目前的DCMES(俗称简单DC)的元素集定义里,没有Type of Term(因为都是Element,不存在子元素或修饰词),但有Comment和References(说明了取值方式)。
DC元数据在发展演进过程中逐渐被许多国际组织和国家认可,成为国际标准或者国家标准。目前有:
- ISO15836-2003
- NISO3985-2007(取代NISO3985:2001)
- CEN CWA 13874
- IETF RFC 5013 (取代IETF RFC 2413)
- 英国国家标准
- 澳大利亚国家标准
- 芬兰国家标准
- 丹麦国家标准
- 荷兰国家标准
其中除了NISO3985-2007根据DCMES最新版更新的之外,其余大都基于1999年的DCMES1.1版的文本(其中ISO15836的修订比原计划有所拖延,几个国家标准都没有查到文本,这里列出的是各国的翻译):
- Catalan – maintained by the Biblioteca de Catalunya
- Chinese (Big 5 font) — hosted by Cheng-Juei Wu, Prof. in Library & Information Science Dept. at Fu-Jen University (undated)
- Czech
- Danish – by Leif Andresen, Danish National Library Authority
- Dutch
- Greek (Word file) — by Sarantos Kapidakis, Laboratory on Digital Library and Electronic Publishing Ionian University (2003-11-20)
- Japanese – by Shigeo Sugimoto
- Arabic — maintained by Hachim Haddouti (1998-12-29)
- Chinese (Simplified) — maintained by Shanghai Library (2003-06-02)
- Finnish (PDF) — maintained by the National Library of Finland (2002-10-09)
- French — by Anne-Marie Vercoustre, Inria (2002-03-26)
- German (PDF) — by KIM (Kompetenzzentrum Interoperable Metadaten) (2007-08-22)
- Italian — by Central Institute for the Union Catalogue of Italian Libraries and for Bibliographic Information (undated)
- Interlingua — by Emerson José Silveira da Costa (2001-02-01)
- Korean — by Sam-Gyun Oh, SungKyunKwan University (1999-07-02)
- Latvian (PDF) — translation by the National Library of Latvia (2006-12-18)
- Maori — Te Kete Ipurangi — The Online Learning Centre (undated)
- Marathi — by Shubhada Nagarkar, Bioinformatics Centre, University of Pune (undated)
- Norwegian — by Frank B. Haugen and Carol van Nuys, Nasjonalbiblioteket (2002-03-04)
- Persian — by Sayyed Mahdi Taheri (2007-06-05)
- Polish — by Marek Nahotko, EBIB Electronic Information Bulletin For Librarians (2000-10-28)
- Portuguese — by José Luis Borbinha, National Library of Portugal (2002-07-29)
- Russian — by Alexey Beshenov (2007-06-06)
- Swedish — by Stina Degerstedt, The Royal Library, National Library of Sweden (2006-01-30)
- Thai (Word file) — by Praditta Siripan, Technical Information Access Center (TIAC) (1999-07-02)
其中可以看出,如果是采用ISO11179格式定义的早期文本,有一些的确把Name翻译成本国语言了,有一些两种语言都保留(包括我们的翻译),有些则没有翻译(如韩文),而Identifier一定是保留英文。后来的翻译,则一律跟随DCMI的改变而改变。
DCMI目前的态度很明确,元素的Name是一个机读的token,并且为了能够作为一个合法URI的组件,不能有任何特殊符号(例如空格、冒号等),以此来看,如果规定两个Name(中英文)似乎更有些荒谬了,试想这样的话注册系统如何来做?术语服务是按照哪个作为URI?
相对而言Label则自由得多,可以是多个单词,也可以是任何语种、符号,在具体应用中也可以有其它别名(这当然不属于本文档所规定的范围)。
人的认识总有一个过程,但是一旦跨过了某各阶段,再折回去走老路就显得十分没有必要了。当然,如果充分发表意见之后,大多数人仍然认为应该按照老的做法走,也是没有办法的事情,毕竟事情是向前推进了,有标准总比没有好。
Popularity: 75% [?]
Tags: dublincore, 元数据Related posts
DC2008中的Tagging主题
Image via Wikipedia
Web2.0的相关内容在DC-2008会上占了很大的比例,可能因为元数据与tag的天然联系吧,其中讲标签/民俗分类法的又占了其中的绝大多数,牛排对此已有观察(在这里),只是大大的不全。偶就干脆补全吧:
- 德语的tutorial:Tutorial 4: Einführung in Social Tagging/Computing – Johannes Hercher Slides (PDF)
- J. Trant的主题演讲: Social Tagging Museums:Research and Reflections
- 三篇大会报告:
- Relating Folksonomies with Dublin Core – Maria Elisabete Catarino, Ana Alice Baptista Slides (PDF)
- Hak Lae Kim的The State of the Art in Tag Ontologies: A Semantic Model for Tagging and Folksonomies
- 秦健等的Semantic Extraction from Socially Generated Tags
- 一个工作组会议:Workshop 4 Tagging - Liddy Nevile (External Web Link)Slides (PDF)
- 一个特别会议:Seminar A:User Generated Metadata,里面有多个香喷喷热乎乎的案例。如:
- www.openstreetmap.org:地图标注
- www.bibsonomy.org:书签(网摘)共享服务
- DBpedia
- Openlibrary
- ……
除了标签之外,DC-2008中涉及的其它Web2.0相关主题(Semantic Web作为Web 3.0自然也作为相关了):
- 语义Web:包括Paul Miller的Keynote 4: Why the Semantic Web matters?,德文的培训2: Einführung in Semantic Web 和一个项目报告分会场(包含两个报告):Toward the Semantic Web;
- 维基应用或维基百科主题:Seminar A中有部分内容(可能由于是Wikimedia主持的缘故吧,其实这个Session的主题是“用户产生元数据”,更多的是Tagging的内容。
- Linked Data主题(如曾师在前文回复中介绍的)。
- Microformat主题(在DCMI内部对于为DC元素集提出一种微格式还有争议,因为RDFa即可以做同样的事情)。
Related articles by Zemanta
- Linked Data, FOAF, and OWL DL
- Presentation links from Web Directions South
- State of the Semantic Web: Know Where to Look
- BBC Removing Microformat Support
- Functional Requirements for Sharing Tag Data
Popularity: 59% [?]
Tags: DC2008, dublincore, 元数据, 笔记Related posts
DC2008听会记(四)
2008年9月25日 晴 星期四 多云
本届会议在日程上作了调整,“板块”设置更加分明,方便了选择性参加。除了前面两天后面一天的内部会议依旧,tutorial一天,正式会议三天,Seminar一天,今天是正式会议的最后一天了。
早上去看了一个古巴比伦文明展,是由大英博物馆、卢浮宫和德国国家博物馆联合举办的,曾蕾老师强烈推荐,的确不错,为有关“巴比伦塔”的传说提供了丰富的背景知识。
上午Paul Miller的主题演讲是今天的一个亮点。Paul在UKOLN工作时曾经是DCMI的骨干,后来去了Talis做Technology Evangelist,是推动 Web2.0、Library2.0和Semantic Web的一员干将。他的Keynote 自然与此相关。
这天还有秦健、陈淼的报告和一系列工作组会议。
最后Makx对于大会进行了总结。本次大会正式注册代表312名(包括28位学生),来自 39个国家和地区,职业分别为“图、博、档”占三分之一强,研究人员四分之一不到,政府及公共部门六分之一,教育、学术出版和商业各在十分之一左右。三天 时间内,共举行了4场主题报告,5场大会发言(计12篇论文),3场项目报告(计8个项目),1场特别会议(维基与元数据),12个海报交流以及17场工 作组会议,是一个效率极高的会议。Makx的总结报告在此 。
值得高兴的是,曾蕾老师和Fan Wei,林夏的Poster: SKOS and Its Application in Transferring Traditional Thesauri into Networked Knowledge Organization Systems获得本次会议的Best Poster奖(如下图,曾老师发表获奖感言),热烈祝贺!报告可以至此下载 。奖品好像是一盒巧克力,呵呵。
(to be completed)
Popularity: 51% [?]
Tags: DC2008, dublincore, 元数据Related posts
DC2008听会记(二)
2008年9月23日星期二 雨 柏林 洪堡大学
DC年会的开幕式依然简洁。虽然此次DC年会的组织者多达6、7家,但未见多少头头脑脑,似乎就来了一位洪堡大学的干部,不知道够不够厅局级,but seems nobody care。据我长期的观察,DCMI的现当家老汤老马其实并非毫无虚荣之人,只是不刻意追求而已。谁不希望来个主席部长之类?
当然头一天的这个Keynote应该还是够级别的,请到了马克斯普朗克学会 (MPG)的主席(应该是其下某个指导委员会(Steering Committee sInfo)的主席吧),一个风度扁扁的老头Kurt Mehlhorn 先生。主持人专门介绍了Mehlhorn先生对于开放存取的热情和贡献,可能对OA的柏林宣言起到重要作用吧,没有考证。不过最近与斯普林格的一次战役 也够让人肃然起敬了。这个机构应该大致相当于中科院。
他的ppt 先简单介绍了MPG,足够把人雷趴下了。MPG拥有78个研究所,每年14亿欧元经费,50年内出了18个诺贝尔奖获得者……。他演讲的主题是eScience,领导嘛总是高举高打,给eScience下了一个无可无不可的定义:应用信息技术装备科学研究:新的基础设施,新的工具,新的仪器设备,不就是我们对于“信息化”的定义吗?“应用信息 技术改造传统XX”(XX等于“产业”、“事业”、“研究”)。Mehlhorn的报告主要介绍了MPG在 eScience框架下的一些项目,可以从中看出他们对于未来科学研究的理解。
本身eScience这个主题也很让我们感到 亲切。一个网友在网络直播的时候问:是不是“抄袭”我们中科院张大教授的?
茶歇之后又进行了一个Keynote,由加拿大 Archives and Museum Informatics的合伙人(Partner)Jennifer Trant介绍他们对于博物馆资源应用标签情况研究的项目,总结了标签对于视觉作品检索的作用、用户体验和特征等。会议网站没有给出她的ppt,曾蕾老师 说她的介绍与上次在OCLC的介绍差不多,上网查到了今年3月在台湾的同名演讲ppt ,可资参考。
Encoding Application Profiles in a Computational Model of the Crosswalk – Carol Jean Godby, Devon Smith, Eric Childress
上午的三场实际上都是2.0的主题:集中于tag/folksonomy。
(sorry, to be finished…)

Popularity: 51% [?]
Tags: DC2008, dublincore, 元数据Related posts
DC2008听会记(一)
2008年9月22日星期一 阴 柏林 洪堡大学
会议内容:培训Tutorial(参见会议日程)
- Tutorial 1: Dublin Core History and Basics – Jane Greenberg Slides (PDF)
- Tutorial 2: Dublin Core Key Concepts – Pete Johnston Slides (PDF)
- Tutorial 3: Dublin Core and Other Metadata Schema – Mikael Nilsson Slides (PDF)
- Tutorial 4: Dublin Core in Practice: Implementation Issues – Marcia Zeng Slides (PDF)
早上来会场报道,报上姓名,一位工作人员兴奋地说“Are you Keven?”,然后把身上的T恤秀给我看。偶以一种中国人的含蓄点点头,“Yes,that’s me”。现场的工作人员都穿着这件蓝色T恤走来走去,金鑫公司logo在各个会场游动,品牌宣传效果应该不错。
缴费时发现550欧元变成了early bird的460元,可以参加所有的Session(包括培训、正式会议和特别会议),可能算一种特殊优待吧。
每次年会的培训都大同小异,今年的后两场会有所不同,因此我们只参加了后面两场。实际上报到完之后Jane的第一个培训已经快结束了,我们进去打了个招呼,正好听到Jane把DC2004弄到北京去开了,向她指出之后,她terribly sorry,说一定改正并消除影响。
关于Mikael Nilsson和曾蕾老师的培训内容,容我后叙…(to be continued…)
Popularity: 52% [?]
Tags: DC2008, dublincore, 元数据Related posts
DC-Lib应用纲要错误一例
马上要召开DC-2008了,DC的邮件列表里又热闹起来。今天的一个帖子说到DC-Lib应用纲要的问题,让我想到最近有人建议尽快将DC修饰词和领域应用一并推向国标。愿望很好,但其实国内对DC元数据的应用还没有形成一种讨论的氛围,许多人都回避讨论,只想交给一些“伪精英们”(也算包括偶吧)制定出来执行就完了,其实这样是无法形成对一些问题的基本理解的,即便推出一个“正确”的国标,也恐怕会因为理解的不同而无法执行,何况对于我们来说做到“正确”是何其困难!前一阵与平台江和谢涛君的争论就很好,“我国数图标准规范研究”项目组内部不多的争论也很好,只是太少了。问题不摆到台面上公开讨论,就为以后大家阳奉阴违埋下伏笔,这是对标准化事业最大的伤害。
问题是这样的:在DC图书馆应用纲要中对于“格式(Format)”的修饰词“媒体(medium)”有一段说明:
Used to specify the medium of the physical carrier of a resource. Format without an element refinement qualifier should be used to specify the electronic format of the resource, using the encoding scheme IMT. Format should be repeated if both are applicable (e.g. a PDF file on CD).
用来特指资源物理载体的媒介类型。“格式”如果不带修饰词,则应该采用IMT(即MIME的格式词——keven注)的编码体系修饰词作为取值,特指资源的电子形式。如果即有电子格式又有物理类型(例如放置于CD上的PDF文件),则应该重复著录。
这段说明完全违反了DCAM(DC元数据抽象模型)所规定的1:1原则,因此是完全错误、应该被修正的。可惜DCMI许多文档的修订工作根本就跟不上。
Andy Powell对这个问题的回答很有意思:
Firstly, dc:format is a total mess. (I guess you knew that!)
Secondly, I think the library AP gets it wrong anyway
…….
Sigh… disclaimer, I chaired the original dc:format working group and hence share some/much of the blame for the mess – but I think it was a mess way before then anyway![]()
当然,Andy也给出了这个问题的解释:
dcterms:medium只能用于描述资源的物理形态(格式),这在抽象模型的domain-range中说得很清楚了。因此dcterms:IMT不能用于修饰dcterms:medium,只能修饰dc:format或dcterms:format。
据此,就不存在重复元素/子元素问题了(因为描述电子格式和物理格式的元素/子元素是不同的)。
Powered by ScribeFire.
Popularity: 51% [?]
Tags: DCAP, dublincore, 元数据, 应用纲要![Reblog this post [with Zemanta]](http://img.zemanta.com/reblog_e.png?x-id=6ba63958-cb9f-4f2c-ab6c-2157fe0b0970)


