一组强文,敬请期待
为《现代图书情报技术》组了一期专辑:“元数据与语义技术和社会性应用”,选译了DC2008年会文集中的六篇非常前沿的论文,代表元数据领域的最新成果和发展方向,供国内的同行借鉴参考。这里把主持人语发出来,权作一个广告(发表出来的正式版本可能会有所不同,编辑部有权删改,并去掉某些“博客语言”——特告)。
随着Web2.0和语义万维网(有人称之为Web3.0)的发展,网络资源的细粒度化、语义化和更广泛的开放链接有加速发展的趋势,在其中扮演重要角色的元数据,作为数字资源揭示和利用的一项重要技术,越来越朝着实现机器自动处理的方向发展:语义的自动提取、映射的自动生成、内容的自动发现、服务的自动协同,等等,成为计算机科学、网络信息组织和数字图书馆研究开发的热中之热。人们普遍认识到,传统图书馆手工作坊似的”语义标注”、”知识组织”、”书目控制”等,根本无法满足科学研究、高等教育、知识传播等在数字时代的需求,更不用说在未来继续实践图书馆固有的保存、传播、教育、休闲四大职能了。数字图书馆如果想继续成为未来社会基础设施必不可少的组成部分,必须大幅度提高其信息和知识处理能力与效率,”机器可处理”乃至”机器可理解”是必须要逾越的一条鸿沟。在相当长时期内,人类继续”为机器打工”不可避免,”语义哪里来?”"功能如何实现?”是在万维网上架构新一代应用所必须思考和解决的问题。对图书情报行业来说,所有这一切,首先要对数字图书馆(即开放分布环境下数字资源库)的体系架构和标准规范有一些新的思考。
每年的DC年会都集中了来自世界各地的大批思考这些问题的专家。”元数据与语义技术和社会性应用”是2008年DC年会的主题,本期专辑也以此为主题,选取了会议文集(参见文后网址)中的6篇论文,虽然不尽全面,不能涉猎上述元数据技术和应用的各个方面,但具有一定典型性和前沿性,基本反映了上面所提到的热点和趋势。
元数据应用向来不被计算机界看好,搜索引擎至今不收割也说明了这一点(以前曾有收割元数据的搜索引擎,不幸地被不用元数据的引擎超越了,无可避免地死掉了)。元数据最有用的,其实还是那些封闭的遗留系统和领域应用,图书馆的书目系统也是一种。既然图书馆界如此推崇元数据,且有数量庞大的高质量的书目数据,为什么不能开发一些漂亮的应用,让那些满腹狐疑的人打消疑虑呢?最大的障碍是MARC–这个”史前”时代怪物格式。本专辑收录的两篇文章:Martin Malmsten所著、李雯静翻译的《将图书馆目录纳入语义万维网》和Ed Summers等著、姚小乐翻译的《LCSH, SKOS和关联数据》,可以说宣告了新时代的帷幕正徐徐拉开。这两篇论文展示了将传统的规范书目数据(前者涉及文献题名、个人及团体名称规范档,后者是属于主题规范档)进行格式转换,并利用关联数据(Linked Data)技术,提供开放的元数据服务。由于采用了新的架构和格式对书目数据重新组织(例如转换成RDF格式,引入FRBR本体,以SKOS编码等),使书目系统能够提供种类繁多的新颖服务(如按照各种方式聚类,权威数据的参照引证等等),使人们看到了数据开放和普遍链接的潜力,让古老的数据重新焕发出新的活力。
DC元数据近年来的发展,似乎越来越远离传统图书馆,而越来越成为被网络界认可。图书馆编目的下一代规则:RDA与DC的靠拢正在证明这种远离是有远见的。DC近年来不再纠缠于元素的限定和扩展,而发展起一整套包括抽象模型、应用纲要以及新加坡框架之类的元数据应用方法论,致力于机器理解和广域网范围内的语义互操作,正在得到语义万维网的高度认可,并成为提供未来网络资源语义的基础标准。本专辑选译的另外两篇论文:Carol J. Godby等著、娄秀明翻译的《基于一种映射计算模型的元数据应用纲要编码方式》和Allen H. Renear等著、张海霞翻译的《资源集合与个体资源元数据关系描述模型探讨》,是对形式化的、机器可处理的元数据方案的探讨。前者着力于解决从MARC到不同版本DC的自动映射问题,试图对不同命名域、编码体系修饰和元素修饰等各种情况都可以适用,提供简单易行,技术门槛不高、不懂技术的普通编目人员也能很快上手的解决方案,后一篇文章着重探讨资源集合属性与其数字对象属性之间极其复杂、却又有一定规律的逻辑联系,试图依靠逻辑关系建立起自动的属性关联,使信息资源集合的整合检索能够利用丰富的语境信息,从而更加准确。这两个课题都可以看成致力于开发大规模、自动、实时的元数据服务而进行的基础研究。
本期专辑收录的最后两篇文章是关于热门的标签应用。Hak Lae Kim等著、丁鹏宇翻译的《最新标签本体:标签和民俗分类法语义模型》利用本体方法为标签和民俗分类法的研究提供了一些方法层面的规范性思考;陈淼等著、崔晓莉翻译的《从社会性网络产生的标签中抽取语义关系:一种生成元数据的方法》更是一篇具有方法论意义的论文,从提出问题到探索解决方案,基于大量的实验数据,并且思考方法本身也顺应了自动获取标签语义、从无序中寻找有序的发展趋势,非常值得国内同行借鉴。
明年DC元数据年会将于10月在韩国首都汉城举行(网址附后),主题为”关联数据的语义互操作“,十分接近上面选介的6篇论文。希望有更多的国内专家投稿或参会。
本期专辑最初的动议来自美国雪城大学信息研究学院的秦健教授,并得到会议论文集的主编Jane Greenberg,DCMI的Makx Dekkers和Tom Baker以及作者们的热情支持。在翻译过程中也曾得到曾蕾教授、林海青先生以及一些图林同道和网友的帮助和鼓励,在此深表感谢! 我们知道,技术论文的翻译不是一件容易的事情,为了使更多国内同行能够了解这些最新动向和成果,我们勉力为之,谬误与不足在所难免,企望批评指正。
上文涉及的重要网址:
* DC-2008会议录下载地址:http://webdoc.sub.gwdg.de/univerlag/2008/DC_proceedings.pdf;
* DC-2009网址:http://www.dc2009.kr/。
DC2008中的Tagging主题
Image via Wikipedia
Web2.0的相关内容在DC-2008会上占了很大的比例,可能因为元数据与tag的天然联系吧,其中讲标签/民俗分类法的又占了其中的绝大多数,牛排对此已有观察(在这里),只是大大的不全。偶就干脆补全吧:
- 德语的tutorial:Tutorial 4: Einführung in Social Tagging/Computing – Johannes Hercher Slides (PDF)
- J. Trant的主题演讲: Social Tagging Museums:Research and Reflections
- 三篇大会报告:
- Relating Folksonomies with Dublin Core – Maria Elisabete Catarino, Ana Alice Baptista Slides (PDF)
- Hak Lae Kim的The State of the Art in Tag Ontologies: A Semantic Model for Tagging and Folksonomies
- 秦健等的Semantic Extraction from Socially Generated Tags
- 一个工作组会议:Workshop 4 Tagging - Liddy Nevile (External Web Link)Slides (PDF)
- 一个特别会议:Seminar A:User Generated Metadata,里面有多个香喷喷热乎乎的案例。如:
- www.openstreetmap.org:地图标注
- www.bibsonomy.org:书签(网摘)共享服务
- DBpedia
- Openlibrary
- ……
除了标签之外,DC-2008中涉及的其它Web2.0相关主题(Semantic Web作为Web 3.0自然也作为相关了):
- 语义Web:包括Paul Miller的Keynote 4: Why the Semantic Web matters?,德文的培训2: Einführung in Semantic Web 和一个项目报告分会场(包含两个报告):Toward the Semantic Web;
- 维基应用或维基百科主题:Seminar A中有部分内容(可能由于是Wikimedia主持的缘故吧,其实这个Session的主题是“用户产生元数据”,更多的是Tagging的内容。
- Linked Data主题(如曾师在前文回复中介绍的)。
- Microformat主题(在DCMI内部对于为DC元素集提出一种微格式还有争议,因为RDFa即可以做同样的事情)。
Related articles by Zemanta
DC2008听会记(四)
2008年9月25日 晴 星期四 多云
本届会议在日程上作了调整,“板块”设置更加分明,方便了选择性参加。除了前面两天后面一天的内部会议依旧,tutorial一天,正式会议三天,Seminar一天,今天是正式会议的最后一天了。
早上去看了一个古巴比伦文明展,是由大英博物馆、卢浮宫和德国国家博物馆联合举办的,曾蕾老师强烈推荐,的确不错,为有关“巴比伦塔”的传说提供了丰富的背景知识。
上午Paul Miller的主题演讲是今天的一个亮点。Paul在UKOLN工作时曾经是DCMI的骨干,后来去了Talis做Technology Evangelist,是推动 Web2.0、Library2.0和Semantic Web的一员干将。他的Keynote 自然与此相关。
这天还有秦健、陈淼的报告和一系列工作组会议。
最后Makx对于大会进行了总结。本次大会正式注册代表312名(包括28位学生),来自 39个国家和地区,职业分别为“图、博、档”占三分之一强,研究人员四分之一不到,政府及公共部门六分之一,教育、学术出版和商业各在十分之一左右。三天 时间内,共举行了4场主题报告,5场大会发言(计12篇论文),3场项目报告(计8个项目),1场特别会议(维基与元数据),12个海报交流以及17场工 作组会议,是一个效率极高的会议。Makx的总结报告在此 。
值得高兴的是,曾蕾老师和Fan Wei,林夏的Poster: SKOS and Its Application in Transferring Traditional Thesauri into Networked Knowledge Organization Systems获得本次会议的Best Poster奖(如下图,曾老师发表获奖感言),热烈祝贺!报告可以至此下载 。奖品好像是一盒巧克力,呵呵。
(to be completed)
DC2008听会记(三)
2008年9月24日星期三 多云 柏林 洪堡大学
8:45,宣告DC-2009年的承办单位。来自韩国国家图书馆的一位风度优雅女士据说嗓子哑了,由 Sam O介绍,其中很炫的是播放了两个几分钟的“大片”,看来张艺谋不光是中国有。一个是韩国国家数字图书馆Dibrary的介绍,将于明年春天正式开放,据说投资8亿美元(?)。Google了一下,Dibrary一词已经不是韩国人的首创了;另一个是韩国旅游的广告片,类似于奥运/世博宣传片,把中国的水墨画 技巧应用得淋漓尽致(一旦老外都以为这是韩国的国粹,可能又可以申遗了吧),只是在演示时音响一直不工作,影响了效果。
接下去是本次年会的第三个Keynote ,德国国家图书馆的Ute Schwens,题目很吸引人,讲RDA的,但介绍略显简单。底下有很challenge的问题:LOC不参加能不能弄成,她的回答是双方正在协商,应该会走到一起。这个回答似乎没有多少人相信。
Poster们 的集体亮相是本次会议的首创,半个小时12个报告集中介绍,像是广告时间,邀请感兴趣者午餐期间前往各个摊位进行深度交流。其中曾蕾老师介绍了一个将分类主题表转换成SKOS的试验性项目,链接在此:http://www.oclc.org/us/en/news/events/presentations/2008/ISKO/200808-SKOS-zeng.pdf。
Automatic Metadata Extraction from Museum Specimen Labels – P. Bryan Heidorn, Qin Wei
Achievement Standards Network (ASN): An Appplication Profile for Mapping K-12 Educational Resources to Achievement Standards – Stuart A. Sutton, Diny Golder
Collection/Item Metadata Relationships – Allen H. Renear, Richard J. Urban, Karen M. Wickett, David Dubin, Sarah L. Shreeves
(to be finished…)
DC2008听会记(二)
2008年9月23日星期二 雨 柏林 洪堡大学
DC年会的开幕式依然简洁。虽然此次DC年会的组织者多达6、7家,但未见多少头头脑脑,似乎就来了一位洪堡大学的干部,不知道够不够厅局级,but seems nobody care。据我长期的观察,DCMI的现当家老汤老马其实并非毫无虚荣之人,只是不刻意追求而已。谁不希望来个主席部长之类?
当然头一天的这个Keynote应该还是够级别的,请到了马克斯普朗克学会 (MPG)的主席(应该是其下某个指导委员会(Steering Committee sInfo)的主席吧),一个风度扁扁的老头Kurt Mehlhorn 先生。主持人专门介绍了Mehlhorn先生对于开放存取的热情和贡献,可能对OA的柏林宣言起到重要作用吧,没有考证。不过最近与斯普林格的一次战役 也够让人肃然起敬了。这个机构应该大致相当于中科院。
他的ppt 先简单介绍了MPG,足够把人雷趴下了。MPG拥有78个研究所,每年14亿欧元经费,50年内出了18个诺贝尔奖获得者……。他演讲的主题是eScience,领导嘛总是高举高打,给eScience下了一个无可无不可的定义:应用信息技术装备科学研究:新的基础设施,新的工具,新的仪器设备,不就是我们对于“信息化”的定义吗?“应用信息 技术改造传统XX”(XX等于“产业”、“事业”、“研究”)。Mehlhorn的报告主要介绍了MPG在 eScience框架下的一些项目,可以从中看出他们对于未来科学研究的理解。
本身eScience这个主题也很让我们感到 亲切。一个网友在网络直播的时候问:是不是“抄袭”我们中科院张大教授的?
茶歇之后又进行了一个Keynote,由加拿大 Archives and Museum Informatics的合伙人(Partner)Jennifer Trant介绍他们对于博物馆资源应用标签情况研究的项目,总结了标签对于视觉作品检索的作用、用户体验和特征等。会议网站没有给出她的ppt,曾蕾老师 说她的介绍与上次在OCLC的介绍差不多,上网查到了今年3月在台湾的同名演讲ppt ,可资参考。
Encoding Application Profiles in a Computational Model of the Crosswalk – Carol Jean Godby, Devon Smith, Eric Childress
上午的三场实际上都是2.0的主题:集中于tag/folksonomy。
(sorry, to be finished…)

![Reblog this post [with Zemanta]](http://img.zemanta.com/reblog_e.png?x-id=6ba63958-cb9f-4f2c-ab6c-2157fe0b0970)
