一组强文,敬请期待

为《现代图书情报技术》组了一期专辑:“元数据与语义技术和社会性应用”,选译了DC2008年会文集中的六篇非常前沿的论文,代表元数据领域的最新成果和发展方向,供国内的同行借鉴参考。这里把主持人语发出来,权作一个广告(发表出来的正式版本可能会有所不同,编辑部有权删改,并去掉某些“博客语言”——特告)。

随着Web2.0和语义万维网(有人称之为Web3.0)的发展,网络资源的细粒度化、语义化和更广泛的开放链接有加速发展的趋势,在其中扮演重要角色的元数据,作为数字资源揭示和利用的一项重要技术,越来越朝着实现机器自动处理的方向发展:语义的自动提取、映射的自动生成、内容的自动发现、服务的自动协同,等等,成为计算机科学、网络信息组织和数字图书馆研究开发的热中之热。人们普遍认识到,传统图书馆手工作坊似的”语义标注”、”知识组织”、”书目控制”等,根本无法满足科学研究、高等教育、知识传播等在数字时代的需求,更不用说在未来继续实践图书馆固有的保存、传播、教育、休闲四大职能了。数字图书馆如果想继续成为未来社会基础设施必不可少的组成部分,必须大幅度提高其信息和知识处理能力与效率,”机器可处理”乃至”机器可理解”是必须要逾越的一条鸿沟。在相当长时期内,人类继续”为机器打工”不可避免,”语义哪里来?”"功能如何实现?”是在万维网上架构新一代应用所必须思考和解决的问题。对图书情报行业来说,所有这一切,首先要对数字图书馆(即开放分布环境下数字资源库)的体系架构和标准规范有一些新的思考。

每年的DC年会都集中了来自世界各地的大批思考这些问题的专家。”元数据与语义技术和社会性应用”是2008年DC年会的主题,本期专辑也以此为主题,选取了会议文集(参见文后网址)中的6篇论文,虽然不尽全面,不能涉猎上述元数据技术和应用的各个方面,但具有一定典型性和前沿性,基本反映了上面所提到的热点和趋势。

元数据应用向来不被计算机界看好,搜索引擎至今不收割也说明了这一点(以前曾有收割元数据的搜索引擎,不幸地被不用元数据的引擎超越了,无可避免地死掉了)。元数据最有用的,其实还是那些封闭的遗留系统和领域应用,图书馆的书目系统也是一种。既然图书馆界如此推崇元数据,且有数量庞大的高质量的书目数据,为什么不能开发一些漂亮的应用,让那些满腹狐疑的人打消疑虑呢?最大的障碍是MARC–这个”史前”时代怪物格式。本专辑收录的两篇文章:Martin Malmsten所著、李雯静翻译的《将图书馆目录纳入语义万维网》Ed Summers等著、姚小乐翻译的《LCSH, SKOS和关联数据》,可以说宣告了新时代的帷幕正徐徐拉开。这两篇论文展示了将传统的规范书目数据(前者涉及文献题名、个人及团体名称规范档,后者是属于主题规范档)进行格式转换,并利用关联数据(Linked Data)技术,提供开放的元数据服务。由于采用了新的架构和格式对书目数据重新组织(例如转换成RDF格式,引入FRBR本体,以SKOS编码等),使书目系统能够提供种类繁多的新颖服务(如按照各种方式聚类,权威数据的参照引证等等),使人们看到了数据开放和普遍链接的潜力,让古老的数据重新焕发出新的活力。

DC元数据近年来的发展,似乎越来越远离传统图书馆,而越来越成为被网络界认可。图书馆编目的下一代规则:RDA与DC的靠拢正在证明这种远离是有远见的。DC近年来不再纠缠于元素的限定和扩展,而发展起一整套包括抽象模型、应用纲要以及新加坡框架之类的元数据应用方法论,致力于机器理解和广域网范围内的语义互操作,正在得到语义万维网的高度认可,并成为提供未来网络资源语义的基础标准。本专辑选译的另外两篇论文:Carol J. Godby等著、娄秀明翻译的《基于一种映射计算模型的元数据应用纲要编码方式》Allen H. Renear等著、张海霞翻译的《资源集合与个体资源元数据关系描述模型探讨》,是对形式化的、机器可处理的元数据方案的探讨。前者着力于解决从MARC到不同版本DC的自动映射问题,试图对不同命名域、编码体系修饰和元素修饰等各种情况都可以适用,提供简单易行,技术门槛不高、不懂技术的普通编目人员也能很快上手的解决方案,后一篇文章着重探讨资源集合属性与其数字对象属性之间极其复杂、却又有一定规律的逻辑联系,试图依靠逻辑关系建立起自动的属性关联,使信息资源集合的整合检索能够利用丰富的语境信息,从而更加准确。这两个课题都可以看成致力于开发大规模、自动、实时的元数据服务而进行的基础研究。

本期专辑收录的最后两篇文章是关于热门的标签应用。Hak Lae Kim等著、丁鹏宇翻译的《最新标签本体:标签和民俗分类法语义模型》利用本体方法为标签和民俗分类法的研究提供了一些方法层面的规范性思考;陈淼等著、崔晓莉翻译的《从社会性网络产生的标签中抽取语义关系:一种生成元数据的方法》更是一篇具有方法论意义的论文,从提出问题到探索解决方案,基于大量的实验数据,并且思考方法本身也顺应了自动获取标签语义、从无序中寻找有序的发展趋势,非常值得国内同行借鉴。

明年DC元数据年会将于10月在韩国首都汉城举行(网址附后),主题为”关联数据的语义互操作“,十分接近上面选介的6篇论文。希望有更多的国内专家投稿或参会。

本期专辑最初的动议来自美国雪城大学信息研究学院的秦健教授,并得到会议论文集的主编Jane GreenbergDCMI的Makx Dekkers和Tom Baker以及作者们的热情支持。在翻译过程中也曾得到曾蕾教授林海青先生以及一些图林同道和网友的帮助和鼓励,在此深表感谢! 我们知道,技术论文的翻译不是一件容易的事情,为了使更多国内同行能够了解这些最新动向和成果,我们勉力为之,谬误与不足在所难免,企望批评指正。

上文涉及的重要网址:

* DC-2008会议录下载地址:http://webdoc.sub.gwdg.de/univerlag/2008/DC_proceedings.pdf
* DC-2009网址:http://www.dc2009.kr/

9 Responses to “一组强文,敬请期待”

  1. 顶。

  2. 也顶!

  3. 顶就顶,谁怕谁?

  4. 我不顶了,我只期待…….

  5. 强文哪期出版啊?第三期会看到吗?

  6. 不差顶

  7. to 芭芭蕾:据说是第三期。

  8. 期待中……

  9. 给您GMAIL信箱发了一封求助信,不知是否收到?多谢啦!

Leave a Reply




*