ALA2009 Linked Data Session

今年ALA年会的“草根分会场”有一个“关联数据”主题。看起来这些分会场都是事先申报,经过投票而选定的,过于小众的主题是选不上的。据说“关联数据”主题得到了118张选票。

本场主题共有四个报告:

  1. Eric Miller (Zepheira), “Linked Data and Libraries“;
  2. Diane Hillmann (Information Institute of Syracuse; Metadata Management Associates), “Are Libraries Ready for Linked Data?“;
  3. Jennifer Bowen (University of Rochester), “Defining Linked Data for the eXtensible Catalog (XC): Metadata on the Bleeding Edge“;
  4. Rebecca Guenther (Library of Congress), “Controlled Vocabularies as Linked Data on the Web“.

都相当精彩。点击链接可以下载。

关联数据:意义及其实现

关联数据(Linked Data),很简单的技术,却正在使万维网发生质的改变。
图书馆的MARC数据,规范记录,主题标目,…,正在开放成为任意互联的关联数据。
已经有20亿条传统网页上的数据(包括维基百科)被自动半自动地转换成了关联数据。
大型媒体公司,如BBC,纽约时报,已经把他们的海量数据转换成了关联数据。
英国首相咯噔布朗,已邀请李爵士为英国政府信息提供语义网(关联数据)支持。
……
关联数据正在成为数据上网的一种标准形式,使开放数据的API直接统一为HTTP协议,等于废除了任何私有的API。
其严格采用HTTP URI使真实世界全面映射到网络世界。
其全面支持RDF,使万维网资源描述得以完美模拟真实世界。

总之,这是语义网的一种初步实现。
难怪李爵士情不自禁地在TED大会上说:“这哈子歪脖总算干对了(The Web done right)!”

讲座视频:如何发布关联数据


How to Publish Linked Data on the Web

Tom Heath, Michael Hausenblas, Richard Cyganiak, Chris Bizer, Olaf Hartig

2 videos

关联数据四原则

专文至此,以方便链接引用。

原文来自李爵士的报告:http://www.w3.org/DesignIssues/LinkedData.html

  1. 原则一:使用URI作为任何事物的标识名称;
    Use URIs as names for things
  2. 原则二:使用HTTP URI使任何人都可以访问这些标识名称;
    Use HTTP URIs so that people can look up those names
  3. 原则三:当有人访问某个标识名称时,提供有用的信息;
    When someone looks up a name, provide useful information
  4. 原则四:尽可能提供相关的URI,以使人们可以发现更多的事物。
    Include links to other URIs so that they can discover more things

数据的万维网(The Web of Data)

近一段时间在鼓吹“关联数据(linked data)”,与以前的研究实际上是一脉相承的。数字图书馆随着技术的演进不断地在寻求更好的实现方式,元数据应用从98、99年就认为采用RDF是最Native的(RDF为此而诞生),至今没有很好的解决方案,现在总算来了一个LD:关联数据。

虽然不是W3C的嫡亲,但是李爵士毫不掩饰对LD的厚爱,认为它是当下实现“Web of Data”的最好方式。什么是Web of Data?这可是Web3.0的精髓。自从Web2.0大热之后,羞涩内敛的李爵士也勇敢地献身俗流,给阳春白雪的“语义万维网”贴上了Web3.0的标签。

有人说Web1.0是Web of Documents(文件的Web), Web2.0是Web of Persons(人的Web,语法正确吗?),Web3.0是 Web of Data(数据的Web)。

文件Web的特征是:

  • 把互联网当成一个超大的文件系统;
  • 供人使用而不是供机器使用(文件的内容不是机器可读的编码);
  • 基本单元是文件;
  • 链接的目标对象也是文件(或者文件的部分);
  • 基本单元内部的结构化程度:非常低,不可度量;
  • 内容和链接的语义:内隐(需要人脑的理解)。

数据Web的特征是:

  • 把互联网当成一个超大的关系型数据库;
  • 主要是供机器使用(理解),也可以供人使用(多重编码,既考虑到显示,又靠虑到机读);
  • 基本单元是”资源“(或”对资源的描述“),资源可以是万事万物,只要有标识;
  • 链接可以发生在任何”资源“之间;
  • 资源的结构化程度:很高,随需而变;
  • 内容和链接的语义:外显(必须描述出来,作为显性知识,且采用机器可识别的编码方式)。

什么数据最需要关联?虽然数据面前人人平等,但是能力有高下,社会有分工。可以说“开放的数据”最需要关联,规范数据最需要关联。当然,如果企业的数据不需要关联,可能关联数据技术会活不下去,所以除了以维基百科数据为主的Linked Open Data“已成为一场声势浩大的运动之外,Linked Enterprise Data也悄然兴起。

其实,数据量最大,最有价值,保存有最多人类文化遗产的数据并不是上面这些,而是…对了…MARC。看吧,随着LoC,OCLC等业界大佬的努力,Linked MARC Data将遍地开花,其中有没有中文数据呢?这就要看你我的努力了。很有可能将来我们又要疾呼:不能让西方文明占领数据万维网!

早你干嘛去了?!