什么是“关联数据”(定义进阶)?
以下针对不同知识背景的读者,分别给出了不同详略程度和专业程度的解释,供参考(并请提出意见):
1、普通网民(知道如何上网,希望对一些网络知识做一般性的了解)
关联数据是一种由国际互联网协会(W3C)推荐的数据规范,用来联接和发布各类数据、信息和知识,使互联网上的服务器能够基于内容进行检索而不是简单的全文检索(文字相同但含义不一定一样,会检出很多不准确不相关内容),从而更准确地分享和关联信息。
2、普通图书馆员(非IT相关专业大专或本科毕业,能利用网络查找信息或为读者提供服务,懂得MARC是一种元数据)。
关联数据是按照一定方法发布的数据,它直接以每个数据的网址作为它的名称(即其中只包含字母数字和左斜杠),并且数据不是一般的网页文件,而是由字段组成的元数据记录,字段描述中通常包含到其它数据的链接。
3、资深编目员或中级职称以上自动化系统管理员(长期从事编目工作或ILS维护工作,了解国际编目规范和图书馆相关技术的最新进展,参加过元数据相关知识培训或从事过相关研究)。
关联数据是按照一定方法发布的数据,它直接以每个数据的网址作为它的名称标识(即名称中只包含字母数字和左斜杠),并且包含以RDF/XML格式描述的元数据信息。由于RDF数据里包含了指向其它RDF数据的链接,因此能形成富含元数据信息的数据关联。
4、Web应用开发人员(具有IT知识背景,熟知最新Web技术,参与过Web应用的开发)
关 联数据是任何资源在万维网上发布的一种方式,以HTTP URI方式链接到一个以RDF/XML编码的数据对象,而不是一个其它任何格式的文档。其中URI决定了数据的唯一性和“可关联”性,RDF确立了数据的 语义和链接的实体。RDF文件中应该包含更多的由URI所标识的其它资源,即尽可能不使用“空节点(blank nodes)”少使用“普通文字(literal)”,并且包含以RDF/XML格式描述的、规范格式的元数据信息。空白节点(Blank node)是指没有全局ID的本地资源(没有定义命名域的URI,如ISBN, DOI),文字(Literal)指一个字串值(可以有类型以及语言属性)
5、语义Web研究者(熟知语义Web技术,有志于为互联网带来图书馆的知识服务)
关 联数据是由Web的发明人Tim Berners-Lee提出的一个概念,定义了一种URI规范,使得人们可以通过HTTP/URI机制,直接获得数字资源(Thing),从而实现一种 Web上的富链接机制。从本质上看,关联数据是将超文本链接(即文件之间的链接)转变为超数据链接(事物Thing之间的链接)。
TBL认为关联数据是实现Data Web的关键技术,应符合四个原则:
- 使用URI作为任何事物的标识名称,不仅是标识文档;
- 使用HTTP URI,使任何人都可以参引(dereference)这一全局唯一的名称;
- 当有人访问名称时,以RDF形式提供有用的信息;
- 尽可能提供链接,指向其它的URI,以使人们发现更多的相关信息。
SKOS不是KOS,Linked Data不是Data
有些缩略语不能只看其表面用词,还需了解具体内容。有两个手边的例子:
- SKOS(Simple Knowledge Organization System)与NKOS(Networked Knowledge Organization System)长得很像,但他们全然不是一个东西。前者是用以编码KOS的一套基于RDF的扩展模式(RDF Schema),似乎称之为Simple Knowledge Organization Schema更确切些。而后者是指各类知识组织体系(分类法、叙词表等)在网络上的形态,可以用SKOS来编码NKOS。因此SKOS实际上不是知识组织 体系,只是一种编码方式而已。
- 关联数据Linked Data是发布RDF数据的一种简捷开放高效的方法(机制),是语义Web的一种实现,可以看成是Web上发布数据的一种标准的API(对于HTTP进行进一步的规定和扩展),而不是一种特殊的数据。
几个概念:开放数据,关联数据,语义Web和Web3.0
针对童鞋们经常提问,以及本人根据网络资源和自己的理解整理如下:
开放数据(Open Data):
在网络上可以公开得到的数据,没有任何控制访问的措施(无需登录,否则只能是免费数据或其它名称)。
为了促进开放数据应用,模仿“创作共用”协议,好事者也提出了“开放数据共用协议”。
开放元数据是其中的一类。
项目举例:
- data.gov(美国)
- Open Data Network(德国)
- making public data public(英国)
关联数据(Linked Data):
一种数据访问(整合)技术,基本上都是以RDF方式表达,对于Http协议进行少量扩展(规定)而成。低成本,高可用性,整合简单。
开放链接数据(Linked Open Data)是关联数据的一项运动。
- 美国纽约时报项目,目前已经上载了5000个人物的主题表目,可以按照cc by协议开放使用。
- Linked Data Research Center
- GoodRelations:关于产品、价格和企业数据的规范词表
- oeGOV:应用于政府信息管理的本体词表
Web3.0:
Web2.0的热衷者或者搅局者提出的一个概念,作为下一代Web的一种趋势探讨,有人说就是语义Web,有人在语义Web基础上添加了P2P、各类无线应用甚至云计算等内容。
语义Web:
现有Web之上的、以数据资源为基本组成单位的Web,这些资源(数据)都标注有元数据描述,从而能够进行语义查询,以及数据整合,提供了互联网上实现语义互操作的技术平台。关联数据可以理解为语义Web的一种实现。
Web of Data是其另一别称。
百思买开始发布关联数据
全球最大的专业零售商、世界500强之一的百思买,开始采用RDF/XML在网上发布其商品信息,包括其所有45万种商品,每种大约60个三元组(triple,相当于数据库字段),包括价格信息。数据每日更新。
虽然这个三元组库不是世界上最大的,但它的动态性目前还无人能比。Linked Open Data项目中的所有RDF库,还没有应用于动态商业产品信息的。因此,百思买能否成功,从某种程度上对于关联数据/语义网的应用具有示范效应。
三元组数据集在这里(可惜居然要翻墙,不知是何道理!):
语义地图: http://products.semweb.bestbuy.com/sitemap.xml
数据集:
a) 软件产品:http://products.semweb.bestbuy.com/products/8182593/semanticweb.rdf
b) 硬件(”Hardgoods”):http://products.semweb.bestbuy.com/products/8794691/semanticweb.rdf
c) 电影:http://products.semweb.bestbuy.com/products/7590289/semanticweb.rdf
d) 游戏产品:http://products.semweb.bestbuy.com/products/9223752/semanticweb.rdf
关联数据浏览器
20090827update: 雨师对此已经做了详细解释,参见:http://www.linhq.net/archives/5。
20090826update: 在apache的httpd.conf文件中插入:AddType application/rdf+xml .rdf, AddType text/rdf+n3;charset=utf-8 .n3, AddType application/x-turtle .ttl。即解决了本帖中所遇到的问题(Firefox需安装Tabulator插件)。
最近一直在关注关联数据的实现问题。今天试验了这样几个浏览器(插件):
- Tabulator Browser (MIT, USA)
- Marbles (FU Berlin, DE)
- OpenLink RDF Browser (OpenLink, UK)
- Zitgist RDF Browser (Zitgist, USA)
- Disco Hyperdata Browser (FU Berlin, DE)
- Fenfire (DERI, Irland)
各有千秋。
好像Zitgist的适应性最好(见插图)。其它几个对于我的FOAF文件都不能正常显示。
后来参考《如何在网上发布关联数据》,发现是我的apache服务器的设置问题:不支持application/rdf+xml的MIME类型。
