几个概念:开放数据,关联数据,语义Web和Web3.0
针对童鞋们经常提问,以及本人根据网络资源和自己的理解整理如下:
开放数据(Open Data):
在网络上可以公开得到的数据,没有任何控制访问的措施(无需登录,否则只能是免费数据或其它名称)。
为了促进开放数据应用,模仿“创作共用”协议,好事者也提出了“开放数据共用协议”。
开放元数据是其中的一类。
项目举例:
- data.gov(美国)
- Open Data Network(德国)
- making public data public(英国)
关联数据(Linked Data):
一种数据访问(整合)技术,基本上都是以RDF方式表达,对于Http协议进行少量扩展(规定)而成。低成本,高可用性,整合简单。
开放链接数据(Linked Open Data)是关联数据的一项运动。
- 美国纽约时报项目,目前已经上载了5000个人物的主题表目,可以按照cc by协议开放使用。
- Linked Data Research Center
- GoodRelations:关于产品、价格和企业数据的规范词表
- oeGOV:应用于政府信息管理的本体词表
Web3.0:
Web2.0的热衷者或者搅局者提出的一个概念,作为下一代Web的一种趋势探讨,有人说就是语义Web,有人在语义Web基础上添加了P2P、各类无线应用甚至云计算等内容。
语义Web:
现有Web之上的、以数据资源为基本组成单位的Web,这些资源(数据)都标注有元数据描述,从而能够进行语义查询,以及数据整合,提供了互联网上实现语义互操作的技术平台。关联数据可以理解为语义Web的一种实现。
Web of Data是其另一别称。
Popularity: 17% [?]
Tags: linked data, Open Data, Web3.0, 关联数据, 语义Web, 语义技术Related posts
百思买开始发布关联数据
全球最大的专业零售商、世界500强之一的百思买,开始采用RDF/XML在网上发布其商品信息,包括其所有45万种商品,每种大约60个三元组(triple,相当于数据库字段),包括价格信息。数据每日更新。
虽然这个三元组库不是世界上最大的,但它的动态性目前还无人能比。Linked Open Data项目中的所有RDF库,还没有应用于动态商业产品信息的。因此,百思买能否成功,从某种程度上对于关联数据/语义网的应用具有示范效应。
三元组数据集在这里(可惜居然要翻墙,不知是何道理!):
语义地图: http://products.semweb.bestbuy.com/sitemap.xml
数据集:
a) 软件产品:http://products.semweb.bestbuy.com/products/8182593/semanticweb.rdf
b) 硬件(”Hardgoods”):http://products.semweb.bestbuy.com/products/8794691/semanticweb.rdf
c) 电影:http://products.semweb.bestbuy.com/products/7590289/semanticweb.rdf
d) 游戏产品:http://products.semweb.bestbuy.com/products/9223752/semanticweb.rdf
Popularity: 17% [?]
Tags: bestbuy, linked data, 关联数据, 百思买, 语义技术Related posts
关联数据浏览器
20090827update: 雨师对此已经做了详细解释,参见:http://www.linhq.net/archives/5。
20090826update: 在apache的httpd.conf文件中插入:AddType application/rdf+xml .rdf, AddType text/rdf+n3;charset=utf-8 .n3, AddType application/x-turtle .ttl。即解决了本帖中所遇到的问题(Firefox需安装Tabulator插件)。
最近一直在关注关联数据的实现问题。今天试验了这样几个浏览器(插件):
- Tabulator Browser (MIT, USA)
- Marbles (FU Berlin, DE)
- OpenLink RDF Browser (OpenLink, UK)
- Zitgist RDF Browser (Zitgist, USA)
- Disco Hyperdata Browser (FU Berlin, DE)
- Fenfire (DERI, Irland)
各有千秋。
好像Zitgist的适应性最好(见插图)。其它几个对于我的FOAF文件都不能正常显示。
后来参考《如何在网上发布关联数据》,发现是我的apache服务器的设置问题:不支持application/rdf+xml的MIME类型。
Popularity: 19% [?]
Tags: linked data, 关联数据, 语义技术Related posts
ALA2009 Linked Data Session
今年ALA年会的“草根分会场”有一个“关联数据”主题。看起来这些分会场都是事先申报,经过投票而选定的,过于小众的主题是选不上的。据说“关联数据”主题得到了118张选票。
本场主题共有四个报告:
- Eric Miller (Zepheira), “Linked Data and Libraries“;
- Diane Hillmann (Information Institute of Syracuse; Metadata Management Associates), “Are Libraries Ready for Linked Data?“;
- Jennifer Bowen (University of Rochester), “Defining Linked Data for the eXtensible Catalog (XC): Metadata on the Bleeding Edge“;
- Rebecca Guenther (Library of Congress), “Controlled Vocabularies as Linked Data on the Web“.
都相当精彩。点击链接可以下载。
Popularity: 19% [?]
Tags: linked data, 关联数据, 语义技术Related posts
关联数据:意义及其实现
关联数据(Linked Data),很简单的技术,却正在使万维网发生质的改变。
图书馆的MARC数据,规范记录,主题标目,…,正在开放成为任意互联的关联数据。
已经有20亿条传统网页上的数据(包括维基百科)被自动半自动地转换成了关联数据。
大型媒体公司,如BBC,纽约时报,已经把他们的海量数据转换成了关联数据。
英国首相咯噔布朗,已邀请李爵士为英国政府信息提供语义网(关联数据)支持。
……
关联数据正在成为数据上网的一种标准形式,使开放数据的API直接统一为HTTP协议,等于废除了任何私有的API。
其严格采用HTTP URI使真实世界全面映射到网络世界。
其全面支持RDF,使万维网资源描述得以完美模拟真实世界。
总之,这是语义网的一种初步实现。
难怪李爵士情不自禁地在TED大会上说:“这哈子歪脖总算干对了(The Web done right)!”
Popularity: 18% [?]
Tags: linked data, 关联数据, 语义技术Related posts
SemTech2009回顾(视频)
上个月(6月14-18日)在美国加州召开的语义技术大会(SemTech2009)上,关联数据也是其中的一个重要主题,许多业界大腕都开发了关联数据应用,特别是纽约时报和BBC的介入,以及英国布朗首相邀请Tim Burners-Lee应用语义技术对政府信息的管理提出建议等,使关联数据成为媒体新技术中的明星。
以下这个视频是以Paul Miller为首(主持人)的一帮语义网鼓吹者(Semantic Web Gang)回顾这次会议所取得的成果等,内容浓缩,值得一看。
The Semantic Web Gang looks back at SemTech 2009 from Semantic Universe on Vimeo.
Popularity: 14% [?]
Tags: 关联数据, 视频, 语义技术Related posts
关联数据四原则
专文至此,以方便链接引用。
原文来自李爵士的报告:http://www.w3.org/DesignIssues/LinkedData.html
- 原则一:使用URI作为任何事物的标识名称;
Use URIs as names for things - 原则二:使用HTTP URI使任何人都可以访问这些标识名称;
Use HTTP URIs so that people can look up those names - 原则三:当有人访问某个标识名称时,提供有用的信息;
When someone looks up a name, provide useful information - 原则四:尽可能提供相关的URI,以使人们可以发现更多的事物。
Include links to other URIs so that they can discover more things
Popularity: 24% [?]
Tags: linked data, 关联数据, 四原则, 语义技术Related posts
数据的万维网(The Web of Data)
近一段时间在鼓吹“关联数据(linked data)”,与以前的研究实际上是一脉相承的。数字图书馆随着技术的演进不断地在寻求更好的实现方式,元数据应用从98、99年就认为采用RDF是最Native的(RDF为此而诞生),至今没有很好的解决方案,现在总算来了一个LD:关联数据。
虽然不是W3C的嫡亲,但是李爵士毫不掩饰对LD的厚爱,认为它是当下实现“Web of Data”的最好方式。什么是Web of Data?这可是Web3.0的精髓。自从Web2.0大热之后,羞涩内敛的李爵士也勇敢地献身俗流,给阳春白雪的“语义万维网”贴上了Web3.0的标签。
有人说Web1.0是Web of Documents(文件的Web), Web2.0是Web of Persons(人的Web,语法正确吗?),Web3.0是 Web of Data(数据的Web)。
文件Web的特征是:
- 把互联网当成一个超大的文件系统;
- 供人使用而不是供机器使用(文件的内容不是机器可读的编码);
- 基本单元是文件;
- 链接的目标对象也是文件(或者文件的部分);
- 基本单元内部的结构化程度:非常低,不可度量;
- 内容和链接的语义:内隐(需要人脑的理解)。
数据Web的特征是:
- 把互联网当成一个超大的关系型数据库;
- 主要是供机器使用(理解),也可以供人使用(多重编码,既考虑到显示,又靠虑到机读);
- 基本单元是”资源“(或”对资源的描述“),资源可以是万事万物,只要有标识;
- 链接可以发生在任何”资源“之间;
- 资源的结构化程度:很高,随需而变;
- 内容和链接的语义:外显(必须描述出来,作为显性知识,且采用机器可识别的编码方式)。
什么数据最需要关联?虽然数据面前人人平等,但是能力有高下,社会有分工。可以说“开放的数据”最需要关联,规范数据最需要关联。当然,如果企业的数据不需要关联,可能关联数据技术会活不下去,所以除了以维基百科数据为主的Linked Open Data“已成为一场声势浩大的运动之外,Linked Enterprise Data也悄然兴起。
其实,数据量最大,最有价值,保存有最多人类文化遗产的数据并不是上面这些,而是…对了…MARC。看吧,随着LoC,OCLC等业界大佬的努力,Linked MARC Data将遍地开花,其中有没有中文数据呢?这就要看你我的努力了。很有可能将来我们又要疾呼:不能让西方文明占领数据万维网!
早你干嘛去了?!
Popularity: 28% [?]
Tags: linked data, Web of Data, Web3.0, 关联数据, 数据的Web, 语义技术Related posts
关联数据FAQ
关联数据问答(Linked Data FAQ)
原文:http://structureddynamics.com/linked_data.html
翻译:李佳佳
审校:张春景 刘炜
关联数据是语义万维网第一种可行的表达形式,实用且可操作,适用于各种形式的数据。
蒂姆·伯纳斯-李(Tim Berners-Lee)在《关联数据的设计问题》中所提到的关联数据四原则,以及维基百科上有关关联数据的介绍,都给出了关联数据大致能够被接受的、正式的或官方的定义。以这些定义为基础,为了更为精确地说明关联数据,本站(Structured Dynamic)采用如下定义:
关联数据是一组最佳实践的集合,它采用RDF数据模型,利用URI(统一资源标识符)命名数据实体,来发布和部署实例数据和类数据,从而可以通过HTTP协议揭示并获取这些数据,同时强调数据的相互关联、相互联系以及有益于人机理解的语境信息。
以下内容涉及的”关联数据”,都符合上述定义。
常见问题及解答
1. 关联数据是否一定要用RDF?
2. 发布RDF足以创建关联数据吗?
3. 如何发布或部署关联数据?
4. 关联数据只是语义万维网的另一种表述,或者是语义万维网的另一个商标吗?
5. 关联数据只能应用于实例数据吗?
6. 本体在关联数据中扮演什么角色?
7. 关联数据采用的是集中式的方法,还是联邦式(federated)式的方法?
8. 在联合(federating)关联数据的时如何维护语境?
9. 开放数据是关联数据的前提吗?
10. 遗留数据可以表示为关联数据吗?
11. 企业数据,公开数据和公共数据可以混合成关联数据吗?
12. 如何查询或获取关联数据?
13. 如何对关联数据进行访问控制或安全维护?
14. 企业能够从关联数据中获得哪些益处?(或者企业为什么要使用关联数据?)
15. 早期的关联数据应用或使用于哪些方面?
1. 关联数据是否一定要用RDF?
是的,一定要用。尽管其他方法也可以建立基于主体-谓词-客体(subject-predicate-object)结构的一阶谓词逻辑模型,该结构是资源描述框架(RDF)数据模型的核心,但RDF是基于W3C一系列开放标准。RDF和一阶逻辑之所以强大,在于它的简单性,并有能力表达复杂的模式和关系,适合为现有的各种非结构化、半结构化和结构化数据框架建立模型。
2.发布RDF足以创建关联数据吗?
并非这样。关联数据只是一套应用了RDF模型的技术,这个模型要求以URIs命名所有的对象,并能够通过HTTP协议访问获取(也有一些其他考虑,参见上文定义以及下文的进一步讨论)。
一些厂商和数据提供者声称支持关联数据,但是如果他们的数据不能通过HTTP获取,并使用URI作为数据对象的标识,这些数据就不是关联数据。幸运的是,这些数据可以比较直接地将非标准的RDF数据(non-compliant RDF)转化为关联数据。
3.如何发布或者部署关联数据?
关于如何发布关联数据有许多不错的参考资料,例如《如何在网络上发布关联数据》(How to publish linked data on the web)教程和白皮书《部署关联数据》(Deploying linked data),后者采用了OpenLinks Virtuoso软件作为例子。除此之外,还有一些使用URI的推荐方法,例如W3C的工作草案《语义万维网的”酷”URIs》(Cool URIs for the Semantic Web)。
但是,目前还没有哪个指南文档,能够暨符合上述定义,又强调数据类和语境的匹配。当然,很多公司和专业顾问能提供技术方面的帮助。
问题的关键在于,要努力使数据单元之间的联系具有一定的语义(属性或关系,即三元组中连接主客体的“谓词”),利用URI进行对象标识,并通过HTTP协议进行揭示(expose)和访问。
4. 关联数据只是语义万维网的另一种表述,或者是语义万维网的另一个商标吗?
绝对不是,这个问题是目前许多困惑的根源。
语义万维网最好被理解为一种愿景或者目标,希望机器代理能够通过经过富语义标注的数据来创建链接,找到信息或者自动地在后台替人做事。虽然那我们正在朝着这个目标努力,但是按此解释,语义万维网更多的是一种过程而不是状态。如果认识到语义万维网是一种愿景或者目标,我们就能理解类似“Web 3.0”之类的标签未免过于简单而片面。
关联数据是一类实践活动,如果把从最初的文件网络(Web of Documents)到如今的语义万维网愿景看成一个频谱的话,关联数据处于中部靠前的某个位置。
关联数据已经呈现于诸位面前,可行而且实用。可以用它来建立有意义的语义连接,并实现更多其它的好处(参见下文),但后台的自动推理以及自主行为目前还不能实现。
严格地讲,在语境信息的Web访问和语义万维网的长期愿景尚无着落的前提下,关联数据提供了一种可行的最佳方案。
5. 关联数据只能应用于实例数据吗?
绝对不是,尽管早期的一些实践都是这样应用的。
IBM的Dr. Anant Jhingran非常正确而有说服力地指出,关联数据是人、实例和模式相互影响和相互作用的结果。从他的角度来看,早期的关联数据以维基百科这样的实例数据为主,缺少对企业所需要的模式关系的描述。人的因素包括联系、协作以及妥协认可等,这就要求数据之间首先建立信任和权威关系。
对于本站(指Structured Dynamics)的词表,类层次的映射将使整个领域急剧膨胀,产生的信息价值类似于梅特卡夫定律,即网络的价值是类链接数量的函数[注]。尽管关联数据社区都知道这一网络效应,但目前在关联数据应用中还没有体现多少,如同Anant所指出的,模式定义了企业过程和知识结构,展示模式(类)的各种关系将成为关联数据界今后重要的工作。
6.本体在关联数据中扮演什么角色?
相对于RDF,本体是构成上文中所提到的那些模式的词汇和结构。本体定义了类和实体,以及谓词(属性)关系,这些可使遗留的模式和数据转化成关联数据图。
现在有很多公开的RDF词汇及本体,当语义与现有遗留系统能够匹配的时候应该尽可能重用。但是企业仍然需要特殊的本体来反映他们自己特有的数据和信息关系。
尽管本体这一术语刚出现时听起来挺唬人的,但事实上本体并不复杂,而且比企业所熟悉的标准的关系模式更简单更强大。如果你愿意,简单地将模式一词替换为”本体”,你其实是在描述同一件事情,只不过是在RDF语境中。
7.关联数据采用的是集中式的方法,还是联邦式(federated)的方法?
两者都不是。事实上,尽管关联数据的推理及证明根植于联邦式的、广泛的、分散的数据源中,并且这些数据源在存在格式和结构上也有很大差异。
因为关联数据是表达、揭示和发布数据的一整套技术和最佳实践的集合,因此它可以很容易地应用在集中式环境中,或者在联邦式环境中。
然而,真实世界中任何可能相关的数据,都可以通过不同的、分布的,因而是联邦的方式进行定义,从而获得相互联系。由于RDF数据模型以及Web数据表达和获取技术的普遍性,关联数据是一个极好的载体,最终可以实现数据无障碍的整合和互操作。
8. 在联合(federating)关联数据的时,如何维护语境?
最简单的情况是两个数据源指向完全同样的实体或者是有同样标识的实例。在这种情况下,用标准的SameAs谓词来声明两者之间的等同性。
更为重要的一种情况是多个数据源都是”关于”一些相类似的主题或者概念,这种情况下采用”定义良好”的参考类。此外,如果这些实例可以自行表达为图表的结构,描述了概念之间的关系,我们就可以在概念信息空间中有一些固定的节点,以将这些分离的数据进行关联并联系在一起。更进一步,这样的概念结构也可以提供人物、地点、事物、组织、事件等个体实例之间的关联。
任何参考结构都是由相互联系的多个概念类组成,从而提供了普遍联系的”胶水”和支撑。
本网站(Structured Dynamics)提供了一个开源的类似结构UMBEL,由21000个主题概念节点,UMBEL来源于OpenCyc知识库。这些一般的参考结构经常与更为具体的领域概念本体共同提供特定领域的语境。
9. 开放数据是关联数据的前提吗?
不,当然不是。
然而,到目前为止,确实存在这样一种情况:关联数据以公开的Web数据形式存在,且期望通过开放数据open data运动公开更多的数据。但是没有什么技术原因阻止私人的、私有的或订购的数据成为关联数据。
大概18个月前关联开放数据(Linking Open Data:LOD)小组成立,它以开放数据来展示关联数据技术。与之对应, François-Paul Servant提出”关联企业数据”(Linking Enterprise Data,参见幻灯片slides)来说明关联数据不只用于开放数据。
例如,利用关联数据(不是严格的关联开放数据),两个或者两个以上的企业或私人团体可以合法地通过HTTP在私有网络上交换私有的关联数据。又例如,关联数据可以在不同部门之间利用内联网进行交换。
只要能够支持URI命名,HTTP访问和关联谓词这些规则,该方法就可适用于关联数据。
10.遗留数据(legacy data)可以表示为关联数据吗?
绝对可以。事实上,非事务处理型的遗留数据恐怕只有表达为关联数据,才能继续体现其的价值。参见第十四条。
11. 企业数据,公开数据或者公共数据可以混合为关联数据吗?
当然可以。因为关联数据可以应用于任何数据格式,来源或者模式,所以它最适用于整合防火墙内外部的数据,无论是开放的还是私有的。
12. 如何查询或获取关联数据?
关联数据的基本查询语言是SPARQL (发音为”Sparkle”),可以认为是适用于RDF数据查询的SQL语言。实际应用的RDF数据仓储还需要在这个三元组基础上增加第四维,用以表示命名空间,这样能带来访问和规模扩展之后的效率。这类系统因此得名”四维存储”。此外,还可以在SPARQL查询之前对数据进行过滤,可以进一步提高效率,。
SPARQL的模板查询以及其它技术可以快速高效地部署Web服务和报表,这是本公司(Structured Dynamics)和其它类似公司经常采用的技术。例如UMBEL Web服务就是采用这种SPARQL模板进行表达的。
这种SPARQL模板方法也可以与Fresnel之类的模板标准结合使用,从而绑定实例数据并显示这些模板。
13.如何对关联数据进行访问控制或者安全维护?
按照Structured Dynamics的观点,访问控制或安全管理应该在HTTP的访问和协议这一层实现,而不是关联数据层。因此,适用于一般网络访问和安全方面的政策和规程同样适用于关联数据。
然而,标准数据层或Web服务器的可访问性和安全性可以通过对数据宿主系统的选择而得以提高。例如,Structured Dynamics采用了OpenLink的Virtuoso universal server,具有经过实践证明的强大的安全机制。此外,使用RDF本体来表达安全和访问政策也是可能的。这些潜在的发展方向基本上都独立于关联数据技术。
关键问题是关联数据并不存在独特的、区别于标准的Web访问控制的安全特征。假设一个链接指向一个受限或被控制的数据对象,最终就不会为那些受限制的用户显示访问结果。
14. 企业能够从关联数据中获得哪些益处?为什么要采用关联数据?
企业界广泛采用电子信息系统已经有30多年历史了,长期梦寐以求的”圣杯”–即整合所有数据的访问–已然呈现。因为有了关联数据,这一愿望即将得到实现。以下是关联数据为企业带来的种种关键性的好处,同时这些好处也成为企业采用关联数据绝好的理由:
- RDF模型,可以同样地应用于非结构化、半结构化和结构化的数据与内容。
- 消除内部数据相互分隔的”仓储”(silos)。
- 整合内部和外部数据。
- 易于在企业、行业、开放订阅和开放数据之间进行连接。
- 对遗留模式的数据实现完全的模型化。
- 可以很容易地对现有模式进行灵活更新和变更。
- 不再需要因为商业模式的改变或者并购而重构遗留的数据模式。
- 基于模板和查询的报表创建和数据呈现,不再需要人工操作。
- 数据访问、分析和操作并推送到用户层。
- 采用现有的数据库管理程序和设施进行内部关联数据存储的能力。
15.早期关联数据应用或使用在哪些方面?
关联数据非常适用传统的知识库或者知识管理应用系统。近期在事务性或者资料处理方面的应用不多。
还有一类特殊的应用,是利用链接实现现有的内外部内容的联系,以达到使现有资源增值的目的。
(k注:上述FAQ中涉及的相关技术文档如有人愿意翻译可与我们联系,我们可提供一定支持。—-kevenlw at gmail.com 20090524)
Popularity: 24% [?]
Tags: link data, 关联数据, 语义技术