分类目录关联数据

Linked Data: Structured Data on the Web

 

《关联数据:万维网上的结构化数据》

《Linked Data: Structured Data on the Web》by David Wood, Marsha Zaidman and Luke Ruth with Michael Hausenblas (本书是蒂姆李伯纳爵士亲自作序)

目录

一、关联数据万维网
1、关联数据引言
1.1、关联数据定义
1.2、关联数据不能做什么
1.3、关联数据在行动(谷歌脸书BBC)
1.4、关联数据原则
1.5、关联开放数据计划
1.6、描述数据
1.7、RDF:关联数据的数据模型
1.8、关联数据应用剖析
1.9、小结
2、RDF:关联数据的数据模型
2.1、关联数据原则扩展RDF
2.2、RDF数据模型(三元组、空节点、类、类文字)
2.3、RDF词表(通用词表、自用词表)
2.4、关联数据的RDF格式(给人读的Turtle,企业常用的RDF/XML,嵌入网页的RDFa,JS开发者常用的JSON-LD)
2.5、于Web服务器和关联数据发布有关的问题
2.6、文件类型和Web服务器(如何配置Apache)
2.7、对Apache的控制权限有限怎么办
2.8、关联数据平台(LDP)
2.9、小结
3、消费关联数据
3.1 像Web一样思考
3.2 如何消费关联数据
3.3 发现分布式关联数据的工具(Sindice,SameAs.org,Data Hub)
3.4 聚合关联数据(从已知的数据集,采用插件从网页获得关联数据)
3.5 爬虫关联数据网络并聚合数据(用Python,从聚合RDF中输出HTML)
3.6 小结

二、降服关联数据
4、利用FOAF创建关联数据
4.1 建立一个个人FOAF文档(FOAF词表介绍,方法1:手工创建,加强版FOAF,方法2:自动生成FOAF文档)
4.2 增加更多的内容到FOAF文档中
4.3 发布你的FOAF文档
4.4 FOAF文档的可视化
4.5 应用:用自己的词表联接RDF文件(建立词表清单,建立、发布和联接清单文档,向清单文档中添加内容,解释一个书签工具)
4.6 小结

5、SPARQL——查询关联数据万维网
5.1 概述一个典型的SPARQL查询
5.2 用SPARQL查询一个扁平的RDF文档(查询单个RDF数据文件,查询多个RDF文件,查询Web上的RDF文件)
5.3 查询SPARQL端点
5.4 SPARQL查询的类型(SELECT,ASK,DESCRIBE,CONSTRUCT,SPARQL1.1的新功能)
5.5 SPARQL结果格式(XML,JSON)
5.6 建立SPARQL查询的网页(建立SPARQL查询,建立HTML页面,建立JS表,建立JS地图)
5.7 小结

三、关联数据高级知识
6、对搜索引擎查询结果的增强
6.1 在HTML网页中嵌入RDFa数据(采用FOAF词表进行RDFa编码,在HTML span属性中用RDFa,从含有FOAF的HTML文档中抽取关联数据)
6.2 用GoodRelations词表嵌入RDFa(GoodRelations词表概述,在HTML中用包含GR的RDFa,RDFa GR实战,从含有GR的HTML文档中抽取关联数据)
6.3 在RDFa中使用schema.org词表(schema.org概述,HTML中嵌入使用了schema.org的RDFa,在RDFa中使用schema.org实战,从包含schema.org的HTML文档中抽取关联数据)
6.4 如何选择是采用schema.org还是采用GoodRelations?
6.5 从HTML中抽取RDFa并使用SPARQL
6.6小结

7、RDF数据库基础
7.1 RDF数据库分类(选择RDF数据库系统,RDF数据库与RDBMS比较,RDF数据库系统的优势)
7.2 将表单数据转换成RDF(一个简单的MS Excel转换成RDF的例子,转换MS Excel成关联数据,发现RDF转换工具)
7.3 应用:在RDF数据库中收集关联数据(计划处理流程,用Python聚合数据资源,理解输出)
7.4 小结

8、数据集
8.1 项目描述(建立一个DOAP大纲,使用DOAP词表)
8.2 用VoID编写数据集说明文档(互联的数据集词表,准备VoID文件)
8.3 网站地图(不含语义的网站地图,含语义的网站地图,让你的网站能够被发现)
8.4 链向他人的数据
8.5 使用owl:sameAs链接数据集的例子
8.6 加入Data Hub
8.7 从DBpedia向你的数据集请求外部链接
8.8 小结

四、综合
9、卡利马科斯:关联数据管理系统
9.1 开始利用卡利马科斯
9.2 用RDF类建立网页(向卡利马科斯中添加数据,告诉卡利马科斯你的OWL类,利用凯利马科斯视图模板关联你的类)
9.3 建立和编辑类实例(建立新的标注note,为标注建立试图模板,为标注建立一个模板编辑)
9.4 应用:为多来源的数据建立网页(从NOAA和EPA建立并查询关联数据,建立包含应用的网页,建立JS语句以检索和显示关联数据,上述功能的综合实现)
9.5 小结

10、发布关联数据:概要
10.1 准备数据
10.2 铸造URI
10.3 选择词表
10.4 词表客户化
10.5 链接自己的数据与其它数据集
10.6 发布你的数据
10.7 小结

11、进化中的万维网
11.1 关联数据与语义网的关系(示范性成功)
11.2 还有什么?(谷歌extended rich snippets,数字可信于透明立法,对广告的影响,强化搜索,大玩家的参与)
10.3 结论

附录A 开发环境
附录B SPARQL结果格式
词汇表
索引

publishing-and-using-cultural-heritage-linked-data-on-the-semantic-web

http://www.worldcat.org/title/publishing-and-using-cultural-heritage-linked-data-on-the-semantic-web/oclc/816029332

《文化遗产关联数据的发布和应用》

上图索取号G237.6/H999

一、语义网上的文化遗产

  1. 文化遗产的特点:物质文化遗产(tangible CH)、非物质文化遗产和自然文化遗产
  2. 文化遗产的信息门户
  3. 文化遗产数据的挑战:多类型,多主题,多语言,多文化,多重目的
  4. 语义网的承诺:分层模型:真实世界;数据层;元数据层;带来的好处:互操作、数据聚合简单模型、数据整合、语义服务
  5. 本书结构:第二章从提供一个本领域的“业务模式”开讲,以一个CH门户原型系统作为情境,可作为标准模型;第三章讲需求,“分层蛋糕模型(元数据层、本体层和逻辑层);然后介绍技术基础、模型之后,第七章介绍与语义注释和收割内容相关的若干问题;第八章讨论基于语义关联数据的智能服务;第九章是结论。
  6. 书目与笔记

二、文化遗产合作发布的门户模式

  1. 本地相关联内容的全球访问
  2. 联邦检索
  3. 数据仓储
  4. 关联数据的合作发布:是一种常态
  5. 对最终用户的好处:1异构分布资源的统一视图;2内容的自动聚合;3语义搜索;4语义浏览与推荐;5其它智能服务。
  6. 对出版商的好处:1分布式内容生产;2自动链接维护;3共享内容发布;4协作丰富语义内容;5重用聚合资源
  7. 新挑战
  8. 语义门户系统的构成:1、内容架构(领域本体、规范数据、地时事件);2、内容生产系统(收割、清洗的模型与协议、更新维护机制等);3、语义门户系统(给人搜索浏览、可视化、给机器的api,sparql端点等)
  9. 书目与笔记

三、发布关联数据的需求

  1. 关联数据的五星模型(五星分别对应:数据结构;协议授权;格式;标识符系统;数据之间的链接)
  2. 发布结构化数据:RDF/XML,N-Triple,Turtle
  3. 开放协议
  4. 开放格式
  5. 标示符的需求:这个很重要。信息资源和非信息资源的URI,语言中立的URI(但并非不用语言),内容协商和重定向,
  6. 内部链接与外部链接
  7. 界面与API的需求
  8. 浏览关联数据
  9. SPARQL端点
  10. 下载设施
  11. 人机界面
  12. 书目与笔记

四、元数据模式

  1. 元数据类型
  2. Web模式
  3. 都柏林核心
  4. VAR核心类别
  5. 编目模式
  6. CDWA
  7. SPECTRUM
  8. 图书馆的元数据格式
  9. 档案领域的元数据格式
  10. 概念协调模式
  11. 语义互操作方法
  12. Europeana语义元素
  13. EUROPEANA数据模型
  14. CIDOC CRM
  15. FRBR
  16. FRAD
  17. FRSAD
  18. FRBRoo
  19. 收割模式:LIDO
  20. 收割与搜索协议
  21. 用Z39.50、SRU/SRW和OpenSearch检索
  22. 用OAI-PMH收割
  23. 关联数据的SPARQL端点
  24. 讨论:对象、事件与处理模型
  25. 书目与笔记

五、领域词表与本体

  1. 本体方法
  2. 哲学
  3. 词表和语言学
  4. 术语
  5. 图书馆与情报科学
  6. 计算机科学
  7. 语义万维网本体语言
  8. RDF模式
  9. SKOS
  10. OWL
  11. 本体类型
  12. 分类、叙词表和本体
  13. 以主要领域区分的本体类型
  14. 角色本体:主要用于规范控制
  15. 场所本体:!!!这里介绍得比较概要,可以看另一本书。
  16. 时间本体
  17. 线性时间
  18. 周期时间
  19. 事件本体:介绍了很多事件本体。
  20. 物质名录(nomenclatures)
  21. 书目与笔记

六、文化遗产的逻辑规则

  1. 逻辑能做什么
  2. RDF(S)和OWL的逻辑解释
  3. 推理规则
  4. Horn逻辑与描述逻辑
  5. 封闭世界假说
  6. 开放世界假说
  7. 唯一名称假设
  8. 文化遗产规则的用例
  9. 书目与笔记

七、文化内容的创造

  1. 词表与本体创建
  2. 概念层次与本体创建
  3. 将传统叙词表转换成本体
  4. 术语创建
  5. 本体实现(alignment)
  6. 本体评价
  7. 将本地内容转换成RDF
  8. 转换过程
  9. 将关系型数据库转换成RDF
  10. 内容聚合和整合
  11. 关联数据的质量
  12. 一次资源的数据质量
  13. 元数据质量
  14. 关联数据服务的质量
  15. 书目与讨论

八、面向人和机器的语义服务

  1. 传统情报检索
  2. 基于概念的语义检索
  3. 管理同义词
  4. 同形异义词与语义去模糊
  5. 提问与文档扩展
  6. 语义自完成
  7. 分面语义搜索与浏览
  8. 语义浏览与推荐
  9. 关系搜索
  10. 可视化与混搭
  11. 数据集云的可视化
  12. 本体可视化
  13. 元数据可视化
  14. 搜索结果可视化
  15. 个性化与情境敏感
  16. 跨门户内容的重用
  17. 书目与笔记

9、结语

一些关联数据工具链接

值得仔细考察的工具:
Information Workbench: http://www.fluidops.com/information-workbench/
从Spreadsheet(表格)文件转换数据的工具:Open Refine: http://openrefine.org/
从关系型数据库抓取数据:http://virtuoso.openlinksw.com/dataspace/doc/dav/wiki/Main/VirtR2RML 需要与Virtuoso一起用。(培训:https://www.youtube.com/watch?v=5Uo4UDm0ukw)
从文本中抽取语义结构:Gate:http://gate.ac.uk/wiki/gate-user-faq.html,Zemanta: http://www.w3.org/2001/sw/wiki/Zemanta (https://www.youtube.com/watch?v=4Ve93C238gI),DBPedia Spotlight: https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki (https://www.youtube.com/watch?v=dfBs5WPvChE
Exhibit 3.0 http://semanticweb.com/exhibit-3-0-part-1-an-open-source-software-platform-for-publishing-linked-data_b22962
Callimachus http://callimachusproject.org
词表库:
http://lov.okfn.org/dataset/lov/
W3C SWEO Linking Open Data community project: http://www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/CommonVocabularies
Library Linked Data Incubator Group: Vocabularies in the library domain: http://www.w3.org/2005/Incubator/lld/XGR-lld-usecase-20111025/

关联数据能给企业带来什么?

作为一个语义技术(现在是关联数据)的布道者,总是被问及“能够带来什么”和“为什么”的问题。一个简单的、有巨大价值的,甚至是革命性的技术,却不知什么原因让很多人觉得难以理解,实在是难以理解。

今天又回答了一位网友的提问,顺便把回答贴上来,也期望有更多的人看到。星星之火,点燃更多的人。

关联数据能够对一个企业或机构带来怎样的好处呢?其实现在的企业、组织机构与图书情报单位差不多,IT用得较早较多的,都已经有了很多系统了:业务管理系统、办公自动化系统、人事系统、财务系统、销售系统、客户管理系统、库存系统、物流系统……,很多单位有了这些系统却找不到数据,每次用到数据(例如人员数据)都要重新填表,效率和一致性都成问题。

如何使这些系统协同、特别是数据得到重用,是个很大的问题。以关联数据为代表的语义技术正是在数据整合乃至业务整合方面,能够发挥巨大作用,确保已有的大量产品(对象)数据或其它数据方便有效地跨系统得到使用。用一个时髦名词,就是“基于语义的系统(数据)集成”。

很多情况下企业都是通过XML消息或其它B2B标准实现跨系统信息通信,但是当一个企业内拥有几十个系统,管理着不同的业务过程,涉及上万个实体(产品、零件、藏品…)时,正确地描述每一个产品的复杂属性和取值,取得数据的一致性不是一件容易的事情。一棵再强大的XML DOM树也无法对付高度复杂的多维链接关系。答案只有一个:用图式数据(graph)。

关联数据的价值就在此时显现出来。它向数据消费方提供一个单一的、可信的、易用的实体对象数据源。关联数据自身就是开放的API,对最终用户的好处就是:发布在网站上的信息、数据表、选单、指南、合作伙伴的信息、链接信息等,能够保持高度的一致性,特别是能够解决更新时的一致性问题。

怎么做?

根据LD的发布原则,首先确立每一个独立存在的实体对象(例如产品、供应商),赋予他们唯一的HTTP URI作为标识。在系统后台可能要支持这些对象数据原有的管理系统,例如他们是通过XML RPC接口过来,还是CSV格式,还是RDBMS的,都要转成RDF是肯定的。

RDF的一个很好的特性是合并数据非常容易,能够从不同的来源很容易地进行合并,而此时如果采用大数据解决方案,例如采用图形NoSQL数据库,则更体现了灵活性。

为这类RDF图形数据库建立查询“端点(endpoint)”是很容易的,然后我们就可以通过SPARQL标准进行查询。

这里有个工具Dydra,它是一个数据库作为一种服务(Database as a Service)的云服务。可以作为小应用“试水”,边用边学。你只需要上载你的RDF数据即可。目前此类工具已经很多了,而且很强大,例如最新的Apache Jena和OpenRDF Sesame项目成果,或者“关联数据平台(LDP)”如Graphity。它们已经能够支持非常“傻瓜”地建立关联数据系统,支持很快地建立API,存取不同来源的数据,甚至能够支持非常复杂的提问。这种基于语义的整合具有过去系统所不具有的深度(智能)查询能力,如果发展得足够快,应该能应用于下一代“图书馆服务平台LSP”中。

当一个查询命中一个产品标识(以HTTP URI形式)时,这个URL是可“解引(deferencable)”的,意味着可以支持“内容协商机制(negotiation)”,按照不同的请求提供不同的数据,浏览器(人工请求)就提供HTML,机器请求就提供XML、JSON或Turtle格式的RDF数据。Graphity采用Jave和XSLT2.0,通用性很强。

如果该企业或组织机构的数据具有一定的通用性,它愿意作为一种“规范数据”发布到公网上,在一定的开放协议下提供公共服务(如果是商业服务可以收费),这些数据的模型(本体)和描述规范(元数据规范)还能构成领域标准,将使企业或组织机构的价值得到更大的提升。