Linked Data: Structured Data on the Web

 

《关联数据:万维网上的结构化数据》

《Linked Data: Structured Data on the Web》by David Wood, Marsha Zaidman and Luke Ruth with Michael Hausenblas (本书是蒂姆李伯纳爵士亲自作序)

目录

一、关联数据万维网
1、关联数据引言
1.1、关联数据定义
1.2、关联数据不能做什么
1.3、关联数据在行动(谷歌脸书BBC)
1.4、关联数据原则
1.5、关联开放数据计划
1.6、描述数据
1.7、RDF:关联数据的数据模型
1.8、关联数据应用剖析
1.9、小结
2、RDF:关联数据的数据模型
2.1、关联数据原则扩展RDF
2.2、RDF数据模型(三元组、空节点、类、类文字)
2.3、RDF词表(通用词表、自用词表)
2.4、关联数据的RDF格式(给人读的Turtle,企业常用的RDF/XML,嵌入网页的RDFa,JS开发者常用的JSON-LD)
2.5、于Web服务器和关联数据发布有关的问题
2.6、文件类型和Web服务器(如何配置Apache)
2.7、对Apache的控制权限有限怎么办
2.8、关联数据平台(LDP)
2.9、小结
3、消费关联数据
3.1 像Web一样思考
3.2 如何消费关联数据
3.3 发现分布式关联数据的工具(Sindice,SameAs.org,Data Hub)
3.4 聚合关联数据(从已知的数据集,采用插件从网页获得关联数据)
3.5 爬虫关联数据网络并聚合数据(用Python,从聚合RDF中输出HTML)
3.6 小结

二、降服关联数据
4、利用FOAF创建关联数据
4.1 建立一个个人FOAF文档(FOAF词表介绍,方法1:手工创建,加强版FOAF,方法2:自动生成FOAF文档)
4.2 增加更多的内容到FOAF文档中
4.3 发布你的FOAF文档
4.4 FOAF文档的可视化
4.5 应用:用自己的词表联接RDF文件(建立词表清单,建立、发布和联接清单文档,向清单文档中添加内容,解释一个书签工具)
4.6 小结

5、SPARQL——查询关联数据万维网
5.1 概述一个典型的SPARQL查询
5.2 用SPARQL查询一个扁平的RDF文档(查询单个RDF数据文件,查询多个RDF文件,查询Web上的RDF文件)
5.3 查询SPARQL端点
5.4 SPARQL查询的类型(SELECT,ASK,DESCRIBE,CONSTRUCT,SPARQL1.1的新功能)
5.5 SPARQL结果格式(XML,JSON)
5.6 建立SPARQL查询的网页(建立SPARQL查询,建立HTML页面,建立JS表,建立JS地图)
5.7 小结

三、关联数据高级知识
6、对搜索引擎查询结果的增强
6.1 在HTML网页中嵌入RDFa数据(采用FOAF词表进行RDFa编码,在HTML span属性中用RDFa,从含有FOAF的HTML文档中抽取关联数据)
6.2 用GoodRelations词表嵌入RDFa(GoodRelations词表概述,在HTML中用包含GR的RDFa,RDFa GR实战,从含有GR的HTML文档中抽取关联数据)
6.3 在RDFa中使用schema.org词表(schema.org概述,HTML中嵌入使用了schema.org的RDFa,在RDFa中使用schema.org实战,从包含schema.org的HTML文档中抽取关联数据)
6.4 如何选择是采用schema.org还是采用GoodRelations?
6.5 从HTML中抽取RDFa并使用SPARQL
6.6小结

7、RDF数据库基础
7.1 RDF数据库分类(选择RDF数据库系统,RDF数据库与RDBMS比较,RDF数据库系统的优势)
7.2 将表单数据转换成RDF(一个简单的MS Excel转换成RDF的例子,转换MS Excel成关联数据,发现RDF转换工具)
7.3 应用:在RDF数据库中收集关联数据(计划处理流程,用Python聚合数据资源,理解输出)
7.4 小结

8、数据集
8.1 项目描述(建立一个DOAP大纲,使用DOAP词表)
8.2 用VoID编写数据集说明文档(互联的数据集词表,准备VoID文件)
8.3 网站地图(不含语义的网站地图,含语义的网站地图,让你的网站能够被发现)
8.4 链向他人的数据
8.5 使用owl:sameAs链接数据集的例子
8.6 加入Data Hub
8.7 从DBpedia向你的数据集请求外部链接
8.8 小结

四、综合
9、卡利马科斯:关联数据管理系统
9.1 开始利用卡利马科斯
9.2 用RDF类建立网页(向卡利马科斯中添加数据,告诉卡利马科斯你的OWL类,利用凯利马科斯视图模板关联你的类)
9.3 建立和编辑类实例(建立新的标注note,为标注建立试图模板,为标注建立一个模板编辑)
9.4 应用:为多来源的数据建立网页(从NOAA和EPA建立并查询关联数据,建立包含应用的网页,建立JS语句以检索和显示关联数据,上述功能的综合实现)
9.5 小结

10、发布关联数据:概要
10.1 准备数据
10.2 铸造URI
10.3 选择词表
10.4 词表客户化
10.5 链接自己的数据与其它数据集
10.6 发布你的数据
10.7 小结

11、进化中的万维网
11.1 关联数据与语义网的关系(示范性成功)
11.2 还有什么?(谷歌extended rich snippets,数字可信于透明立法,对广告的影响,强化搜索,大玩家的参与)
10.3 结论

附录A 开发环境
附录B SPARQL结果格式
词汇表
索引

publishing-and-using-cultural-heritage-linked-data-on-the-semantic-web

http://www.worldcat.org/title/publishing-and-using-cultural-heritage-linked-data-on-the-semantic-web/oclc/816029332

《文化遗产关联数据的发布和应用》

上图索取号G237.6/H999

一、语义网上的文化遗产

  1. 文化遗产的特点:物质文化遗产(tangible CH)、非物质文化遗产和自然文化遗产
  2. 文化遗产的信息门户
  3. 文化遗产数据的挑战:多类型,多主题,多语言,多文化,多重目的
  4. 语义网的承诺:分层模型:真实世界;数据层;元数据层;带来的好处:互操作、数据聚合简单模型、数据整合、语义服务
  5. 本书结构:第二章从提供一个本领域的“业务模式”开讲,以一个CH门户原型系统作为情境,可作为标准模型;第三章讲需求,“分层蛋糕模型(元数据层、本体层和逻辑层);然后介绍技术基础、模型之后,第七章介绍与语义注释和收割内容相关的若干问题;第八章讨论基于语义关联数据的智能服务;第九章是结论。
  6. 书目与笔记

二、文化遗产合作发布的门户模式

  1. 本地相关联内容的全球访问
  2. 联邦检索
  3. 数据仓储
  4. 关联数据的合作发布:是一种常态
  5. 对最终用户的好处:1异构分布资源的统一视图;2内容的自动聚合;3语义搜索;4语义浏览与推荐;5其它智能服务。
  6. 对出版商的好处:1分布式内容生产;2自动链接维护;3共享内容发布;4协作丰富语义内容;5重用聚合资源
  7. 新挑战
  8. 语义门户系统的构成:1、内容架构(领域本体、规范数据、地时事件);2、内容生产系统(收割、清洗的模型与协议、更新维护机制等);3、语义门户系统(给人搜索浏览、可视化、给机器的api,sparql端点等)
  9. 书目与笔记

三、发布关联数据的需求

  1. 关联数据的五星模型(五星分别对应:数据结构;协议授权;格式;标识符系统;数据之间的链接)
  2. 发布结构化数据:RDF/XML,N-Triple,Turtle
  3. 开放协议
  4. 开放格式
  5. 标示符的需求:这个很重要。信息资源和非信息资源的URI,语言中立的URI(但并非不用语言),内容协商和重定向,
  6. 内部链接与外部链接
  7. 界面与API的需求
  8. 浏览关联数据
  9. SPARQL端点
  10. 下载设施
  11. 人机界面
  12. 书目与笔记

四、元数据模式

  1. 元数据类型
  2. Web模式
  3. 都柏林核心
  4. VAR核心类别
  5. 编目模式
  6. CDWA
  7. SPECTRUM
  8. 图书馆的元数据格式
  9. 档案领域的元数据格式
  10. 概念协调模式
  11. 语义互操作方法
  12. Europeana语义元素
  13. EUROPEANA数据模型
  14. CIDOC CRM
  15. FRBR
  16. FRAD
  17. FRSAD
  18. FRBRoo
  19. 收割模式:LIDO
  20. 收割与搜索协议
  21. 用Z39.50、SRU/SRW和OpenSearch检索
  22. 用OAI-PMH收割
  23. 关联数据的SPARQL端点
  24. 讨论:对象、事件与处理模型
  25. 书目与笔记

五、领域词表与本体

  1. 本体方法
  2. 哲学
  3. 词表和语言学
  4. 术语
  5. 图书馆与情报科学
  6. 计算机科学
  7. 语义万维网本体语言
  8. RDF模式
  9. SKOS
  10. OWL
  11. 本体类型
  12. 分类、叙词表和本体
  13. 以主要领域区分的本体类型
  14. 角色本体:主要用于规范控制
  15. 场所本体:!!!这里介绍得比较概要,可以看另一本书。
  16. 时间本体
  17. 线性时间
  18. 周期时间
  19. 事件本体:介绍了很多事件本体。
  20. 物质名录(nomenclatures)
  21. 书目与笔记

六、文化遗产的逻辑规则

  1. 逻辑能做什么
  2. RDF(S)和OWL的逻辑解释
  3. 推理规则
  4. Horn逻辑与描述逻辑
  5. 封闭世界假说
  6. 开放世界假说
  7. 唯一名称假设
  8. 文化遗产规则的用例
  9. 书目与笔记

七、文化内容的创造

  1. 词表与本体创建
  2. 概念层次与本体创建
  3. 将传统叙词表转换成本体
  4. 术语创建
  5. 本体实现(alignment)
  6. 本体评价
  7. 将本地内容转换成RDF
  8. 转换过程
  9. 将关系型数据库转换成RDF
  10. 内容聚合和整合
  11. 关联数据的质量
  12. 一次资源的数据质量
  13. 元数据质量
  14. 关联数据服务的质量
  15. 书目与讨论

八、面向人和机器的语义服务

  1. 传统情报检索
  2. 基于概念的语义检索
  3. 管理同义词
  4. 同形异义词与语义去模糊
  5. 提问与文档扩展
  6. 语义自完成
  7. 分面语义搜索与浏览
  8. 语义浏览与推荐
  9. 关系搜索
  10. 可视化与混搭
  11. 数据集云的可视化
  12. 本体可视化
  13. 元数据可视化
  14. 搜索结果可视化
  15. 个性化与情境敏感
  16. 跨门户内容的重用
  17. 书目与笔记

9、结语

一些关联数据工具链接

值得仔细考察的工具:
Information Workbench: http://www.fluidops.com/information-workbench/
从Spreadsheet(表格)文件转换数据的工具:Open Refine: http://openrefine.org/
从关系型数据库抓取数据:http://virtuoso.openlinksw.com/dataspace/doc/dav/wiki/Main/VirtR2RML 需要与Virtuoso一起用。(培训:https://www.youtube.com/watch?v=5Uo4UDm0ukw)
从文本中抽取语义结构:Gate:http://gate.ac.uk/wiki/gate-user-faq.html,Zemanta: http://www.w3.org/2001/sw/wiki/Zemanta (https://www.youtube.com/watch?v=4Ve93C238gI),DBPedia Spotlight: https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki (https://www.youtube.com/watch?v=dfBs5WPvChE
Exhibit 3.0 http://semanticweb.com/exhibit-3-0-part-1-an-open-source-software-platform-for-publishing-linked-data_b22962
Callimachus http://callimachusproject.org
词表库:
http://lov.okfn.org/dataset/lov/
W3C SWEO Linking Open Data community project: http://www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/CommonVocabularies
Library Linked Data Incubator Group: Vocabularies in the library domain: http://www.w3.org/2005/Incubator/lld/XGR-lld-usecase-20111025/

在Springer电子书与图书馆馆藏发展论坛上的致辞

在Springer电子书与图书馆馆藏发展论坛上的致辞
20130418
众所周知,现代图书发端于1450年前后的德国。数百年来,它带来了知识的平民化,推动了人类记忆的存续,点燃了文艺复兴的火种,促进了科技的创新和两次工业革命,奠定了现代社会形态的基础,使科技能不断站在巨人肩膀上发展,使人类社会以一种不断迭代方式积累知识、创造财富。今天,我们越来越多的人相信,这种传统的、以纸张作为介质的图书正在走向它生命的终点,图书所负载的灵魂正在以数字化虚无缥缈的形式无所不在,而当你需要时候能够瞬间出现在你的眼前。
我们很高兴地看到,同样来自德国的Springer出版公司在全球顶尖的科技出版领域引领着这场变革。凭借其1842年创立的近两百年基业,以先知般的睿智和超越同侪的勇气,于上世纪末率先涉足网络出版,这其实是一场自我革命。可喜的是迄今已取得非常好的效果,在这场颠覆性的变革中继续稳坐钓鱼台。
现代图书馆是现代出版的受益者,同时也是整个出版生态中不可或缺的一环,肩负着为人找书、为书找人的永恒的职责。面对数字化变革的浪潮,图书馆行业虽能先知先觉、上下求索,为继续履行其天堂般的职责而奔走呼号,但却碍于其公益性质,势单力薄、步履艰难。在图书馆最需要与上游行业协力共进的时候,有很多出版社却设定了违背图书馆职业理念的所谓新模式,他们忘了,图书馆和出版社,既是利益分享、风险共担的伙伴,更是患难与共、唇齿相依的兄弟。
Spinger在这方面树立了一贯的楷模,它在获取商业利益、实现自身企业价值的同时,既帮助图书馆实现各项职能,又充分尊重图书馆倡导知识自由、信息无障碍以及人类知识的永久保存理念。它的电子书支持购买模式而不是只能租用,允许馆际互借,无复本限制,甚至无DRM,还提供完整的MARC记录供图书馆进行数据整合,它让图书馆真正感到得道多助、德者不孤。
今天Springer在这里发布又一款数字图书新产品,再一次把历史的厚重带到这浅阅读和碎片化阅读时代。我们怀着满腔的热情和极大的期待,祝愿Springer取得圆满成功!

OverDrive发布2012电子书借阅数据

上周美国最大的图书馆电子书服务供应商Overdrive发布了2012年电子书流通情况数据,主要数据如下:

  • 向2.2万家图书馆提供服务;
  • 总访问次数1.92亿,比2011年增长93%;
  • 27亿页次的目录访问,比上年增长65%;
  • 电子书比上年新增30万种,总量超100万(包括电子书、有声读物、声像资料等);
  • 移动访问数量增加47%;
  • 阅读客户端1600万次下载;
  • 年度总借阅数7000万册次。
详情请看原文。

关于未来数字出版生态的九个猜想

1、所有“书”都在云上,也就基本上完美地解决盗版问题。就像目前已经没有了游戏盗版一样。图书馆的“拥有”可以通过印制代表图书的等价“纸币”来体现,提供给财政部门销账。
2、机构和个人藏书可以下载,可以打印,可以制作礼品书,可以无缝跨越所有终端,满足包括赵老师等非常需要的“收藏”、“炫耀”在内的各类需求。
3、什么人看什么书,你看的书决定你和你的朋友圈子,决定了你喜欢听什么音乐、喝什么咖啡、买什么品牌的衣服,甚至交什么朋友…图书馆比你更懂你。
4、书不仅是用来看的,也是用来听的,甚至是用来玩的;不仅是用来消遣的、学习的,也是用来社交的。
5、写书的人可以通过各种方式获得报酬,除了传统的广告、按字收费之外,还可以以服务收费,如物物或劳务、交换、打赏、月票、折扣券等形式。
6、平台也将获益,特别是具有创新服务模式的平台。前提是电信平台提供商(中移动、电信、联通)退出增值服务市场,否则不可能。
7、独立出版大行其道(那时候已经不知道什么是“独立”出版了),版权公司如鱼得水,图书馆等中介机构可分杯羹。
8、“群众智慧”成为出版的“把门人”,而编辑则成为一门越来越独特的“艺术”,人人会弄几下,但专业的受雇于高端出版。
9、专业出版(STM)领域是OA(开放存取)的天下,同行评议的社会化、质量控制的自动化与评价体系的“先组后控”(根据所遵守规范的级别定义成果的级别)成为常态。

 

关联数据能给企业带来什么?

作为一个语义技术(现在是关联数据)的布道者,总是被问及“能够带来什么”和“为什么”的问题。一个简单的、有巨大价值的,甚至是革命性的技术,却不知什么原因让很多人觉得难以理解,实在是难以理解。

今天又回答了一位网友的提问,顺便把回答贴上来,也期望有更多的人看到。星星之火,点燃更多的人。

关联数据能够对一个企业或机构带来怎样的好处呢?其实现在的企业、组织机构与图书情报单位差不多,IT用得较早较多的,都已经有了很多系统了:业务管理系统、办公自动化系统、人事系统、财务系统、销售系统、客户管理系统、库存系统、物流系统……,很多单位有了这些系统却找不到数据,每次用到数据(例如人员数据)都要重新填表,效率和一致性都成问题。

如何使这些系统协同、特别是数据得到重用,是个很大的问题。以关联数据为代表的语义技术正是在数据整合乃至业务整合方面,能够发挥巨大作用,确保已有的大量产品(对象)数据或其它数据方便有效地跨系统得到使用。用一个时髦名词,就是“基于语义的系统(数据)集成”。

很多情况下企业都是通过XML消息或其它B2B标准实现跨系统信息通信,但是当一个企业内拥有几十个系统,管理着不同的业务过程,涉及上万个实体(产品、零件、藏品…)时,正确地描述每一个产品的复杂属性和取值,取得数据的一致性不是一件容易的事情。一棵再强大的XML DOM树也无法对付高度复杂的多维链接关系。答案只有一个:用图式数据(graph)。

关联数据的价值就在此时显现出来。它向数据消费方提供一个单一的、可信的、易用的实体对象数据源。关联数据自身就是开放的API,对最终用户的好处就是:发布在网站上的信息、数据表、选单、指南、合作伙伴的信息、链接信息等,能够保持高度的一致性,特别是能够解决更新时的一致性问题。

怎么做?

根据LD的发布原则,首先确立每一个独立存在的实体对象(例如产品、供应商),赋予他们唯一的HTTP URI作为标识。在系统后台可能要支持这些对象数据原有的管理系统,例如他们是通过XML RPC接口过来,还是CSV格式,还是RDBMS的,都要转成RDF是肯定的。

RDF的一个很好的特性是合并数据非常容易,能够从不同的来源很容易地进行合并,而此时如果采用大数据解决方案,例如采用图形NoSQL数据库,则更体现了灵活性。

为这类RDF图形数据库建立查询“端点(endpoint)”是很容易的,然后我们就可以通过SPARQL标准进行查询。

这里有个工具Dydra,它是一个数据库作为一种服务(Database as a Service)的云服务。可以作为小应用“试水”,边用边学。你只需要上载你的RDF数据即可。目前此类工具已经很多了,而且很强大,例如最新的Apache Jena和OpenRDF Sesame项目成果,或者“关联数据平台(LDP)”如Graphity。它们已经能够支持非常“傻瓜”地建立关联数据系统,支持很快地建立API,存取不同来源的数据,甚至能够支持非常复杂的提问。这种基于语义的整合具有过去系统所不具有的深度(智能)查询能力,如果发展得足够快,应该能应用于下一代“图书馆服务平台LSP”中。

当一个查询命中一个产品标识(以HTTP URI形式)时,这个URL是可“解引(deferencable)”的,意味着可以支持“内容协商机制(negotiation)”,按照不同的请求提供不同的数据,浏览器(人工请求)就提供HTML,机器请求就提供XML、JSON或Turtle格式的RDF数据。Graphity采用Jave和XSLT2.0,通用性很强。

如果该企业或组织机构的数据具有一定的通用性,它愿意作为一种“规范数据”发布到公网上,在一定的开放协议下提供公共服务(如果是商业服务可以收费),这些数据的模型(本体)和描述规范(元数据规范)还能构成领域标准,将使企业或组织机构的价值得到更大的提升。