publishing-and-using-cultural-heritage-linked-data-on-the-semantic-web

publishing-and-using-cultural-heritage-linked-data-on-the-semantic-web

http://www.worldcat.org/title/publishing-and-using-cultural-heritage-linked-data-on-the-semantic-web/oclc/816029332

《文化遗产关联数据的发布和应用》

上图索取号G237.6/H999

一、语义网上的文化遗产

  1. 文化遗产的特点:物质文化遗产(tangible CH)、非物质文化遗产和自然文化遗产
  2. 文化遗产的信息门户
  3. 文化遗产数据的挑战:多类型,多主题,多语言,多文化,多重目的
  4. 语义网的承诺:分层模型:真实世界;数据层;元数据层;带来的好处:互操作、数据聚合简单模型、数据整合、语义服务
  5. 本书结构:第二章从提供一个本领域的“业务模式”开讲,以一个CH门户原型系统作为情境,可作为标准模型;第三章讲需求,“分层蛋糕模型(元数据层、本体层和逻辑层);然后介绍技术基础、模型之后,第七章介绍与语义注释和收割内容相关的若干问题;第八章讨论基于语义关联数据的智能服务;第九章是结论。
  6. 书目与笔记

二、文化遗产合作发布的门户模式

  1. 本地相关联内容的全球访问
  2. 联邦检索
  3. 数据仓储
  4. 关联数据的合作发布:是一种常态
  5. 对最终用户的好处:1异构分布资源的统一视图;2内容的自动聚合;3语义搜索;4语义浏览与推荐;5其它智能服务。
  6. 对出版商的好处:1分布式内容生产;2自动链接维护;3共享内容发布;4协作丰富语义内容;5重用聚合资源
  7. 新挑战
  8. 语义门户系统的构成:1、内容架构(领域本体、规范数据、地时事件);2、内容生产系统(收割、清洗的模型与协议、更新维护机制等);3、语义门户系统(给人搜索浏览、可视化、给机器的api,sparql端点等)
  9. 书目与笔记

三、发布关联数据的需求

  1. 关联数据的五星模型(五星分别对应:数据结构;协议授权;格式;标识符系统;数据之间的链接)
  2. 发布结构化数据:RDF/XML,N-Triple,Turtle
  3. 开放协议
  4. 开放格式
  5. 标示符的需求:这个很重要。信息资源和非信息资源的URI,语言中立的URI(但并非不用语言),内容协商和重定向,
  6. 内部链接与外部链接
  7. 界面与API的需求
  8. 浏览关联数据
  9. SPARQL端点
  10. 下载设施
  11. 人机界面
  12. 书目与笔记

四、元数据模式

  1. 元数据类型
  2. Web模式
  3. 都柏林核心
  4. VAR核心类别
  5. 编目模式
  6. CDWA
  7. SPECTRUM
  8. 图书馆的元数据格式
  9. 档案领域的元数据格式
  10. 概念协调模式
  11. 语义互操作方法
  12. Europeana语义元素
  13. EUROPEANA数据模型
  14. CIDOC CRM
  15. FRBR
  16. FRAD
  17. FRSAD
  18. FRBRoo
  19. 收割模式:LIDO
  20. 收割与搜索协议
  21. 用Z39.50、SRU/SRW和OpenSearch检索
  22. 用OAI-PMH收割
  23. 关联数据的SPARQL端点
  24. 讨论:对象、事件与处理模型
  25. 书目与笔记

五、领域词表与本体

  1. 本体方法
  2. 哲学
  3. 词表和语言学
  4. 术语
  5. 图书馆与情报科学
  6. 计算机科学
  7. 语义万维网本体语言
  8. RDF模式
  9. SKOS
  10. OWL
  11. 本体类型
  12. 分类、叙词表和本体
  13. 以主要领域区分的本体类型
  14. 角色本体:主要用于规范控制
  15. 场所本体:!!!这里介绍得比较概要,可以看另一本书。
  16. 时间本体
  17. 线性时间
  18. 周期时间
  19. 事件本体:介绍了很多事件本体。
  20. 物质名录(nomenclatures)
  21. 书目与笔记

六、文化遗产的逻辑规则

  1. 逻辑能做什么
  2. RDF(S)和OWL的逻辑解释
  3. 推理规则
  4. Horn逻辑与描述逻辑
  5. 封闭世界假说
  6. 开放世界假说
  7. 唯一名称假设
  8. 文化遗产规则的用例
  9. 书目与笔记

七、文化内容的创造

  1. 词表与本体创建
  2. 概念层次与本体创建
  3. 将传统叙词表转换成本体
  4. 术语创建
  5. 本体实现(alignment)
  6. 本体评价
  7. 将本地内容转换成RDF
  8. 转换过程
  9. 将关系型数据库转换成RDF
  10. 内容聚合和整合
  11. 关联数据的质量
  12. 一次资源的数据质量
  13. 元数据质量
  14. 关联数据服务的质量
  15. 书目与讨论

八、面向人和机器的语义服务

  1. 传统情报检索
  2. 基于概念的语义检索
  3. 管理同义词
  4. 同形异义词与语义去模糊
  5. 提问与文档扩展
  6. 语义自完成
  7. 分面语义搜索与浏览
  8. 语义浏览与推荐
  9. 关系搜索
  10. 可视化与混搭
  11. 数据集云的可视化
  12. 本体可视化
  13. 元数据可视化
  14. 搜索结果可视化
  15. 个性化与情境敏感
  16. 跨门户内容的重用
  17. 书目与笔记

9、结语

一些关联数据工具链接

值得仔细考察的工具:
Information Workbench: http://www.fluidops.com/information-workbench/
从Spreadsheet(表格)文件转换数据的工具:Open Refine: http://openrefine.org/
从关系型数据库抓取数据:http://virtuoso.openlinksw.com/dataspace/doc/dav/wiki/Main/VirtR2RML 需要与Virtuoso一起用。(培训:https://www.youtube.com/watch?v=5Uo4UDm0ukw)
从文本中抽取语义结构:Gate:http://gate.ac.uk/wiki/gate-user-faq.html,Zemanta: http://www.w3.org/2001/sw/wiki/Zemanta (https://www.youtube.com/watch?v=4Ve93C238gI),DBPedia Spotlight: https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki (https://www.youtube.com/watch?v=dfBs5WPvChE
Exhibit 3.0 http://semanticweb.com/exhibit-3-0-part-1-an-open-source-software-platform-for-publishing-linked-data_b22962
Callimachus http://callimachusproject.org
词表库:
http://lov.okfn.org/dataset/lov/
W3C SWEO Linking Open Data community project: http://www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/CommonVocabularies
Library Linked Data Incubator Group: Vocabularies in the library domain: http://www.w3.org/2005/Incubator/lld/XGR-lld-usecase-20111025/

在Springer电子书与图书馆馆藏发展论坛上的致辞

在Springer电子书与图书馆馆藏发展论坛上的致辞
20130418
众所周知,现代图书发端于1450年前后的德国。数百年来,它带来了知识的平民化,推动了人类记忆的存续,点燃了文艺复兴的火种,促进了科技的创新和两次工业革命,奠定了现代社会形态的基础,使科技能不断站在巨人肩膀上发展,使人类社会以一种不断迭代方式积累知识、创造财富。今天,我们越来越多的人相信,这种传统的、以纸张作为介质的图书正在走向它生命的终点,图书所负载的灵魂正在以数字化虚无缥缈的形式无所不在,而当你需要时候能够瞬间出现在你的眼前。
我们很高兴地看到,同样来自德国的Springer出版公司在全球顶尖的科技出版领域引领着这场变革。凭借其1842年创立的近两百年基业,以先知般的睿智和超越同侪的勇气,于上世纪末率先涉足网络出版,这其实是一场自我革命。可喜的是迄今已取得非常好的效果,在这场颠覆性的变革中继续稳坐钓鱼台。
现代图书馆是现代出版的受益者,同时也是整个出版生态中不可或缺的一环,肩负着为人找书、为书找人的永恒的职责。面对数字化变革的浪潮,图书馆行业虽能先知先觉、上下求索,为继续履行其天堂般的职责而奔走呼号,但却碍于其公益性质,势单力薄、步履艰难。在图书馆最需要与上游行业协力共进的时候,有很多出版社却设定了违背图书馆职业理念的所谓新模式,他们忘了,图书馆和出版社,既是利益分享、风险共担的伙伴,更是患难与共、唇齿相依的兄弟。
Spinger在这方面树立了一贯的楷模,它在获取商业利益、实现自身企业价值的同时,既帮助图书馆实现各项职能,又充分尊重图书馆倡导知识自由、信息无障碍以及人类知识的永久保存理念。它的电子书支持购买模式而不是只能租用,允许馆际互借,无复本限制,甚至无DRM,还提供完整的MARC记录供图书馆进行数据整合,它让图书馆真正感到得道多助、德者不孤。
今天Springer在这里发布又一款数字图书新产品,再一次把历史的厚重带到这浅阅读和碎片化阅读时代。我们怀着满腔的热情和极大的期待,祝愿Springer取得圆满成功!

OverDrive发布2012电子书借阅数据

上周美国最大的图书馆电子书服务供应商Overdrive发布了2012年电子书流通情况数据,主要数据如下:

  • 向2.2万家图书馆提供服务;
  • 总访问次数1.92亿,比2011年增长93%;
  • 27亿页次的目录访问,比上年增长65%;
  • 电子书比上年新增30万种,总量超100万(包括电子书、有声读物、声像资料等);
  • 移动访问数量增加47%;
  • 阅读客户端1600万次下载;
  • 年度总借阅数7000万册次。
详情请看原文。

关于未来数字出版生态的九个猜想

1、所有“书”都在云上,也就基本上完美地解决盗版问题。就像目前已经没有了游戏盗版一样。图书馆的“拥有”可以通过印制代表图书的等价“纸币”来体现,提供给财政部门销账。
2、机构和个人藏书可以下载,可以打印,可以制作礼品书,可以无缝跨越所有终端,满足包括赵老师等非常需要的“收藏”、“炫耀”在内的各类需求。
3、什么人看什么书,你看的书决定你和你的朋友圈子,决定了你喜欢听什么音乐、喝什么咖啡、买什么品牌的衣服,甚至交什么朋友…图书馆比你更懂你。
4、书不仅是用来看的,也是用来听的,甚至是用来玩的;不仅是用来消遣的、学习的,也是用来社交的。
5、写书的人可以通过各种方式获得报酬,除了传统的广告、按字收费之外,还可以以服务收费,如物物或劳务、交换、打赏、月票、折扣券等形式。
6、平台也将获益,特别是具有创新服务模式的平台。前提是电信平台提供商(中移动、电信、联通)退出增值服务市场,否则不可能。
7、独立出版大行其道(那时候已经不知道什么是“独立”出版了),版权公司如鱼得水,图书馆等中介机构可分杯羹。
8、“群众智慧”成为出版的“把门人”,而编辑则成为一门越来越独特的“艺术”,人人会弄几下,但专业的受雇于高端出版。
9、专业出版(STM)领域是OA(开放存取)的天下,同行评议的社会化、质量控制的自动化与评价体系的“先组后控”(根据所遵守规范的级别定义成果的级别)成为常态。

 

关联数据能给企业带来什么?

作为一个语义技术(现在是关联数据)的布道者,总是被问及“能够带来什么”和“为什么”的问题。一个简单的、有巨大价值的,甚至是革命性的技术,却不知什么原因让很多人觉得难以理解,实在是难以理解。

今天又回答了一位网友的提问,顺便把回答贴上来,也期望有更多的人看到。星星之火,点燃更多的人。

关联数据能够对一个企业或机构带来怎样的好处呢?其实现在的企业、组织机构与图书情报单位差不多,IT用得较早较多的,都已经有了很多系统了:业务管理系统、办公自动化系统、人事系统、财务系统、销售系统、客户管理系统、库存系统、物流系统……,很多单位有了这些系统却找不到数据,每次用到数据(例如人员数据)都要重新填表,效率和一致性都成问题。

如何使这些系统协同、特别是数据得到重用,是个很大的问题。以关联数据为代表的语义技术正是在数据整合乃至业务整合方面,能够发挥巨大作用,确保已有的大量产品(对象)数据或其它数据方便有效地跨系统得到使用。用一个时髦名词,就是“基于语义的系统(数据)集成”。

很多情况下企业都是通过XML消息或其它B2B标准实现跨系统信息通信,但是当一个企业内拥有几十个系统,管理着不同的业务过程,涉及上万个实体(产品、零件、藏品…)时,正确地描述每一个产品的复杂属性和取值,取得数据的一致性不是一件容易的事情。一棵再强大的XML DOM树也无法对付高度复杂的多维链接关系。答案只有一个:用图式数据(graph)。

关联数据的价值就在此时显现出来。它向数据消费方提供一个单一的、可信的、易用的实体对象数据源。关联数据自身就是开放的API,对最终用户的好处就是:发布在网站上的信息、数据表、选单、指南、合作伙伴的信息、链接信息等,能够保持高度的一致性,特别是能够解决更新时的一致性问题。

怎么做?

根据LD的发布原则,首先确立每一个独立存在的实体对象(例如产品、供应商),赋予他们唯一的HTTP URI作为标识。在系统后台可能要支持这些对象数据原有的管理系统,例如他们是通过XML RPC接口过来,还是CSV格式,还是RDBMS的,都要转成RDF是肯定的。

RDF的一个很好的特性是合并数据非常容易,能够从不同的来源很容易地进行合并,而此时如果采用大数据解决方案,例如采用图形NoSQL数据库,则更体现了灵活性。

为这类RDF图形数据库建立查询“端点(endpoint)”是很容易的,然后我们就可以通过SPARQL标准进行查询。

这里有个工具Dydra,它是一个数据库作为一种服务(Database as a Service)的云服务。可以作为小应用“试水”,边用边学。你只需要上载你的RDF数据即可。目前此类工具已经很多了,而且很强大,例如最新的Apache Jena和OpenRDF Sesame项目成果,或者“关联数据平台(LDP)”如Graphity。它们已经能够支持非常“傻瓜”地建立关联数据系统,支持很快地建立API,存取不同来源的数据,甚至能够支持非常复杂的提问。这种基于语义的整合具有过去系统所不具有的深度(智能)查询能力,如果发展得足够快,应该能应用于下一代“图书馆服务平台LSP”中。

当一个查询命中一个产品标识(以HTTP URI形式)时,这个URL是可“解引(deferencable)”的,意味着可以支持“内容协商机制(negotiation)”,按照不同的请求提供不同的数据,浏览器(人工请求)就提供HTML,机器请求就提供XML、JSON或Turtle格式的RDF数据。Graphity采用Jave和XSLT2.0,通用性很强。

如果该企业或组织机构的数据具有一定的通用性,它愿意作为一种“规范数据”发布到公网上,在一定的开放协议下提供公共服务(如果是商业服务可以收费),这些数据的模型(本体)和描述规范(元数据规范)还能构成领域标准,将使企业或组织机构的价值得到更大的提升。

本市公共图书馆服务体系的定位与问题

公共图书馆服务体系是一个城市公共文化服务体系的重要组成部分。从我们的角度来看,有两个定位,

第一个定位:它是公共文化服务的最重要和最稳定的基础设施。它具有专业性和职业性。它的基础性反映在人口覆盖率、地理覆盖上和服务性质上。在国外称得上国际化大都市的中心城市,公共图书馆服务的人口覆盖率大约在60%-80%,地理覆盖有一个概念,叫15分钟生活圈。服务性质是普遍均等的保障性基本服务,一年365天,面向360行,同时它既是一个场所,又可以提供基于网络的不打烊的服务。体现了一种政府向人民群众提供的文化保障。

第二个定位:它是“开展全民阅读活动”的主力军。十八大报告第一次把“开展全民阅读活动”写入了党的工作报告中。图书馆生来就是提供阅读服务的,它的四大职能(保存、教育、信息、休闲)也主要是通过阅读来实现。它的阅读,包括老百姓的大众化阅读,以及为决策者和研究人员提供的专业性阅读服务。它通过阅读,也为社会的和谐稳定做出了贡献。很多人在其中寻找精神寄托,包括失业的,以及特殊人群。

据调查,目前国民阅读率大约是每年4.5本,而本市图书馆的持卡读者每年大约借阅图书近30本,凸显了图书馆的作用。

公共图书馆目前存在三方面的问题:

1、服务能级问题

上海市中心图书馆260多家分馆联网,全市有图书馆员2000多名,年流通量3700万册次,服务能力接近极限。但距离全市人民的要求还有距离。目前的办卡率8%,近200万读者,虽然全国第一,但还有提升空间。现在我们致力于数字阅读,希望实现转型发展。对上图而言最大的瓶颈在上图目前设施的老化和IT系统的陈旧,造成业务指标难有突破,阅读率难以提升。

2、可持续性问题

从长远看,体制制约和人才制约是两个绕不过去的坎。体制:目前仅仅从业务上的共建共享是不可持续的,行政体制上的总分馆制是行业的发展趋势,应可以逐步试点。

3、多元化服务问题。

作为研究型图书馆,必须提出更高的目标和要求,满足全市社会、经济、文化各方面各层次的情报需求,目前还只是满足共性的和大众化阅读的需求,研究型图书馆的功能还需要拓展。