数字图书馆的前世今生

数字图书馆前世今生

 

 

数字图书馆是上世纪90年代初作为与“信息高速公路”配套的基础设施而提出的概念。基于“有路必有车”的认识,美国分别于1992年和1994年分两期投入上亿美元设立“数字图书馆先导计划(Digital Library Initiative)”,孵化了一大批项目,如谷歌搜索引擎算法、谷歌数字图书计划、都柏林核心元数据、互联网档案项目和美国公共数字图书馆(DPLA)等等,都直接源自于其项目成果,或有着千丝万缕的因果联系。

我国的数字图书馆建设起始于1996年,一个标志性事件是国家图书馆联合上海等六家公共图书馆共同发起了“中国国家试验型数字图书馆”项目,第二年该项目得到了国家计委的正式批准,成为国家级信息基础设施建设项目。该项目的研发带动了我国一大批相关标准规范的确立,澄清了许多关键性概念,促进了学界和业界对一个新兴领域的关注,也促使整个图书馆行业迈出向数字图书馆转型、建设“复合型图书馆”的第一步。

二十多年来信息技术飞速发展,经历了从传统互联网、Web2.0到移动互联网的三代变迁,目前正进入以物联网、云计算、大数据与人工智能为特征的智慧互联时代,人们早年寄希望于数字图书馆技术来解决海量、异构、非结构化、多媒体信息的管理、组织、传播和利用问题,随着大数据技术的进步早已不成问题,而数字图书馆本身也从一个以技术研发为特征的应用领域,发展为以数字知识的保存、提供、交流和服务为特征的数字文化设施。伴随着上游知识产业生态的剧烈变化,以及下游读者用户信息需求和行为方式的巨大变化,作为一种知识中介的图书馆也应需而变,呈现出三个发展趋势:

1、从数字化到数据化

早期的数字图书馆项目主要是利用扫描技术将传统的纸本资源数字化,通过对资源内容和其他特征进行描述,建立关系型数据库提供检索,这种数字图书馆相当于传统“物理”图书馆的翻版。随着全文搜索和OCR技术的进步,越来越多的扫描图像可以经过文本化处理而提供全文检索,加上目前越来越多的原生数字内容和多媒体资源的引入,目前的数字图书馆呈现出非常纷繁复杂和丰富多彩的形态。

如果不能解决基于知识的服务问题,就谈不上是好的数字图书馆。当前的数据技术特别是关联数据等语义技术已经提供了初步的解决方案,能够使数字图书馆的基本结构单元,从图像、文本、多媒体文件等机器无法理解的内容,转变为人、地、时、事、物等“数据”信息,即“数据化”,让计算机的管理对象突破文献的限制,而直接管理内容语义,从而使数字图书馆成为真实世界和领域知识的映射。这类基于数据的数字图书馆正在成为数据驱动型科学研究的基础设施,在数字人文、e-Science 以及数字出版等领域发挥着越来越重要的作用。

2、从标准化到个性化

图书馆行业的标准化肇始于上世纪六十年代 MARC 书目数据记录格式,这可能是唯一沿用至今的磁带记录格式,几乎所有图书馆都基于这一格式设计业务流程和服务模式,尽管各类 MARC 略有不同,但没有哪一个行业像图书馆这样重视并应用最前沿的技术标准。

然而越早采用信息技术也就意味着今天包袱越重。标准化是工业时代的理念,它能够带来合作和效率,但信息时代强调的是差异化带来的个性化体验。当前不同类型图书馆由于用户对象的不同和资源类型的不同而呈现完全不同的发展方向,老的业务规范已不再能涵盖所有图书馆,新扩展的子系统完全无法覆盖所有类型的图书馆,标准化已不再可能,新的差异化的业务模式正在建立,图书馆与图书馆将呈现越来越不相同的形态和模式。

目前看来,公共图书馆将继续承担起文化保存、信息交流和普遍均等无差别知识服务的职能,开展阅读普及、消除信息鸿沟、提供信息素养培育是其不可推卸的责任;高校图书馆则必须顺应数据驱动型科研和教学的转变,承担起科研数据生命周期完整过程的管理和提供,同时提供各类共享空间服务;研究型图书馆则完全依靠学科馆员和数据馆员,转型为提供智慧型数据服务为主的无纸图书馆和虚拟图书馆。

整个知识产业上下游融合的趋势日渐明显,内容产业大洗牌,互联网公司全面介入知识生产流通在所难免。在这个新的产业生态中,图书馆由于拥有大量的读者,以熟悉读者的需求、掌握用户行为大数据作为利基,介入开放存取运动,甚至参与学术出版也不是没有可能。

3、从信息化到智慧化

智慧型社会是未来社会的重要特征,也是当前各行各业激烈角逐的主要战场。得益于过去数十年来全社会对于信息化的巨大投入,产生的海量数据为目前人工智能的进步提供了丰富的食粮。图书馆从来是与数据打交道的,从服务的内容和对象来看,图书馆的服务也应该精准化和智能化,智慧图书馆也无疑是数字图书馆的发展方向。

图书馆行业很早就提出智慧图书馆的概念,目前也是数字图书馆研究的一个热点。就采用的技术来看,如下表所示,智慧图书馆的发展可以分为四个阶段,第一代智慧图书馆只是采用了无线射频(RFID)技术的无人图书馆,其实并无任何人工智能的采用。第二代是当前研发的重点,通过采用多种传感器实现各类数据的采集,从而能够提供基于位置的精准服务(或称为SoLoMo,即社会化的基于位置的移动服务)。目前的各类机器学习技术已经为第三代智慧图书馆提供了可能,将对于信息内容的加工处理和提供服务两方面全面实现智慧化。第四代“超智慧”有赖于超级人工智能的突破和应用,目前还是科学幻想,但引起的讨论颇能给人启发。

表:四种智慧图书馆

类型

说明

特征

举例

伪智慧

通过应用RFID等智能标签技术,感知与反馈结合,一定的行为引发一定的结果,“好像”有了一定的智慧。已经实现。

单向度(仅感知图书等实体)、单循环

无人图书馆

智慧图书馆

弱智慧

各类传感器(如iBeacon、WIFI、人脸识别)应用模型和算法综合应用,可进行推送等个性化服务,实现了按程序设计好的“智慧”。正在实现。

多条件,复杂,类似于专家系统,双向,预先设定

小i参考咨询机器人

SoLoMo

强智慧

人工智能和机器学习的普遍应用,动态实时地应对复杂情况,无须预先设定,智能响应。有可能实现。

交互性、随机性;

智能化、人性化

*第三代图书馆*

超智慧

图书馆能够像人一样思考,具有人类知识的总和,总能在你需要的时间和地点,提供需要的知识服务。

应用强人工智能,图书馆工作的许多岗位被机器取代

化于无形,无所不在,随处服务

综上所述,数字图书馆概念由于受到技术进步的强烈影响,一直在发展变化,然而万变不离其宗的是人们赋予它的永恒职能,即保存文化、开展教育、传递信息和终身学习。即便到了数字时代,变化的只有方式和手段,图书馆永远都是天堂一般的模样。

 

Robin Williams的人生感悟10则

一个天才的演员能够将角色塑造成自己,他演过几个角色,就活过几个人生。罗宾的每一个人生都给我们留下了深刻的印象,不论是智者、谐星、保姆、总统、诗人还是启蒙者。我们都是你的追随者!

罗宾是幸运的,虽然只活了63个春秋,但他比这个世界上的所有人都长寿!
  • No matter what people tell you, words and ideas can change the world. 无论别人怎么说你,你要相信,言语和思想是能够改变世界的。
  • You are only given a little spark of madness. You mustn’t lose it. 你只有一星点疯狂,你要珍惜它!
  • What’s right is what’s left if you do everything else wrong. 如果你弄砸了所有的事情,你要记住,剩下的都是正确的!
  • Spring is nature’s way of saying, Let’s party! 这是发春的季节!让我们欢唱吧!
  • I used to think the worst thing in life was to end up all alone, it’s not. The worst thing in life is to end up with people that make you feel alone. 我曾经以为孤独是人生中最可耻的事情,不是的!最可耻的是,正是你周遭的人事让你陷入真正的孤独。
  • Comedy is acting out optimism. 喜剧,就是表演出乐观
  • She is not perfect. You are not perfect. The question is whether or not you are perfect for each other. 她不完美,你不完美,问题是你们在一起能不能完美。
  • You will have bad times, but they will always wake you up to the stuff you weren’t paying attention to. 人总是会有走背运的时候,这倒没啥,可气的是他们总会不断地揭你的伤疤,让你回味!
  • Nobody takes a picture of something they want to forget. 无奈最是伤心处,有情宁不忆西园!
  • I believe in destiny. There must be a reason that I am as I am. There must be. 我相信命运,所以我相信我之所以成为现在这样一定是有原因的,一定的。。。
(以上本人翻译,文责自负)

近期图书馆技术趋势

  1. 移动化:关注并尽可能提供移动服务
  2. 电子书借阅:尽早开展数字阅读,并统一服务政策,数字资源服务纳入绩效考核
  3. 数字馆藏建设:地方或特色数字资源建设
  4. 统一的资源发现:取代OPAC,把电子书及其它数字内容纳入到馆藏揭示体系中
  5. 逐步放弃传统的集成管理系统:采用基于云服务的管理系统
  6. 追身服务:学科馆员,随时随地
  7. 作为空间的图书馆:讲座会议展览沙龙培训diy创客创新活动空间
  8. 图书馆建筑布局:再一次藏用分离的趋势
又要讲趋势了。总结了上述八项,欢迎板砖。

Linked Data: Structured Data on the Web

 

《关联数据:万维网上的结构化数据》

《Linked Data: Structured Data on the Web》by David Wood, Marsha Zaidman and Luke Ruth with Michael Hausenblas (本书是蒂姆李伯纳爵士亲自作序)

目录

一、关联数据万维网
1、关联数据引言
1.1、关联数据定义
1.2、关联数据不能做什么
1.3、关联数据在行动(谷歌脸书BBC)
1.4、关联数据原则
1.5、关联开放数据计划
1.6、描述数据
1.7、RDF:关联数据的数据模型
1.8、关联数据应用剖析
1.9、小结
2、RDF:关联数据的数据模型
2.1、关联数据原则扩展RDF
2.2、RDF数据模型(三元组、空节点、类、类文字)
2.3、RDF词表(通用词表、自用词表)
2.4、关联数据的RDF格式(给人读的Turtle,企业常用的RDF/XML,嵌入网页的RDFa,JS开发者常用的JSON-LD)
2.5、于Web服务器和关联数据发布有关的问题
2.6、文件类型和Web服务器(如何配置Apache)
2.7、对Apache的控制权限有限怎么办
2.8、关联数据平台(LDP)
2.9、小结
3、消费关联数据
3.1 像Web一样思考
3.2 如何消费关联数据
3.3 发现分布式关联数据的工具(Sindice,SameAs.org,Data Hub)
3.4 聚合关联数据(从已知的数据集,采用插件从网页获得关联数据)
3.5 爬虫关联数据网络并聚合数据(用Python,从聚合RDF中输出HTML)
3.6 小结

二、降服关联数据
4、利用FOAF创建关联数据
4.1 建立一个个人FOAF文档(FOAF词表介绍,方法1:手工创建,加强版FOAF,方法2:自动生成FOAF文档)
4.2 增加更多的内容到FOAF文档中
4.3 发布你的FOAF文档
4.4 FOAF文档的可视化
4.5 应用:用自己的词表联接RDF文件(建立词表清单,建立、发布和联接清单文档,向清单文档中添加内容,解释一个书签工具)
4.6 小结

5、SPARQL——查询关联数据万维网
5.1 概述一个典型的SPARQL查询
5.2 用SPARQL查询一个扁平的RDF文档(查询单个RDF数据文件,查询多个RDF文件,查询Web上的RDF文件)
5.3 查询SPARQL端点
5.4 SPARQL查询的类型(SELECT,ASK,DESCRIBE,CONSTRUCT,SPARQL1.1的新功能)
5.5 SPARQL结果格式(XML,JSON)
5.6 建立SPARQL查询的网页(建立SPARQL查询,建立HTML页面,建立JS表,建立JS地图)
5.7 小结

三、关联数据高级知识
6、对搜索引擎查询结果的增强
6.1 在HTML网页中嵌入RDFa数据(采用FOAF词表进行RDFa编码,在HTML span属性中用RDFa,从含有FOAF的HTML文档中抽取关联数据)
6.2 用GoodRelations词表嵌入RDFa(GoodRelations词表概述,在HTML中用包含GR的RDFa,RDFa GR实战,从含有GR的HTML文档中抽取关联数据)
6.3 在RDFa中使用schema.org词表(schema.org概述,HTML中嵌入使用了schema.org的RDFa,在RDFa中使用schema.org实战,从包含schema.org的HTML文档中抽取关联数据)
6.4 如何选择是采用schema.org还是采用GoodRelations?
6.5 从HTML中抽取RDFa并使用SPARQL
6.6小结

7、RDF数据库基础
7.1 RDF数据库分类(选择RDF数据库系统,RDF数据库与RDBMS比较,RDF数据库系统的优势)
7.2 将表单数据转换成RDF(一个简单的MS Excel转换成RDF的例子,转换MS Excel成关联数据,发现RDF转换工具)
7.3 应用:在RDF数据库中收集关联数据(计划处理流程,用Python聚合数据资源,理解输出)
7.4 小结

8、数据集
8.1 项目描述(建立一个DOAP大纲,使用DOAP词表)
8.2 用VoID编写数据集说明文档(互联的数据集词表,准备VoID文件)
8.3 网站地图(不含语义的网站地图,含语义的网站地图,让你的网站能够被发现)
8.4 链向他人的数据
8.5 使用owl:sameAs链接数据集的例子
8.6 加入Data Hub
8.7 从DBpedia向你的数据集请求外部链接
8.8 小结

四、综合
9、卡利马科斯:关联数据管理系统
9.1 开始利用卡利马科斯
9.2 用RDF类建立网页(向卡利马科斯中添加数据,告诉卡利马科斯你的OWL类,利用凯利马科斯视图模板关联你的类)
9.3 建立和编辑类实例(建立新的标注note,为标注建立试图模板,为标注建立一个模板编辑)
9.4 应用:为多来源的数据建立网页(从NOAA和EPA建立并查询关联数据,建立包含应用的网页,建立JS语句以检索和显示关联数据,上述功能的综合实现)
9.5 小结

10、发布关联数据:概要
10.1 准备数据
10.2 铸造URI
10.3 选择词表
10.4 词表客户化
10.5 链接自己的数据与其它数据集
10.6 发布你的数据
10.7 小结

11、进化中的万维网
11.1 关联数据与语义网的关系(示范性成功)
11.2 还有什么?(谷歌extended rich snippets,数字可信于透明立法,对广告的影响,强化搜索,大玩家的参与)
10.3 结论

附录A 开发环境
附录B SPARQL结果格式
词汇表
索引

publishing-and-using-cultural-heritage-linked-data-on-the-semantic-web

http://www.worldcat.org/title/publishing-and-using-cultural-heritage-linked-data-on-the-semantic-web/oclc/816029332

《文化遗产关联数据的发布和应用》

上图索取号G237.6/H999

一、语义网上的文化遗产

  1. 文化遗产的特点:物质文化遗产(tangible CH)、非物质文化遗产和自然文化遗产
  2. 文化遗产的信息门户
  3. 文化遗产数据的挑战:多类型,多主题,多语言,多文化,多重目的
  4. 语义网的承诺:分层模型:真实世界;数据层;元数据层;带来的好处:互操作、数据聚合简单模型、数据整合、语义服务
  5. 本书结构:第二章从提供一个本领域的“业务模式”开讲,以一个CH门户原型系统作为情境,可作为标准模型;第三章讲需求,“分层蛋糕模型(元数据层、本体层和逻辑层);然后介绍技术基础、模型之后,第七章介绍与语义注释和收割内容相关的若干问题;第八章讨论基于语义关联数据的智能服务;第九章是结论。
  6. 书目与笔记

二、文化遗产合作发布的门户模式

  1. 本地相关联内容的全球访问
  2. 联邦检索
  3. 数据仓储
  4. 关联数据的合作发布:是一种常态
  5. 对最终用户的好处:1异构分布资源的统一视图;2内容的自动聚合;3语义搜索;4语义浏览与推荐;5其它智能服务。
  6. 对出版商的好处:1分布式内容生产;2自动链接维护;3共享内容发布;4协作丰富语义内容;5重用聚合资源
  7. 新挑战
  8. 语义门户系统的构成:1、内容架构(领域本体、规范数据、地时事件);2、内容生产系统(收割、清洗的模型与协议、更新维护机制等);3、语义门户系统(给人搜索浏览、可视化、给机器的api,sparql端点等)
  9. 书目与笔记

三、发布关联数据的需求

  1. 关联数据的五星模型(五星分别对应:数据结构;协议授权;格式;标识符系统;数据之间的链接)
  2. 发布结构化数据:RDF/XML,N-Triple,Turtle
  3. 开放协议
  4. 开放格式
  5. 标示符的需求:这个很重要。信息资源和非信息资源的URI,语言中立的URI(但并非不用语言),内容协商和重定向,
  6. 内部链接与外部链接
  7. 界面与API的需求
  8. 浏览关联数据
  9. SPARQL端点
  10. 下载设施
  11. 人机界面
  12. 书目与笔记

四、元数据模式

  1. 元数据类型
  2. Web模式
  3. 都柏林核心
  4. VAR核心类别
  5. 编目模式
  6. CDWA
  7. SPECTRUM
  8. 图书馆的元数据格式
  9. 档案领域的元数据格式
  10. 概念协调模式
  11. 语义互操作方法
  12. Europeana语义元素
  13. EUROPEANA数据模型
  14. CIDOC CRM
  15. FRBR
  16. FRAD
  17. FRSAD
  18. FRBRoo
  19. 收割模式:LIDO
  20. 收割与搜索协议
  21. 用Z39.50、SRU/SRW和OpenSearch检索
  22. 用OAI-PMH收割
  23. 关联数据的SPARQL端点
  24. 讨论:对象、事件与处理模型
  25. 书目与笔记

五、领域词表与本体

  1. 本体方法
  2. 哲学
  3. 词表和语言学
  4. 术语
  5. 图书馆与情报科学
  6. 计算机科学
  7. 语义万维网本体语言
  8. RDF模式
  9. SKOS
  10. OWL
  11. 本体类型
  12. 分类、叙词表和本体
  13. 以主要领域区分的本体类型
  14. 角色本体:主要用于规范控制
  15. 场所本体:!!!这里介绍得比较概要,可以看另一本书。
  16. 时间本体
  17. 线性时间
  18. 周期时间
  19. 事件本体:介绍了很多事件本体。
  20. 物质名录(nomenclatures)
  21. 书目与笔记

六、文化遗产的逻辑规则

  1. 逻辑能做什么
  2. RDF(S)和OWL的逻辑解释
  3. 推理规则
  4. Horn逻辑与描述逻辑
  5. 封闭世界假说
  6. 开放世界假说
  7. 唯一名称假设
  8. 文化遗产规则的用例
  9. 书目与笔记

七、文化内容的创造

  1. 词表与本体创建
  2. 概念层次与本体创建
  3. 将传统叙词表转换成本体
  4. 术语创建
  5. 本体实现(alignment)
  6. 本体评价
  7. 将本地内容转换成RDF
  8. 转换过程
  9. 将关系型数据库转换成RDF
  10. 内容聚合和整合
  11. 关联数据的质量
  12. 一次资源的数据质量
  13. 元数据质量
  14. 关联数据服务的质量
  15. 书目与讨论

八、面向人和机器的语义服务

  1. 传统情报检索
  2. 基于概念的语义检索
  3. 管理同义词
  4. 同形异义词与语义去模糊
  5. 提问与文档扩展
  6. 语义自完成
  7. 分面语义搜索与浏览
  8. 语义浏览与推荐
  9. 关系搜索
  10. 可视化与混搭
  11. 数据集云的可视化
  12. 本体可视化
  13. 元数据可视化
  14. 搜索结果可视化
  15. 个性化与情境敏感
  16. 跨门户内容的重用
  17. 书目与笔记

9、结语