存档二月 2020

未来已来!拥抱一个全新的开放平台时代

本文为《中国图书馆学报》2020年第一期“FOLIO专辑”主持人语

图书馆行业从来没有像今天这样接近自己的理想,也从来没有像今天这样面临巨大的挑战。

1931年阮冈纳赞提出图书馆学五定律,指出“书有其用”、“人有其书“、”书有其人”、“节省时间”,以及“图书馆是一个生长的有机体”。这充满理想主义的五条原则,是博尔赫斯“图书馆是天堂模样”的最好诠释,然而它其实一直是一个梦想,直到信息技术高度发展的今天,才有了实现的可能。

如果不是大数据和机器学习技术,我们不可能突破二八定律为长尾图书找到小众读者,不可能实现信息资源的精准推送,也不可能通过用户参与而优化采购,通过数据驱动型知识服务而实现图书馆向“数据馆”和“知识库”转型。所有这一切都有赖于一个全媒体、全流程、全网域系统平台的支持,有赖于突破传统系统只专注于图书馆自身业务,而忽略读者和用户的多样化需求和越来越高的体验要求。

当今一个理想的图书馆平台,绝不能只有采访编目流通等几个模块,而应该提供一个应用生态,任何图书馆的功能需求都有相应的app得到满足。其中甚至不局限于图书馆行业,而成为博物馆、美术馆、档案馆、文化馆等人类记忆机构通用或共享的服务。就像智能手机有应用商店一样,只要有需求,就能找到相应的app,通过建立一套技术标准规范,就能使大众的创造力得到充分发挥,并把公共文化机构的服务潜能充分挖掘出来。

这样的应用生态只有开放的平台才能够做到,而且是图书馆行业主导的开放平台,图书馆对自己的系统、业务和数据具有完全的掌控。这个平台让人人都可以开发app,这样图书馆所需要的所有功能,才有可能有足够多的商家提供服务;不同商家开发的app,才可能相互替换,并且随时挂接或插拔;图书馆的各类数据和模块,才能当然地互联互通。于是图书馆将不再依赖于个别的系统供应商,图书馆的数据安全也得到充分的保障:它只属于图书馆,或者读者自己。

这个平台现在已经诞生,它就是FOLIO,即“未来的图书馆是开放的(Future Of Library Is Open)!”

本期专辑汇集了四篇论文,是上海图书馆FOLIO应用团队对这套全新的图书馆开放平台进行初步研究的成果。上海图书馆23年前引进了当时最先进的C/S结构系统,现已经历了B/S和移动互联网两代的发展,直接进入基于微服务的开放平台架构。现已打算应用这套平台。

  • 周纲 和孙宇的《开创性的下一代图书馆服务平台解决方案》一文全面介绍了FOLIO的技术架构和生态环境,对其如何解决长期困扰图书馆运营的实践问题,如云模式、性价比、功能自主性、安全可控性、系统开放性和服务可靠性等进行了较为深入的探讨,重点分析了Folio技术架构和生态环境等方面的优势以及可能碰到的问题。
  • 郭利敏和张磊的《Folio专题_Folio的技术选型与运营模式研究》结合微服务技术介绍了FOLIO平台技术选型的原因,讨论了FOLIO的社区组织和商业模式之间的关系,对FOLIO在国内的落地提供了相关方案和思考。
  • 许磊和夏翠娟的《第三代图书馆服务平台的元数据管理》着重研究了FOLIO独具特色的底层数据管理架构Codex,认为Codex作为FOLIO中核心的元数据管理域,被设计成Folio的资源链接中心、规范数据中心和跨域的全媒体资源管理入口,能够通过模型中的抽象实体揭示资源间关系,其源自于BIBFRAME的抽象数据模型、最小化的元数据方案、统一的分层描述原则等考虑都远远领先于目前所有的图书馆管理系统,具有足够的灵活性支持第三代图书馆或类似机构各类实体对象的描述与组织。
  • 孙宇和周纲的《Folio专题_基于微服务架构的资源发现系统平台的构建研究》
  • 则重点研究了FOLIO中的资源发现模块,介绍了基于微服务架构的新一代资源发现系统的架构和组成,该系统架构融合了数据收割和联邦检索技术,加强了开源元数据的应用,可以真正实现馆藏所有资源的统一发现和获取,文章还展现了发现系统的本地化应用场景和服务模式。

随着今年年底FOLIO在瑞典Chalmers大学的成功部署,一个开放的、自生长的、由图书馆主导的应用生态将正式落地,真正的下一代系统正在到来!技术将成为图书馆服务创新最大的使能者和推进器。未来已来,让我们拥抱一个全新的开放平台时代!

作为数字人文基础设施的图书馆:从不可或缺到无可替代

本文为为《图书馆论坛》2020年数字人文栏目组稿的一期专辑主持人语。

根据CNKI的数据,国内迄今发表的近700篇以”数字人文“为主题的论文中,来自图书情报档案领域的文章大约超过60%。对比国外,Web of Science (Core Collection)收录了1590篇以“digital humanities”为topic的论文,Inforamtion Science Library Science领域的文章约为300篇,占比不到20%。这两组数据显示了国内外数字人文研究学科来源的巨大差异。

这说明了什么呢?虽然我们并不认为国外的比例就是数字人文知识版图的“完美”配方,但我们的比例一定是不合理的。人文学科的数字疆域,第一批居民主要来自图书情报领域,怎么说都不能让人服气。

这其中固然有国内图书情报学者更喜欢追新的原因,也是国内人文领域的学者尚未觉醒、尚未充分准备好的结果。就像当初旧金山发现了金矿,涌入的首批淘金者并没有赚到钱,而各类服务业却异军突起。图书馆行业作为历史文献的主要保留地,由于数字图书馆带来先知先觉,理所当然地成为数字人文最早的基础设施建设者。

传统的文献考据和现代的文献计量学都为数字人文作为一个整体的跨学科研究领域提供了方法论借鉴,书目控制带来的规范控制借助于语义技术,天然地为知识的形式化组织(采用本体技术)和知识服务提供了可信的编码基础,也为机器学习和人工智能的发展提供了宝贵的标注语料库。如果说不了解目录之学就无法窥知传统学术门径的话,不懂得以文献计量为代表的统计分析方法就无法真正从事数字人文研究。当然,当今数字人文的方法体系已经得到了极大拓展,统计分析的对象从文献深入到了语词文本、社会关系、时空关系乃至经过模型化之后的各类关系。但无论多么复杂,数据永远是基础,拥有大量数据的图书馆永远是人文研究的可靠伙伴。

图书馆要提供基于知识的服务还需要在数字图书馆的基础上不断提升水平,包括提升资源加工的语义化水平和提供分析统计及可视化工具。上海图书馆在国内属于对数字人文的先知先觉者之一,借助于20多年前开始的持续不断的数字化,大量的传统文献和特色文献已经搬运到了数字世界,一旦数字人文的研究方法和相关技术得以成熟,很自然地占据了有利的跑道。

本辑的四篇文章虽然反映不了上海图书馆在数字人文领域积极开拓的全貌,但包含了一些新的思考。图书馆这类人类记忆机构在数字人文的发展过程中,固然由于其资源收藏而不可或缺,但真正使其无可替代的,并不是这些馆藏资源,而是其服务能力。在当今以ABCD(人工智能、区块链、云计算和大数据)为特征的数字时代,“知识作为一种服务(KaaS)”才是图书馆的立身之本。本专辑反映了数字人文平台建设的两大趋势:边服务边建设的开放众包思想,和从数字图书馆到数据图书馆的必要升级。这两者是“后数字图书馆时代”我们在面向数据驱动型或数据密集型研究进行转型时必须首先实现和超越的。

  • 贺晨芝和张磊的《图书馆数字人文众包项目实践、分析与思考》重点介绍了数字人文领域的众包应用现状,以及上海图书馆自2016年以来的实践经验。上海图书馆开发了两个独立的众包应用,即抄录平台和验证码应用,都可以以SaaS方式开放给同行使用。
  • 刘倩倩和夏翠娟的《家谱知识服务平台众包模式的设计与实现》针对上海图书馆的家谱特藏,在原来提供基本查询和关联功能的数字人文平台基础上,开发了上传家谱、在线识谱、在线修谱等功能,尝试引入众包模式不断优化系统,并与用户社区积极互动密切合作,使用户不仅作为数据的消费者,同时也作为贡献者。
  • 朱武信和夏翠娟的《命名实体识别在数字人文中的应用—基于ETL的实现》介绍了一种借助于专门词典、批量自动进行名称实体识别的方法(即ETL方法),该方法在上海图书馆的数字人文平台建设中已普遍采用,取得了良好的效果。其原理是将文本中有意义的名称(例如人物、地点、时间、事件、专有概念等)利用程序进行自动析取,经过判断之后进行数据数据化转换(通常是加上URI),并提供丰富的语义关系。
  • 张喆昱和张磊的《记忆机构开放数据建设及数据化转型模式研究》触及了两个关键性主题:数据化和开放服务,试图将上海图书馆的实践进行一般化和通用化,分析了如何通过数据化更加贴近人文学者的需求,让系统更加人性化,然后通过开放服务引入外部资源,反过来促进系统的数据化。

上海图书馆希望通过自己的实践,为人文研究的赛百基础设施建设提供一个参考样本。发表这些做法,并不是说我们的做法有多先进,而只是一种不揣浅陋的抛砖引玉。我们深知,国内的数字人文目前还处于起步阶段,争论大于共识、口水多于实践,但只要大家参与,未来就前景可期。数字人文迄今为止形成的最大共识,就是大家都同意它是一个人人都受欢迎从而能各得其所的“大帐篷”。愿这个大帐篷使我们各门人文学科都得到繁荣兴旺!