未来已来!拥抱一个全新的开放平台时代

本文为《中国图书馆学报》2020年第一期“FOLIO专辑”主持人语

图书馆行业从来没有像今天这样接近自己的理想,也从来没有像今天这样面临巨大的挑战。

1931年阮冈纳赞提出图书馆学五定律,指出“书有其用”、“人有其书“、”书有其人”、“节省时间”,以及“图书馆是一个生长的有机体”。这充满理想主义的五条原则,是博尔赫斯“图书馆是天堂模样”的最好诠释,然而它其实一直是一个梦想,直到信息技术高度发展的今天,才有了实现的可能。

如果不是大数据和机器学习技术,我们不可能突破二八定律为长尾图书找到小众读者,不可能实现信息资源的精准推送,也不可能通过用户参与而优化采购,通过数据驱动型知识服务而实现图书馆向“数据馆”和“知识库”转型。所有这一切都有赖于一个全媒体、全流程、全网域系统平台的支持,有赖于突破传统系统只专注于图书馆自身业务,而忽略读者和用户的多样化需求和越来越高的体验要求。

当今一个理想的图书馆平台,绝不能只有采访编目流通等几个模块,而应该提供一个应用生态,任何图书馆的功能需求都有相应的app得到满足。其中甚至不局限于图书馆行业,而成为博物馆、美术馆、档案馆、文化馆等人类记忆机构通用或共享的服务。就像智能手机有应用商店一样,只要有需求,就能找到相应的app,通过建立一套技术标准规范,就能使大众的创造力得到充分发挥,并把公共文化机构的服务潜能充分挖掘出来。

这样的应用生态只有开放的平台才能够做到,而且是图书馆行业主导的开放平台,图书馆对自己的系统、业务和数据具有完全的掌控。这个平台让人人都可以开发app,这样图书馆所需要的所有功能,才有可能有足够多的商家提供服务;不同商家开发的app,才可能相互替换,并且随时挂接或插拔;图书馆的各类数据和模块,才能当然地互联互通。于是图书馆将不再依赖于个别的系统供应商,图书馆的数据安全也得到充分的保障:它只属于图书馆,或者读者自己。

这个平台现在已经诞生,它就是FOLIO,即“未来的图书馆是开放的(Future Of Library Is Open)!”

本期专辑汇集了四篇论文,是上海图书馆FOLIO应用团队对这套全新的图书馆开放平台进行初步研究的成果。上海图书馆23年前引进了当时最先进的C/S结构系统,现已经历了B/S和移动互联网两代的发展,直接进入基于微服务的开放平台架构。现已打算应用这套平台。

  • 周纲 和孙宇的《开创性的下一代图书馆服务平台解决方案》一文全面介绍了FOLIO的技术架构和生态环境,对其如何解决长期困扰图书馆运营的实践问题,如云模式、性价比、功能自主性、安全可控性、系统开放性和服务可靠性等进行了较为深入的探讨,重点分析了Folio技术架构和生态环境等方面的优势以及可能碰到的问题。
  • 郭利敏和张磊的《Folio专题_Folio的技术选型与运营模式研究》结合微服务技术介绍了FOLIO平台技术选型的原因,讨论了FOLIO的社区组织和商业模式之间的关系,对FOLIO在国内的落地提供了相关方案和思考。
  • 许磊和夏翠娟的《第三代图书馆服务平台的元数据管理》着重研究了FOLIO独具特色的底层数据管理架构Codex,认为Codex作为FOLIO中核心的元数据管理域,被设计成Folio的资源链接中心、规范数据中心和跨域的全媒体资源管理入口,能够通过模型中的抽象实体揭示资源间关系,其源自于BIBFRAME的抽象数据模型、最小化的元数据方案、统一的分层描述原则等考虑都远远领先于目前所有的图书馆管理系统,具有足够的灵活性支持第三代图书馆或类似机构各类实体对象的描述与组织。
  • 孙宇和周纲的《Folio专题_基于微服务架构的资源发现系统平台的构建研究》
  • 则重点研究了FOLIO中的资源发现模块,介绍了基于微服务架构的新一代资源发现系统的架构和组成,该系统架构融合了数据收割和联邦检索技术,加强了开源元数据的应用,可以真正实现馆藏所有资源的统一发现和获取,文章还展现了发现系统的本地化应用场景和服务模式。

随着今年年底FOLIO在瑞典Chalmers大学的成功部署,一个开放的、自生长的、由图书馆主导的应用生态将正式落地,真正的下一代系统正在到来!技术将成为图书馆服务创新最大的使能者和推进器。未来已来,让我们拥抱一个全新的开放平台时代!

作为数字人文基础设施的图书馆:从不可或缺到无可替代

本文为为《图书馆论坛》2020年数字人文栏目组稿的一期专辑主持人语。

根据CNKI的数据,国内迄今发表的近700篇以”数字人文“为主题的论文中,来自图书情报档案领域的文章大约超过60%。对比国外,Web of Science (Core Collection)收录了1590篇以“digital humanities”为topic的论文,Inforamtion Science Library Science领域的文章约为300篇,占比不到20%。这两组数据显示了国内外数字人文研究学科来源的巨大差异。

这说明了什么呢?虽然我们并不认为国外的比例就是数字人文知识版图的“完美”配方,但我们的比例一定是不合理的。人文学科的数字疆域,第一批居民主要来自图书情报领域,怎么说都不能让人服气。

这其中固然有国内图书情报学者更喜欢追新的原因,也是国内人文领域的学者尚未觉醒、尚未充分准备好的结果。就像当初旧金山发现了金矿,涌入的首批淘金者并没有赚到钱,而各类服务业却异军突起。图书馆行业作为历史文献的主要保留地,由于数字图书馆带来先知先觉,理所当然地成为数字人文最早的基础设施建设者。

传统的文献考据和现代的文献计量学都为数字人文作为一个整体的跨学科研究领域提供了方法论借鉴,书目控制带来的规范控制借助于语义技术,天然地为知识的形式化组织(采用本体技术)和知识服务提供了可信的编码基础,也为机器学习和人工智能的发展提供了宝贵的标注语料库。如果说不了解目录之学就无法窥知传统学术门径的话,不懂得以文献计量为代表的统计分析方法就无法真正从事数字人文研究。当然,当今数字人文的方法体系已经得到了极大拓展,统计分析的对象从文献深入到了语词文本、社会关系、时空关系乃至经过模型化之后的各类关系。但无论多么复杂,数据永远是基础,拥有大量数据的图书馆永远是人文研究的可靠伙伴。

图书馆要提供基于知识的服务还需要在数字图书馆的基础上不断提升水平,包括提升资源加工的语义化水平和提供分析统计及可视化工具。上海图书馆在国内属于对数字人文的先知先觉者之一,借助于20多年前开始的持续不断的数字化,大量的传统文献和特色文献已经搬运到了数字世界,一旦数字人文的研究方法和相关技术得以成熟,很自然地占据了有利的跑道。

本辑的四篇文章虽然反映不了上海图书馆在数字人文领域积极开拓的全貌,但包含了一些新的思考。图书馆这类人类记忆机构在数字人文的发展过程中,固然由于其资源收藏而不可或缺,但真正使其无可替代的,并不是这些馆藏资源,而是其服务能力。在当今以ABCD(人工智能、区块链、云计算和大数据)为特征的数字时代,“知识作为一种服务(KaaS)”才是图书馆的立身之本。本专辑反映了数字人文平台建设的两大趋势:边服务边建设的开放众包思想,和从数字图书馆到数据图书馆的必要升级。这两者是“后数字图书馆时代”我们在面向数据驱动型或数据密集型研究进行转型时必须首先实现和超越的。

  • 贺晨芝和张磊的《图书馆数字人文众包项目实践、分析与思考》重点介绍了数字人文领域的众包应用现状,以及上海图书馆自2016年以来的实践经验。上海图书馆开发了两个独立的众包应用,即抄录平台和验证码应用,都可以以SaaS方式开放给同行使用。
  • 刘倩倩和夏翠娟的《家谱知识服务平台众包模式的设计与实现》针对上海图书馆的家谱特藏,在原来提供基本查询和关联功能的数字人文平台基础上,开发了上传家谱、在线识谱、在线修谱等功能,尝试引入众包模式不断优化系统,并与用户社区积极互动密切合作,使用户不仅作为数据的消费者,同时也作为贡献者。
  • 朱武信和夏翠娟的《命名实体识别在数字人文中的应用—基于ETL的实现》介绍了一种借助于专门词典、批量自动进行名称实体识别的方法(即ETL方法),该方法在上海图书馆的数字人文平台建设中已普遍采用,取得了良好的效果。其原理是将文本中有意义的名称(例如人物、地点、时间、事件、专有概念等)利用程序进行自动析取,经过判断之后进行数据数据化转换(通常是加上URI),并提供丰富的语义关系。
  • 张喆昱和张磊的《记忆机构开放数据建设及数据化转型模式研究》触及了两个关键性主题:数据化和开放服务,试图将上海图书馆的实践进行一般化和通用化,分析了如何通过数据化更加贴近人文学者的需求,让系统更加人性化,然后通过开放服务引入外部资源,反过来促进系统的数据化。

上海图书馆希望通过自己的实践,为人文研究的赛百基础设施建设提供一个参考样本。发表这些做法,并不是说我们的做法有多先进,而只是一种不揣浅陋的抛砖引玉。我们深知,国内的数字人文目前还处于起步阶段,争论大于共识、口水多于实践,但只要大家参与,未来就前景可期。数字人文迄今为止形成的最大共识,就是大家都同意它是一个人人都受欢迎从而能各得其所的“大帐篷”。愿这个大帐篷使我们各门人文学科都得到繁荣兴旺!

WOLFcon2020大会发言

It’s been with great pleasure for me to come a long way across the planet, to join you in the big family, to celebrate the ongoing birth of our future platform, especially in the very special Chinese Lunar New Year. So Let me say Happy New Year to you once again! Happy the Rat Year!

The year of the Rat is a beginning of a new round of China Zodiac circle. Usually it means a brand new beginning. That’s what we hope for the FOLIO to bring us with: A New Beginning. 

This is my home town, Shanghai, a city always attracts Hollywood shooting Sci-fi movies, showing the post-mordern future society of our mankind. It is full of exciting things and opportunities. It is a perfect place to announce the final release of FOLIO I think.

This is Shanghai Library, the biggest city library in China, maybe the biggest of its kind around the world. The population of Shanghai city is 23 million. About a quarter had a reader’s card issued from my library. More than 3 million people visited my library and checked out nearly 30 million books every year. The peak circulation transaction number is 66 million in a year. But the circulation is not accomplished only by my library, we’ve got more than 250 libraries in a three-tier library system. We don’t belong to each other, but use only one integrated library system. We are a consortium.

The present Shanghai Library has opened to public in 1996. With the economic development, the budget of Shanghai Library has been increased from around 30 million USD in 1996 to 70 million USD last year. But the service capacity and key indicators have not been improved at the same time. We are not satisfied with the accessibility of our resources and the quality of our services, as well as the realization of the core values as a public library.

Our magnificent powerful Integrated Library System is Horizon, as you may know, it is from SirsiDynix. After running for more than two decades, when we set higher goals to serve more people and construct a new library building with 115,000 square meters, and expand our consortium to more than two thousand community libraries and service points, the Horizon system has no longer been able to meet our needs. At first, We decided to choose a safer way to upgrade our system to the Symphony, which is also from Sirsidynix, so as to have their services. But when the company notified us that they were no longer fulfilling the contract, returned the money and withdraw from China, I knew it was the darkest day in my career. 

Lucky enough we met FOLIO just in time.  We fell in love with FOLIO at the first sight. The open and sharing spirit of FOLIO perfectly matches the ideas of the Library. It is just what we are looking for for many years. Honestly, this step is a little bit bold, but we think it is worth to take the risk. I love the ideas which Sebastian Hammer stated in his speech “Library as a platform” at ELAG2016 conference that the FOLIO should be fully open sourced and act as an operation system for the library, and it will have an App Store for libraries to choose whatever applications they want to run.  He also pictured an amazing “by the community, with the community and for the community” vision of FOLIO.  These ideas are major breakthroughs in the library history I think. And we are very happy to see most of them have been realized in the next few years. 

We think the future shape of the library is a moving target. The service platform should be flexible enough to adapt all kinds of new technologies and requirements into the platform. From this point there is no such a platform better than FOLIO to accomplish the countless and agnostic requirements for libraries in the future.

But now we have to realize some key requirements:

  • It should be a multi tenant platform not only for Shanghai Library, but tens of branch libraries, which have their own sub branches, as a whole consortium.
  • It should support to 100 million circulation transaction in a year.
  • It should look after all kinds of activities by up to 15 million registered users.
  • It should provide collection management solutions for all kinds of culture heritage resources.
  • It should provide SaaS ecology with multiple extension modules (eg. SoLoMo services, Data Analytics, etc) by multiple local vendors.
  • It would help libraries to redefine itself in a new environment and re-engineering its workflow to meet new requirements.

We start our journey to investigate, learn and develop with FOLIO at the end of 2018. This slide lists most of the companies and institutions involved.

Now we have a team of more than 50 people, consists of librarian as PO and developers from 10 company partners. I put their names here but I won’t read them, just want to give them a recognition before you in this world wide community. So can you give them a round of applause? I am sure they can hear and be encouraged.

They are from those companies and institutions above.

By the end of 2020, we focus on the development of the Resource Access/Circulation module, the Collection Management/Inventory module and the System Management module. We also have partners working on the Acquisition/Order module and the Reading Promotion modules. 

We established the Shanghai FOLIO Alliance to joint efforts on the FOLIO implementation among Shanghai Central Library Consortium. The Alliance is under the supervision of the Shanghai Society of Libraries. It can prevent its member library to apply non FOLIO compatible module before FOLIO implementation. There are eight companies and 17 libraries as first members to join the Alliance.

The Chinese library community has been paying great attention to FOLIO from the beginning, and we also try to attract them into the FOLIO community, to popularize the concept of open source and expand our influence. 

We now have a loose national community led by CALIS (China Academic Library and Information System). We plan to upgrade to a semi-formal national alliance to advance the following community work:

  • Translating, including interfaces, documents and all kinds of materials when necessary
  • Chinese Natural Language Processing supporting, such as segmentation, sequencing…etc.
  • Local Knowledge Organization System supporting, like Chinese Library Classification, etc.
  • Developing and Maintaining the FOLIO Chinese version align with the international version, and maintaining local Knowledge Base.
  • Joining the development to contribute to new ideas such as data lake, linked data, machine learning, blockchain etc.
  • Module Compatibility Testing and Evaluating, and running a local App Store.
  • Issueing  Specifications and Best Practices, Outreaching and promotion, training, help implementing or migration, …etc.

We don’t want Chinese FOLIO application to be another information island. There would be no future if Chinese FOLIO community isolated from the international community. So we need a lot of help from you.

  • We need to know more about the whole architecture and backend technology.
  • We have to deal with local needs as a large central public library, such as massive concurrent processing, response performance, scalability, ease of use and user experiences.
  • We should provide multi-tenant environment to meet the different needs of different libraries in a large consortium.
  • We would encourage local teams to develop extensive modules to meet local needs
  • And we are going to establish Chinese application marketplace after you set up of FOLIO App Store

As the demands from China are so intense that the community decided to hire a PO who has the capability of bilingual, knowledgeable of software engineering and library business, to help us to communicate and coordinate with the international Community. After several months of recruiting, when we almost have no hope for such a panda position, Cate found one for us. The recruitment is  underway. It’s amazing.

We can’t wait for so many good ideas from FOLIO to come true, so we could make our contribution as much as possible.

As a small contribution to this conference, we made badges based on FOLIO’s logo and brought them to everyone here. So don’t forget to get one from my colleagues in the lobby (around the corner/by the door of the meeting room).

We are very appreciated for your efforts on developing FOLIO. We are very glad to see the growth of the  community. I truly understand the engagement of the community is the key for the success of FOLIO. I think It is far from enough by now. So we are very glad to be a part of it and to make contribution. There are 3000 public libraries and 1200 college libraries in China, which are eager to see a new library platform and waiting for FOLIO. We would like to invite you to hold a WolfCon or FOLIO Show in China in 2021 when the new Shanghai Library East Building has a grand opening. Let Shanghai library be your host.

Thank you very much.

2019“数据驱动的知识服务” 课程安排

今年的华东师范大学2018级专硕课程又要开讲了,继续讲座形式,四个单元,18课时合并到两个整天。安排如下:

2019年11月29日星期五第一、二单元(上午8:30-11:40,下午13:30-16:40) 

第一单元:从“亚历山大”到“颂歌”:知识的起源与图书情报机构的未来

第二单元:开放数据与开放科学:知识作为一种服务KaaS(知识图谱等技术发展)

2019年12月6日星期五第三、四单元(上午8:30-11:40,下午13:30-16:40) 

第三单元:从数字到人文:数字人文是人文的数字化还是数字归宿于人文?

第四单元:期待奇点:ABCD(即AI、Blockchain、Cloud Computing、Big Data)时代将创造一个怎样的未来?

地点:上午:三馆235教室  下午:三馆231教室

“定义数字人文”归来

日前去南大高研院参加了【“定义数字人文”工作坊】,是其“数字人文周”系列活动的一场。南大高研院数字人文创研中心是目前国内最活跃数字人文团体,此次请了Melissa、Edward、Jason等国际大牛,前几天还来上海做了两场交流,受益良多。

下午有一场讨论会,陈静主持,非常国际化,陈述与辩论全程高能,双语全开。主持人给到我的是这个问题:数字人文与大数据、人工智能间是怎样的关系 ?这里对匆匆辞不达意的发言做一个留存。

Melissa今天其实已经介绍了很多,在座也有很多计算机领域的教授,我这里对这一问题谈六个方面,供批评指正:

  1. 数字与人文的关系?digital与paper(指载体,包括甲骨简帛、纸草泥版等)的关系,而不是与print的关系(print只是古登堡印刷术1450年以来的事情,人文早已成型)。数字人文的数字表明其生于斯长于斯,荣于斯毁于斯,或不成功也将“葬”于斯。从这个角度看,数字其实是源自于人文的,而人文又源自于人类发明的文字,没有文字就没有载体,人类文明就不能积累和发展,文化就无法传承(玛雅人结绳记事也算一种载体,但也限制了其文明的发展)。大数据与人工智能是数字技术的最新阶段,还能发展多久?从多大规模上影响人文?将取决于这些技术的发展是否有一个极限。目前看来是没有的,莫尔定律从四十多年一直有效,另有一个奇点理论更说前景无限。因此发展远没有停止,我们不能低估数字技术的影响,而且还在迅速发展。人本身就是技术的产物,数字技术来源于人文,而又反馈于人文,数字人文远没有止境,不能静态来看,数字将给人文带来更多的机会。
  2. 哪些技术将影响人文?技术的潜能是很厉害的。 大数据和AI只是现时代的代表技术,大数据是数据管理技术的进展,人工智能是计算方式的变革,单独说某种技术意义不大,可以讨论所有技术,如OCR、实体识别、Dis Reading、Analytics,Visualization,Creation,其实是背后的所有技术:所有技术都会对人文带来影响、起到作用,例如很多支撑性的技术,如云计算、微服务等。我们要划定一个边界,可能是对人文研究直接有用的技术。
  3. 技术用在哪里?任何计算机问题都可以看成是模型问题,计算机技术发展至今,是对于人脑认识的模拟,而且越来越接近人认知方式。人是否能提出问题、解决问题,主要是能否借助于计算机这种人脑的延伸工具充分地认识问题。现在提出的本体技术就是把领域知识代码化、可计算化。所以说到底数字人文问题既是技术问题(无限逼近领域系统),又是认识问题,应用到具体研究过程中,它也是操作问题,评价问题,方法过程问题,信效度问题。其中核心正是我们对dh核心的认识:如何界定Methodogical Commons,DH的特点是核心清楚,边界模糊,之所以这样,还是因为我们今天对认识论模型认识的不够深刻,所有的技术都是围绕这个模型而来的,不同学科领域(包括未来新产生的人文学科)有不同的模型,从技术方法层面来看,有通用的技术工具方法和特异化的技术工具方法。当前很多社会科学研究方法都可以借鉴。
  4. 技术如何应用?DH和AI相比于硬科学和其他人文科学,都还在婴儿时期。目前的研究是研究吗?还是研究过程的一部分?当前我们普遍人文DH还是工具性的,但远远不止如此,它如果用在人类好奇心的探索,用于提高人类福祉,用于人性的延展,它就不再是工具了,工具与本体就合一了。如前所述的,人即是工具所组成。第一阶段DH可能提供的是扳手,你不需要知道扳手怎么做,你就直接可以用。而未来,你与扳手合一了,你就是扳手,你是一切,任何问题都是数字人文问题了。
  5. 当前DH有什么问题? 问题很多,Melissa提到一部分,如伦理、环保等,还有如隐私、滥用,诚信,遮蔽等。现在影响我们比较大的,是商业化问题,以及可持续性问题
  6. 最后谈一点GLAM的价值和作用。GLAM保存的是我们从哪里来的人文,而未来一定是数字的,我们期待如Edwards所说的,所有问题都是数字人文问题那一天的早日到来。

开放科学与开放创新——中国图书情报机构的责任(访谈)

以下是《竞争情报》杂志在SCIF&ICSTI2019(2019竞争情报上海论坛(SCIF) 暨国际科学技术信息理事会(ICSTI)年会)会议前夕对我进行的访谈初稿。

问:这次论坛的主题是“开放科学与开放创新”,前者和后者的主要区别是什么,他们之间又有怎样的联系?请问主办方希望通过这个主题向与会者传达怎样的理念?

答:开放科学是指科学研究的各个环节和科学交流越来越向公众开放的一种趋势,是一种科研方法和模式的变化。其动力一方面来自科研本身:科研事业越来越复杂,当前已进入“第四范式”阶段,即数据驱动型科研阶段,各个过程环节的成本越来越高,越来越需要协作。另一方面也来自社会:科学门类越分越细、越来越专门化之后距离大众生活越来越远,科研事业一直是依靠公共资金推动的,需要更多的宣传和普及,才有可能获得更大的支持。开放能够吸引更广泛的参与者,更利于推进科研过程,成果数据也更容易被发现和交流,并能降低获取成本,这是它带来的直接好处。通常认为,开放科学它包括开放数据、开放代码、开放方法、开放同行评审、开放存取和开放教育资源等各相关领域的开放运动,伴随有一整套原则和做法。其中开放存取(开放出版)、开放数据(及方法可验证)和大众科学(众包模式)是近年来谈论较多的主题。

开放创新则是指企业或机构组织有目的地利用各种知识流入和流出的方式加速创新的各种做法,相比于过去出于竞争的考虑,创新一般只能在企业和组织内部进行,而现在越来越强调利用外部资源或内外结合开展创新,这样常常更有利于企业创新速度和能力的提高。这一方面是因为单一企业越来越难以承受创新的成本和其它压力,另一方面也是因为创新所要求的知识技能乃至特定的资源不太可能在机构内部获得。合作多赢的策略能够加速创新,对企业和整个社会来说具有更大的创新规模,能带来最大的好处。

开放科学与开放创新是针对不同领域的两个不同概念,前者是科研领域,后者主要应用于产业界和社会组织。但它们都是方法论创新甚至是对旧有模式的颠覆,都在更大范围内寻求资源和合作,都需要依靠科技进步,特别是在当今大数据、物联网和人工智能时代,用到最新的信息技术。另外这两者有一定的方法论体系。

除了作用领域不同之外,不同还在于:第一,他们的影响范围也不同:开放科学是指整个科研过程的开放,开放创新可以认为只是一种方法论的创新。第二,他们的衡量指标不同:科学研究历来使用都是公共资金,它通常以整个社会的效益最大化为目标,而开放创新常常是企业组织自身的要求,最终以获取多少利益为衡量标准。第三,他们所采用的基本方法也有所不同:开放科学采用的方法是非常全面的,与科研过程的不同阶段都有关系,随着科研第四范式的普及,基于数据的研究(数据密集型研究)已成为影响所有学科和整个研究过程的最大挑战,各门科学的研究都需要尽快转型和适应;而开放创新虽然有多种模式,但总体上都遵循Henry Chesbrough 在2003年提出的基本模式,即“走出去请进来”。

开放科学和开放创新两者又是密切相关的,有人说科研是将金钱转化为知识的过程,而创新则是将知识变现为金钱的过程。本次会议以这两个概念为主题,是想传达一个明确的理念,即我们现在已经进入一个全面开放的时代,推动社会进步的最重要的两个发动机——科技和商业——都必须依靠开放,获取进一步的发展动力。科学本身就是一项需要不断创新的事业,采用了开放创新理念的科学研究就是开放科学。而且,开放科学的成果不一定就是论文,而可以是各类创新成果,成果的交流方式也已不再是线性的、阶段式的,而是交织的、渐进融合式的。同时,创新本身也是需要有科学方法支持的,开放科学包括很多分领域,如开放数据、开放出版、开放合作(包括开放方法和开放源代码)、开放教育等等,对开放创新也是一种思想方法的来源。评价科学进展和创新成果的方式与指标体系应该与传统方式不同,这方面也需要体现开放性和创新性。

问:谈及开放科学,人们往往能想到开放获取、开放数据、开放同行评审、开放教育资源等,其中开放数据是开放科学的重点,也是图书馆界实践开放科学的主要方向,正如您在大会上的主旨报告标题“开放数据与知识服务——图书馆助力科研转型”,在这方面图书馆有何举措和创新?

答:当我们说到数据,不同的人想到的是不同的东西,可能是文本、表格、图像、照片、公式、分子式、基因结构、科学图谱等等,科研成果中包括大量的此类数据,科研成果的主要形式——论文和报告,其实就是一种数据的集合,其本身也是数据。所有这些数据主要沉淀于图书情报机构的各类知识仓储中,这些又都是进一步开展科学研究的素材,也是开放科学首先需要开放的内容。

当今我们所说的数据,与计算机已经密不可分,大多需要通过计算机来编码、解码、解析、表示、表达、分享、引用、操作,以获得其含义并发挥其功能,所以它通常具有一定的“格式”,有时不能脱离其环境而得到解释(即解码或实现功能),其中蕴涵了我们对大千世界的认识,可以认为是一种模拟(即第三范式)。数据是未来计算机处理信息的主要形式,是企业机构知识资产的主要存在形态,也是科学研究第四范式(即数据密集型/驱动型科研)研究对象的存在形式和基本单位。随着计算机技术的进步和大数据时代的到来,机器处理的对象越来越高阶化、语义化、模型化,直接对现实世界进行模拟,而数据就是现实状态的映射。正如马云所言,数据技术就是IT技术的另一种新的名称。开放科学就是对新环境和新创新模式的一种适应,开放的对象主要就是数据,教育资源也是一种数据,代码也是一种数据,其他都是围绕这些数据的工具、方式、过程、模式等。

图书情报机构以提供知识服务为己任,在纸张时代是通过文献服务的方式实现职能,而到了大数据时代,则主要形式是数据服务了。图书馆最早的知识服务是以书目或文献数据库形式提供的,它们一直是科研数据的基础形式,也是最早的开放数据形式。但仅仅是书目或文献数据是远远不够的,随着数据技术的进步,提供深入到文献内容的内容数据,才能直接介入科研和创新过程,为科研和创新服务。开放数据之所以成为未来图书馆服务的重点,一是因为它与图书馆自身的转型有关,图书馆必须突破文献的藩篱,利用数据技术建立数据服务平台,从数字图书馆进一步转型为“数据图书馆”,这是未来图书馆服务的应有之义;二是因为它体现了未来图书馆的存在价值:必须为开放科学和开放创新服务,通过自身的服务,促成科研的范式转型,从而实现其自身的价值。应该说图书情报机构一直在努力,但实现这两个方面都不容易。

图书情报机构通过自身的数字化转型而助力科研转型的路径大致是这样的:首先在资源建设中根据用户需求突出数字化资源,使得数字资源占据更高的比例;然后通过各种技术平台和工具尽可能提供基于数据的服务,例如在数字人文和数据出版领域广泛采用的关联数据技术等;在此基础上通过各种分析挖掘技术使服务平台更加“智慧”,对图书馆而言就是智慧图书馆建设;与此同时升级检索发现平台为真正的服务平台,融入科研人员的科研和创新过程,并赋予开放科学和开放创新的要素和工具。整个转型过程需要图书情报机构不断进行流程再造和服务创新,例如探索增设新的部门和学科馆员、数据馆员、数字人文馆员等一线服务岗位。转型的过程不是一蹴而就的,需要咬定目标不断调整和探索。

问:除了开放数据之外,图情机构还可以做哪些开放科学相关的实践?

答:图书情报机构支持开放科学运动有很多方式,其中开放存取是最为主要的。机构知识库可以认为是开放存取运动的一部分,其他还有建立或维护学术交流平台,支持自出版、开放出版等,图书馆在其中都有用武之地,图书馆应该成为开放科学和开放创新环境生态的一个重要组成部分。

另外图书情报机构开设创新/创客空间,普及科学知识,消除信息鸿沟,培育信息素养,涉及开放软件(源代码)、开放硬件等等方面,都可以有所作为,还可以在大众科学方面贡献力量,目前许多图书馆自身的工作(如知识组织、分类标注等)也开始采用众包方式,让更多的人参与进来。可以说图书馆就是开放科学和开放创新的普及和实践基地。从这个角度看,各类图书情报机构都可以为开放科学和开放创新做贡献。

问:开放创新以企业实践为主,比如宝洁、谷歌、特斯拉、海尔等都是开放创新的实践者,在企业实践的主阵地,情报可以发挥怎样的作用?

答:科技情报机构和一部分研究型图书馆通常需要承担为企业创新提供服务的职能。作为一种公共服务,帮助中小企业或初创企业获取信息,科技资源、数据、专利、标准、研究报告,各类技能培训尤其是IT(信息化)能力培训等,提供法律和金融信息服务等,乃至作为创业培训基地,都是目前很多图书情报机构正在做的,未来这些工作可以更多引入开放创新的理念与做法,加入到开放创新的洪流中去。

上海图书馆(上海科学技术情报所)陈超馆所长认为,图书馆转型提供创新创业服务的立意和站位应该更加高远,把自己作为创新创业生态系统的重要组成,也即创新创业基础设施的重要组成部分,为创新创业活动提供便利条件。他进一步认为,公共图情机构通常是处在创新链、创业链的起点,可以与市场主体运营的创客空间、联合办公空间、孵化器、风险基金、产业园区等合作联动,成为营商环境的重要元素。公共图情机构完全可以最大限度发挥自身优势,主动积极地去服务“大众创业,万众创新”。

问:图情机构的开放科学与应用与政府部门、商业机构的有何不同?作为国内唯一一家以图情合一为特色的机构,上海图书馆(上海科学技术情报研究所)在实现“开放科学与开放创新”会议中传达的一些理念能发挥怎样的作用?

答:图书情报机构的主要任务是提供对知识的保存、组织和存取服务,帮助研究人员管理知识和创造知识,尤其是应对大数据时代对知识生命周期进行管理的各种挑战,也就从事全方位的知识服务。因此图书情报机构主要还是开放科学与开放创新的使能者,真正的主体应该是政府部门、科研组织和商业机构。

政府倡导开放是应有之义,首先政府信息公开就是一种必须。企业提倡开放是为了更大的发展。开放首先是一种态度,走向开放首先要从改变文化做起,改变目前以成果为导向的科研价值观,多管齐下,还应该注重培养兴趣、吸引参与、宣传推广、普及知识等,包括要关注基础和环境建设及系统性的政策制定,这些都是政府部门和商业机构可以做的。

上海图书馆(上海科学技术情报所)作为国内首家图书情报联合体,承担了全方位的信息服务,几乎包括了各种载体和所有方式,而且不仅为大众服务,同时也为科研和企业服务,因此开放科学和开放创新都是其密切关注的领域。上图情报所主持召开这次会议,以开放科学和开放创新为主题,主要是希望向与会者乃至整个社会传达这样一种理念:即面对未来一切未知的挑战,首先需要确立开放的心态,只有开放才能汇聚所有人的智慧,才能应对无限的可能性。图书情报机构作为知识的集散地、创新的使能者,也是所有开放运动能够依靠的智慧源泉,我们必须首先使自身开放,以开放理念和开放服务,融入到开放科学和开放创新的过程中去,反过来促成自身的彻底变革。

DH2019敦煌会议发言稿

数字人文的学科化与理论化趋势前瞻

(注:本帖为2019年数字人文敦煌年会本人所做的发言,与上海大学wlh老师共同完成。后扩充内容,即将发表,链接后附。引用请以公开发表内容为准。)

我们目前对数字人文的理解基本都是工具性的,即认为数字人文是信息技术在人文科学中的应用。其定义大致分两种: 广义的和狭义的。广义的如维基百科词条:

数字人文(DH)是计算或数字技术与人文学科交叉的学术活动领域。它包括系统地使用人文科学中的数字资源,以及对其应用的反思。DH可以被定义为进行学术研究的新方式,涉及协作,跨学科和计算参与的研究,教学和出版。它为人文学科的研究带来了数字工具和方法,认识到印刷文字不再是知识生产和分配的主要媒介。

弗吉尼亚联邦大学(Virginia Commonwealth University)的David Golumbia认为上述宽泛的解释就是人们常说的“大帐篷”定义,而人们常常内心认同的都是狭义的数字人文,即专指“工具和档案”。他通过美国人文科学研究基金会历年批准的项目中得到印证。

上述两类定义,尽管广义的“大帐篷”定义并不排斥理论研究,但整个数字人文界对于数字人文的理论研究还是不甚待见的。充斥其间的,是Just do it的论调。没错,数字人文是需要做出来,而不是说出来。我们需要在人文学科的各分支领域广泛采用计算机方法,尝试探索、开展培训,让更多的人进入这个领域,让进入的人有所作为,而不只是争先恐后地摘取低端果实。一个领域能不能立住,主要还是要让成果说话,只有这样,才能向世人证明:未来的人文必须是数字的。

但是一个学术领域如果没有一定的理论思考,没有对自己是什么、做什么、为什么做的研究,这个领域是没有内聚力的,也是走不远的。我们如果不知道为什么会相聚在一杆大旗底下,我们就不知道明天还会不会一起,我们更不知道将来会走向何处。

目前的现状即是如此。表面上看起来轰轰烈烈,但只是提供了一个大帐篷底下大家交流的场所而已【现状也未必尽如人意,很多人感到困惑、乏力】。一个有明确创立时间(1949?)和定名背景(2003)的领域,经过70年的发展和近20年的争论,应该说已不算年轻,成立了很多研究中心、协会学会等组织机构,也具备了学术制度所必须的要素,年会与专业会议一片繁荣,各类基金、教育培训计划等基础设施一应俱全,但还在讨论“dark side”,缺乏“范式”或“纲领”,挣扎在理论“贫困线”上,系统建设多于研究成果,论辩口水多于学科创新,学术产出中得到公认的重大成果基本没有,甚至连从事数字人文的人都不认可数字人文是一个学科,没有形成系统的专业教育体系或职业培训制度。这其实就是我们目前的现状。

一、数字人文属于什么人文?

“人文”一词在我国与众多的其他现代概念一样,是一个舶来品。大约是“五四”运动前后与“德先生”“赛先生”一起引入,被称为“胡先生”,即“Humanism”,只是没有前两位先生有名。与之相关概念有许多,如人文学科、人文科学、人文主义、人文精神、人文素质,以及人道主义(曾经是Humanity的一种翻译)、人本主义等,非常容易混淆,不仅因为含义相近,而且对同一个名词会有许多不同的理解,由于历史的、文化的或语境的原因,造成十分复杂的内涵差异,以至于带来很多理解上的困惑。这对于数字人文的讨论也是十分不利的。我们如果不能对这些概念的前世今生、前因后果和同形异议的情况有一个基本认识,恐怕很难准确把握数字人文的丰富内涵,也很难探究其未来发展。

数字人文中的人文(The Humanities),一般都用作复数形式,是对于各门具体人文学科的总称,主要用于教育学中对教学科目的分类,目的是在教育机构开设相应主题的课程,以提高被教育者的人文素养和人文素质为目的,定位于人文学科的课程建设和教学。

人文科学(Humanity Sciences)则是从哲学的高度对包括人文学科和人文主义在内的人文活动原理进行系统研究的理论体系。人文主义(Humanism)属于思想史范畴,同类概念还有人道主义、人本主义、人文精神等,表现为社会思潮、思想立场和主张等。

尤西林认为人文学科、人文科学和人文主义三类概念不能混淆,更不能互相取代,但它们总是密切相关。人文科学不能代替人文学科的(教育)功能,而依赖于人文学科来发展和阐扬人文科学,同时人文科学所具备的精神不可避免地具有人文主义的价值立场。

数字人文作为各门人文学科应用了数字技术之后产生的新形态,其实就是“人文学科”的延伸和发展,是多门学科共同构成的一个新领域。它既根植于传统的学科(至少目前是),又共同形成一个以“数字技术”作为方法和工具的纽带(是否只是工具方法呢?下文讨论)。数字人文将人文学科也带入了数据驱动型或数据密集型时代。

数字人文是否已经形成一个“科学共同体”了呢?虽然数字人文来自于“方法论共同体(methodological commons)”,但它是否能够作为单数的“数字人文”而存在?也就是说是不是能够作为或形成一门独立的学科?目前争论很大。这需要从三个方面来考察:1.历史的角度;2.“科学学”(或者科学哲学)角度;3.未来发展的角度。

二、数字人文与古典人文是一个东西吗?

从历史上看,人文科学是一切科学之母。从古希腊罗马的七艺(),到中国春秋时期士大夫的六艺(),以及被孔子“学科化”而成为“儒家”六艺(),就反映了当时人类对于自然、社会及自身的认知的总和,并总结为教化人类自身所需的必备素养和学科体系。当然当时只是为了教育贵族子弟或“公民”,下等人和奴隶是不包括的。

据文献记载,汉语中的“人文”最早出自《周易·賁bi卦》:“刚柔交错,天文也;文明以止,人文也。觀乎天文,以察時變;觀乎人文,以化成天下。”这段话引用颇多,当然也有不同理解。中国“人文”本意是以天道信仰为原则而进行礼仪教化,旨在规范人,与西方人文意在解放自然人欲,虽然有很大不同,但总体而言,天人相对,以求致知而达和谐,是相通的。

人文思想到了现代,其内涵和功能有了很大的不同,从主流价值观和意识形态,及其构成的学术形态,蜕变为对现代化的回应,在以印刷术普及为滥觞的五六百年科技和工商业高歌猛进之后,完全呈现为一种防守的态势。在学术与教育思想中反映为人文学科与人文科学与自然科学、社会科学相区别而并列的关系。这一区分是现代化之后才形成的,可以看成是古典人文学科经过现代化而发展、分化所致,因此其内涵与古典人文学科有了很大不同。

现代人文发展到数字时代,更是退化到只见树木不见森林,只有方法而没有灵魂了。

三、人文学科是科学吗?

古典人文与现代人文的最大不同,来自于人们对科学的崇拜,即认为现代人文尚未完成科学化过程。这其实是现代主义对“科学”的一种解释。科学是什么?从库恩、波普尔,到拉卡托斯、费耶阿本德,科学哲学从来没有说清楚科学的本质,因为所有的判断都有反例。这也是在现代性体内长出的后现代特质。

【科学哲学,以及依据科学哲学考察的人文科学】

本意为复兴古典,却带来了现代。科学主义和工业革命一方面给人类社会带来了巨大变化,造就了当今人类的“幸福”生活,另一方面却又戕害了人性,使得人文精神在喧嚣和冷冰冰的大众传播中迷失,社会分工和知识的专门化导致专门家泛滥而真正的知识分子频临灭绝。这都是现代性造成的直接后果。

四、数字人文是工具还是本质?

“数字人文”这个概念的产生,固然是工具论背景的:帮助人们更方便地从事人文研究,而提供索引工具,进而提供基于数据研究或数据驱动型研究的所有设施:资源、平台、工具、方法,一切都是数字化的。

【方法论共同体图】

数字人文的未来具有远超学术研究的广阔天地,当所有的人类活动都基于数字技术时,“数字肥胖”将会是一种普遍的社会病,所有的人文现象都将成为各门人文学科研究的对象,人文科学也将由此得到丰富和发展。数字生活带来的很多新的文化现象,将产生数字现代主义的世界观和价值观。

以网络文学为例,作为一种数字人文现象,既不同于传统文学,又区别于数字人文的学术研究,具有极其丰富的学科内涵,目前暂且可以归入数字文学这一学科门类。而对于其上位学科–数字人文而言,是应该从文学理论角度进行研究呢,还是应该研究其如何助力文学创作?或者这两者无法区分,只好兼而有之。

网络文学从一开始就呈现一种碎片化、新媒介的书写方式,从第一代痞子蔡、安妮宝贝、李寻欢、宁财神等开始,就掀起一种革命性的风潮,发展至今更是丰富多彩。他们的作品多以超文本和网状/非线性、用户交互/协商式情节推进等为特征,在叙事方面也更加后现代,如玄幻、穿越、耽美,无怪不可,做了大量的探索,而且充分利用网络平台的参与性,创造了催更、打赏、接龙等方式,自动筛选出更受欢迎的作品,从而带来巨大的流量,无成本地挖掘出巨大的商业价值。这也使得网络文学与传统文学在理论上分道扬镳,诞生很多超级长篇的作品,永远不可能原样印刷,当然也出现了大量的“太监文”,以及为传统卫道士所不齿的“低俗性”(同人、攻受、鬼畜…)。

其实数字艺术的诸多门类,都存在这种现象。数字莫扎特可以让莫扎特专家难分彼此,数字油画也能唤醒人类心中的艺术激情,数字艺术正在挑战我们对于人文的认识和定义。

按理说艺术作为人类创造力的体现,其创作最具有独特性,似乎只能来自于人类自身的生命体验,取之于人而又被人欣赏,机器(人工智能)似乎是永远无法体会其中的情感和感染力的。而现实似乎正好相反,不仅在绘画、音乐领域,甚至在文学创作方面,完全由计算机程序通过机器学习方式创作出的作品,也越来越能够被人接受,远不是那种粗制滥造或简单拼凑所能解释。机器油画作品已经拍卖出高价,SONY的流行歌曲已经获得非常不错的好评分数,而小说作品完全能够模仿大作家的写作风格和哲学观念,按照一定人群的喜好铺设情节,出品传世佳作。

时至今日,可能还有很多人无法接受数字艺术内容的广泛性和丰富性、以及呈现形式的多样性,但已经没有人能够否认其深刻性和颠覆性了。再以网络文学为例,近年来一些优秀的写手早已不满足浅薄地感官写作和欲望叙事,而直指数字现代主义的无人区,以后现代主义解构一切被广为接受的理论,不断向纵深挺进。沿袭金庸一代开辟的武打文学,英雄长成类作品一直是颇受欢迎的题材,但个体生命在设定宏大背景中的特殊意义,自我与规则的致命冲突中所呈现哲学思考,赋予了作品更深刻的内涵。如《间客》的作者猫腻把康德著名的“星空与道德律”作为卷首语,使康德哲学成为作品中的草蛇灰线;在《朱雀记》中佛主开悟而得出众生皆苦的结论,于是死具有了合理性,而主人公易天行拒绝赴死的抗争也具有了尼采般的英雄主义色彩。这些都使其从后现代的批判和否定中汲取营养,反过来极大地丰富了数字现代主义的内涵。

当数字作用于人文,其所起到的变化应该不是如烹饪中采用了更好的刀具、甚至电动刀具,将食材切得越来越细这样的变化,而是超越了工具甚至方法,将食材腌制、发酵、分解甚至腐烂,更多的时候甚至是把以前不能纳入食材的东西纳入进来,绝不是我们表面上看到的切割形态上的变化,由于有了加工方式的不同,使得装盘呈现的方式也成为其一大特色,造成其最终目标不是为了食客果腹,而是艺术欣赏。久而久之对人的营养结构和文化习俗都会产生变化。这样来看,数字技术所起到的作用远不是物理变化所能涵盖的,而是一种化学、生物、文化的变化,是一种质的变化。

五、超越数字人文

现代主义提供了数字人文兴起的一个深色背景,更具颠覆性的后现代性孕育其中,使数字人文的未来充满不确定性。

发端于启蒙运动的人类现代化过程成功地造就了现代文明。现代性最重要的内涵就是宗教的衰落,启蒙精神的兴起。启蒙精神强调人类理性的重要性,相信凭借人类的理性,可以探究客观世界的真理(笛卡尔:我思故我在),未来是确定的,世界是进步的,找寻规范人类行为的普遍原则,建立公平正义尊重人类尊严的社会,达成对人性和美的终极追求。然而人类发展到后现代,这一切就不是顺理成章的了。
20世纪末兴起的信息革命变本加厉,逐渐赋予人类以几乎超越上帝的能力:改造生命、攫取智能、模拟情感、监控社会,(尼采:上帝死了)人类的欲望可能以更大的规模和范围得到释放,人文主义信仰受到前所未有的威胁。试想,如果我们能够任意编辑生命,甚至像科幻电影中描述的那样,通过体外子宫工场大规模生产人类,科技将能够生产超级人类,我们无需通过婚姻而繁衍后代,机器伴侣也会大行其道,我们的人性该如何定义?我们的伦理道德将会如何发展?是不是人文主义应该扩展为“后人文”(万物平等的泛人文主义),或者退缩为被AI消灭的过时的意识形态?这才是数字人文应该研究的硬核内容。作为现代性的后果之一,后现代即是对现代性的鄙视和摧毁,又蕴含了对古典的呼唤。虽然它无法脱离现代性而独立存在,甚至更多地是一种共生的关系,但却是一种反思、弥补甚至强化。

数字化网络化使现代性登峰造极,而数字人文可以作为一种逆动,成就一种后现代主义。因此,我们不能把数字人文仅仅看成是一个学科领域,而包含了非常丰富和复杂的意义。它首先是一个后现代运动,其次是一种信仰,然后才是一个学科领域和理论学说。

人文科学主要提供思维模式和价值取向,其有古老的一面,即继承自古典人文的基本内核,又有新生的部分,即与自然科学和社会科学抗衡的理论解释。因此它既古老、又年轻,即具有前沿性和探索性,又具有继承性和系统性,虽然面临式微和边缘化,但在人类遭遇危机、困惑或迷失时却成为依靠和灯塔,展示着强大的生命力。

南大428会议小结

很荣幸参加“比较视野中的数字人文反思”学术研讨会。本次会议的两个主题词“比较”和“反思”显示了本次会议比以往的进步。之所以能够比较,归功于本次会议邀请到了三位国外的学者,而需要进行反思,说明我们走得很快,也该停下来想一想了。
十一个发言,涉猎了DH相关的十一个主题词:

  1. 学科建设
  2. 项目组织
  3. 发展前景
  4. 文化记忆
  5. 方法转向
  6. 极简主义
  7. 馆藏再现
  8. 历史地理
  9. 教育实践
  10. 学术交流
  11. 数据设施

最后还有东道主陈静老师,提到了“范式差异”,以及我们如何去做。

会议讨论非常热烈,涉及了几乎DH的所有方面,也提出了更多的问题。我就用更多的问题来总结吧,希望我们下一次开会继续争论。

  1. 数字人文的理论虚无主义是有利的吗?单靠数字(Just make it without thinking)真的能振兴人文吗?
  2. 数字人文的定义一定是排他的吗?大帐篷下不能有小桌子吗?
  3. DH真的已经胜出了吗?前景一定是乐观的吗?What will be left for DH when every Humanity becomes digital?
  4. 人类记忆依靠技术平台是能够长期可持续和经济的吗?
  5. 观念史的数字转向如何保证模型的可靠和有效?
  6. 技术进步是如此之快,如何选择合适的技术?如何让望远镜和显微镜不仅看到原本就有的事实,还能看到新的事实?
  7. 数字呈现在DH中与收集、建模、保存、利用是怎样的关系?花多少钱比较合适?
  8. 大家都需要的GIS平台何时能实现?每个人可以如何贡献?
  9. DH专业教育如何振兴?特别是国内,如何体制化?
  10. 数字学术交流如何更学术、更创新?
  11. 如何建设通用DH的计算设施平台服务?
  12. 东西方数字人文的差异是一种中国特色吗?应该强调还是应该淡化?

本次会议扽主题“比较视野的数字人文反思”其实刚刚开始,恭逢盛事,深感荣幸。我这里代替东道主先要感谢一下 远道而来的Simon、Roopika、Alex,使我们的主题具有了现实性,许多相同的问题让我们感同身受,不同的思考和解决方案也给我们带来了新鲜感,很有启发。

从大家的笑脸我可以感到,这是一次成功的大会,胜利的大会,我们东道主大老板及她的团队付出了辛勤的劳动,表示感谢。期待我们有下一次研讨会,更期待我们能形成一定的共识并开展一定的合作。

只有我们一起努力,DH的未来才会是真正乐观的。让我们共同努力!