2019“数据驱动的知识服务” 课程安排

2019“数据驱动的知识服务” 课程安排

今年的华东师范大学2018级专硕课程又要开讲了,继续讲座形式,四个单元,18课时合并到两个整天。安排如下:

2019年11月29日星期五第一、二单元(上午8:30-11:40,下午13:30-16:40) 

第一单元:从“亚历山大”到“颂歌”:知识的起源与图书情报机构的未来

第二单元:开放数据与开放科学:知识作为一种服务KaaS(知识图谱等技术发展)

2019年12月6日星期五第三、四单元(上午8:30-11:40,下午13:30-16:40) 

第三单元:从数字到人文:数字人文是人文的数字化还是数字归宿于人文?

第四单元:期待奇点:ABCD(即AI、Blockchain、Cloud Computing、Big Data)时代将创造一个怎样的未来?

地点:上午:三馆235教室  下午:三馆231教室

“定义数字人文”归来

日前去南大高研院参加了【“定义数字人文”工作坊】,是其“数字人文周”系列活动的一场。南大高研院数字人文创研中心是目前国内最活跃数字人文团体,此次请了Melissa、Edward、Jason等国际大牛,前几天还来上海做了两场交流,受益良多。

下午有一场讨论会,陈静主持,非常国际化,陈述与辩论全程高能,双语全开。主持人给到我的是这个问题:数字人文与大数据、人工智能间是怎样的关系 ?这里对匆匆辞不达意的发言做一个留存。

Melissa今天其实已经介绍了很多,在座也有很多计算机领域的教授,我这里对这一问题谈六个方面,供批评指正:

  1. 数字与人文的关系?digital与paper(指载体,包括甲骨简帛、纸草泥版等)的关系,而不是与print的关系(print只是古登堡印刷术1450年以来的事情,人文早已成型)。数字人文的数字表明其生于斯长于斯,荣于斯毁于斯,或不成功也将“葬”于斯。从这个角度看,数字其实是源自于人文的,而人文又源自于人类发明的文字,没有文字就没有载体,人类文明就不能积累和发展,文化就无法传承(玛雅人结绳记事也算一种载体,但也限制了其文明的发展)。大数据与人工智能是数字技术的最新阶段,还能发展多久?从多大规模上影响人文?将取决于这些技术的发展是否有一个极限。目前看来是没有的,莫尔定律从四十多年一直有效,另有一个奇点理论更说前景无限。因此发展远没有停止,我们不能低估数字技术的影响,而且还在迅速发展。人本身就是技术的产物,数字技术来源于人文,而又反馈于人文,数字人文远没有止境,不能静态来看,数字将给人文带来更多的机会。
  2. 哪些技术将影响人文?技术的潜能是很厉害的。 大数据和AI只是现时代的代表技术,大数据是数据管理技术的进展,人工智能是计算方式的变革,单独说某种技术意义不大,可以讨论所有技术,如OCR、实体识别、Dis Reading、Analytics,Visualization,Creation,其实是背后的所有技术:所有技术都会对人文带来影响、起到作用,例如很多支撑性的技术,如云计算、微服务等。我们要划定一个边界,可能是对人文研究直接有用的技术。
  3. 技术用在哪里?任何计算机问题都可以看成是模型问题,计算机技术发展至今,是对于人脑认识的模拟,而且越来越接近人认知方式。人是否能提出问题、解决问题,主要是能否借助于计算机这种人脑的延伸工具充分地认识问题。现在提出的本体技术就是把领域知识代码化、可计算化。所以说到底数字人文问题既是技术问题(无限逼近领域系统),又是认识问题,应用到具体研究过程中,它也是操作问题,评价问题,方法过程问题,信效度问题。其中核心正是我们对dh核心的认识:如何界定Methodogical Commons,DH的特点是核心清楚,边界模糊,之所以这样,还是因为我们今天对认识论模型认识的不够深刻,所有的技术都是围绕这个模型而来的,不同学科领域(包括未来新产生的人文学科)有不同的模型,从技术方法层面来看,有通用的技术工具方法和特异化的技术工具方法。当前很多社会科学研究方法都可以借鉴。
  4. 技术如何应用?DH和AI相比于硬科学和其他人文科学,都还在婴儿时期。目前的研究是研究吗?还是研究过程的一部分?当前我们普遍人文DH还是工具性的,但远远不止如此,它如果用在人类好奇心的探索,用于提高人类福祉,用于人性的延展,它就不再是工具了,工具与本体就合一了。如前所述的,人即是工具所组成。第一阶段DH可能提供的是扳手,你不需要知道扳手怎么做,你就直接可以用。而未来,你与扳手合一了,你就是扳手,你是一切,任何问题都是数字人文问题了。
  5. 当前DH有什么问题? 问题很多,Melissa提到一部分,如伦理、环保等,还有如隐私、滥用,诚信,遮蔽等。现在影响我们比较大的,是商业化问题,以及可持续性问题
  6. 最后谈一点GLAM的价值和作用。GLAM保存的是我们从哪里来的人文,而未来一定是数字的,我们期待如Edwards所说的,所有问题都是数字人文问题那一天的早日到来。

开放科学与开放创新——中国图书情报机构的责任(访谈)

以下是《竞争情报》杂志在SCIF&ICSTI2019(2019竞争情报上海论坛(SCIF) 暨国际科学技术信息理事会(ICSTI)年会)会议前夕对我进行的访谈初稿。

问:这次论坛的主题是“开放科学与开放创新”,前者和后者的主要区别是什么,他们之间又有怎样的联系?请问主办方希望通过这个主题向与会者传达怎样的理念?

答:开放科学是指科学研究的各个环节和科学交流越来越向公众开放的一种趋势,是一种科研方法和模式的变化。其动力一方面来自科研本身:科研事业越来越复杂,当前已进入“第四范式”阶段,即数据驱动型科研阶段,各个过程环节的成本越来越高,越来越需要协作。另一方面也来自社会:科学门类越分越细、越来越专门化之后距离大众生活越来越远,科研事业一直是依靠公共资金推动的,需要更多的宣传和普及,才有可能获得更大的支持。开放能够吸引更广泛的参与者,更利于推进科研过程,成果数据也更容易被发现和交流,并能降低获取成本,这是它带来的直接好处。通常认为,开放科学它包括开放数据、开放代码、开放方法、开放同行评审、开放存取和开放教育资源等各相关领域的开放运动,伴随有一整套原则和做法。其中开放存取(开放出版)、开放数据(及方法可验证)和大众科学(众包模式)是近年来谈论较多的主题。

开放创新则是指企业或机构组织有目的地利用各种知识流入和流出的方式加速创新的各种做法,相比于过去出于竞争的考虑,创新一般只能在企业和组织内部进行,而现在越来越强调利用外部资源或内外结合开展创新,这样常常更有利于企业创新速度和能力的提高。这一方面是因为单一企业越来越难以承受创新的成本和其它压力,另一方面也是因为创新所要求的知识技能乃至特定的资源不太可能在机构内部获得。合作多赢的策略能够加速创新,对企业和整个社会来说具有更大的创新规模,能带来最大的好处。

开放科学与开放创新是针对不同领域的两个不同概念,前者是科研领域,后者主要应用于产业界和社会组织。但它们都是方法论创新甚至是对旧有模式的颠覆,都在更大范围内寻求资源和合作,都需要依靠科技进步,特别是在当今大数据、物联网和人工智能时代,用到最新的信息技术。另外这两者有一定的方法论体系。

除了作用领域不同之外,不同还在于:第一,他们的影响范围也不同:开放科学是指整个科研过程的开放,开放创新可以认为只是一种方法论的创新。第二,他们的衡量指标不同:科学研究历来使用都是公共资金,它通常以整个社会的效益最大化为目标,而开放创新常常是企业组织自身的要求,最终以获取多少利益为衡量标准。第三,他们所采用的基本方法也有所不同:开放科学采用的方法是非常全面的,与科研过程的不同阶段都有关系,随着科研第四范式的普及,基于数据的研究(数据密集型研究)已成为影响所有学科和整个研究过程的最大挑战,各门科学的研究都需要尽快转型和适应;而开放创新虽然有多种模式,但总体上都遵循Henry Chesbrough 在2003年提出的基本模式,即“走出去请进来”。

开放科学和开放创新两者又是密切相关的,有人说科研是将金钱转化为知识的过程,而创新则是将知识变现为金钱的过程。本次会议以这两个概念为主题,是想传达一个明确的理念,即我们现在已经进入一个全面开放的时代,推动社会进步的最重要的两个发动机——科技和商业——都必须依靠开放,获取进一步的发展动力。科学本身就是一项需要不断创新的事业,采用了开放创新理念的科学研究就是开放科学。而且,开放科学的成果不一定就是论文,而可以是各类创新成果,成果的交流方式也已不再是线性的、阶段式的,而是交织的、渐进融合式的。同时,创新本身也是需要有科学方法支持的,开放科学包括很多分领域,如开放数据、开放出版、开放合作(包括开放方法和开放源代码)、开放教育等等,对开放创新也是一种思想方法的来源。评价科学进展和创新成果的方式与指标体系应该与传统方式不同,这方面也需要体现开放性和创新性。

问:谈及开放科学,人们往往能想到开放获取、开放数据、开放同行评审、开放教育资源等,其中开放数据是开放科学的重点,也是图书馆界实践开放科学的主要方向,正如您在大会上的主旨报告标题“开放数据与知识服务——图书馆助力科研转型”,在这方面图书馆有何举措和创新?

答:当我们说到数据,不同的人想到的是不同的东西,可能是文本、表格、图像、照片、公式、分子式、基因结构、科学图谱等等,科研成果中包括大量的此类数据,科研成果的主要形式——论文和报告,其实就是一种数据的集合,其本身也是数据。所有这些数据主要沉淀于图书情报机构的各类知识仓储中,这些又都是进一步开展科学研究的素材,也是开放科学首先需要开放的内容。

当今我们所说的数据,与计算机已经密不可分,大多需要通过计算机来编码、解码、解析、表示、表达、分享、引用、操作,以获得其含义并发挥其功能,所以它通常具有一定的“格式”,有时不能脱离其环境而得到解释(即解码或实现功能),其中蕴涵了我们对大千世界的认识,可以认为是一种模拟(即第三范式)。数据是未来计算机处理信息的主要形式,是企业机构知识资产的主要存在形态,也是科学研究第四范式(即数据密集型/驱动型科研)研究对象的存在形式和基本单位。随着计算机技术的进步和大数据时代的到来,机器处理的对象越来越高阶化、语义化、模型化,直接对现实世界进行模拟,而数据就是现实状态的映射。正如马云所言,数据技术就是IT技术的另一种新的名称。开放科学就是对新环境和新创新模式的一种适应,开放的对象主要就是数据,教育资源也是一种数据,代码也是一种数据,其他都是围绕这些数据的工具、方式、过程、模式等。

图书情报机构以提供知识服务为己任,在纸张时代是通过文献服务的方式实现职能,而到了大数据时代,则主要形式是数据服务了。图书馆最早的知识服务是以书目或文献数据库形式提供的,它们一直是科研数据的基础形式,也是最早的开放数据形式。但仅仅是书目或文献数据是远远不够的,随着数据技术的进步,提供深入到文献内容的内容数据,才能直接介入科研和创新过程,为科研和创新服务。开放数据之所以成为未来图书馆服务的重点,一是因为它与图书馆自身的转型有关,图书馆必须突破文献的藩篱,利用数据技术建立数据服务平台,从数字图书馆进一步转型为“数据图书馆”,这是未来图书馆服务的应有之义;二是因为它体现了未来图书馆的存在价值:必须为开放科学和开放创新服务,通过自身的服务,促成科研的范式转型,从而实现其自身的价值。应该说图书情报机构一直在努力,但实现这两个方面都不容易。

图书情报机构通过自身的数字化转型而助力科研转型的路径大致是这样的:首先在资源建设中根据用户需求突出数字化资源,使得数字资源占据更高的比例;然后通过各种技术平台和工具尽可能提供基于数据的服务,例如在数字人文和数据出版领域广泛采用的关联数据技术等;在此基础上通过各种分析挖掘技术使服务平台更加“智慧”,对图书馆而言就是智慧图书馆建设;与此同时升级检索发现平台为真正的服务平台,融入科研人员的科研和创新过程,并赋予开放科学和开放创新的要素和工具。整个转型过程需要图书情报机构不断进行流程再造和服务创新,例如探索增设新的部门和学科馆员、数据馆员、数字人文馆员等一线服务岗位。转型的过程不是一蹴而就的,需要咬定目标不断调整和探索。

问:除了开放数据之外,图情机构还可以做哪些开放科学相关的实践?

答:图书情报机构支持开放科学运动有很多方式,其中开放存取是最为主要的。机构知识库可以认为是开放存取运动的一部分,其他还有建立或维护学术交流平台,支持自出版、开放出版等,图书馆在其中都有用武之地,图书馆应该成为开放科学和开放创新环境生态的一个重要组成部分。

另外图书情报机构开设创新/创客空间,普及科学知识,消除信息鸿沟,培育信息素养,涉及开放软件(源代码)、开放硬件等等方面,都可以有所作为,还可以在大众科学方面贡献力量,目前许多图书馆自身的工作(如知识组织、分类标注等)也开始采用众包方式,让更多的人参与进来。可以说图书馆就是开放科学和开放创新的普及和实践基地。从这个角度看,各类图书情报机构都可以为开放科学和开放创新做贡献。

问:开放创新以企业实践为主,比如宝洁、谷歌、特斯拉、海尔等都是开放创新的实践者,在企业实践的主阵地,情报可以发挥怎样的作用?

答:科技情报机构和一部分研究型图书馆通常需要承担为企业创新提供服务的职能。作为一种公共服务,帮助中小企业或初创企业获取信息,科技资源、数据、专利、标准、研究报告,各类技能培训尤其是IT(信息化)能力培训等,提供法律和金融信息服务等,乃至作为创业培训基地,都是目前很多图书情报机构正在做的,未来这些工作可以更多引入开放创新的理念与做法,加入到开放创新的洪流中去。

上海图书馆(上海科学技术情报所)陈超馆所长认为,图书馆转型提供创新创业服务的立意和站位应该更加高远,把自己作为创新创业生态系统的重要组成,也即创新创业基础设施的重要组成部分,为创新创业活动提供便利条件。他进一步认为,公共图情机构通常是处在创新链、创业链的起点,可以与市场主体运营的创客空间、联合办公空间、孵化器、风险基金、产业园区等合作联动,成为营商环境的重要元素。公共图情机构完全可以最大限度发挥自身优势,主动积极地去服务“大众创业,万众创新”。

问:图情机构的开放科学与应用与政府部门、商业机构的有何不同?作为国内唯一一家以图情合一为特色的机构,上海图书馆(上海科学技术情报研究所)在实现“开放科学与开放创新”会议中传达的一些理念能发挥怎样的作用?

答:图书情报机构的主要任务是提供对知识的保存、组织和存取服务,帮助研究人员管理知识和创造知识,尤其是应对大数据时代对知识生命周期进行管理的各种挑战,也就从事全方位的知识服务。因此图书情报机构主要还是开放科学与开放创新的使能者,真正的主体应该是政府部门、科研组织和商业机构。

政府倡导开放是应有之义,首先政府信息公开就是一种必须。企业提倡开放是为了更大的发展。开放首先是一种态度,走向开放首先要从改变文化做起,改变目前以成果为导向的科研价值观,多管齐下,还应该注重培养兴趣、吸引参与、宣传推广、普及知识等,包括要关注基础和环境建设及系统性的政策制定,这些都是政府部门和商业机构可以做的。

上海图书馆(上海科学技术情报所)作为国内首家图书情报联合体,承担了全方位的信息服务,几乎包括了各种载体和所有方式,而且不仅为大众服务,同时也为科研和企业服务,因此开放科学和开放创新都是其密切关注的领域。上图情报所主持召开这次会议,以开放科学和开放创新为主题,主要是希望向与会者乃至整个社会传达这样一种理念:即面对未来一切未知的挑战,首先需要确立开放的心态,只有开放才能汇聚所有人的智慧,才能应对无限的可能性。图书情报机构作为知识的集散地、创新的使能者,也是所有开放运动能够依靠的智慧源泉,我们必须首先使自身开放,以开放理念和开放服务,融入到开放科学和开放创新的过程中去,反过来促成自身的彻底变革。

DH2019敦煌会议发言稿

数字人文的学科化与理论化趋势前瞻

(注:本帖为2019年数字人文敦煌年会本人所做的发言,与上海大学wlh老师共同完成。后扩充内容,即将发表,链接后附。引用请以公开发表内容为准。)

我们目前对数字人文的理解基本都是工具性的,即认为数字人文是信息技术在人文科学中的应用。其定义大致分两种: 广义的和狭义的。广义的如维基百科词条:

数字人文(DH)是计算或数字技术与人文学科交叉的学术活动领域。它包括系统地使用人文科学中的数字资源,以及对其应用的反思。DH可以被定义为进行学术研究的新方式,涉及协作,跨学科和计算参与的研究,教学和出版。它为人文学科的研究带来了数字工具和方法,认识到印刷文字不再是知识生产和分配的主要媒介。

弗吉尼亚联邦大学(Virginia Commonwealth University)的David Golumbia认为上述宽泛的解释就是人们常说的“大帐篷”定义,而人们常常内心认同的都是狭义的数字人文,即专指“工具和档案”。他通过美国人文科学研究基金会历年批准的项目中得到印证。

上述两类定义,尽管广义的“大帐篷”定义并不排斥理论研究,但整个数字人文界对于数字人文的理论研究还是不甚待见的。充斥其间的,是Just do it的论调。没错,数字人文是需要做出来,而不是说出来。我们需要在人文学科的各分支领域广泛采用计算机方法,尝试探索、开展培训,让更多的人进入这个领域,让进入的人有所作为,而不只是争先恐后地摘取低端果实。一个领域能不能立住,主要还是要让成果说话,只有这样,才能向世人证明:未来的人文必须是数字的。

但是一个学术领域如果没有一定的理论思考,没有对自己是什么、做什么、为什么做的研究,这个领域是没有内聚力的,也是走不远的。我们如果不知道为什么会相聚在一杆大旗底下,我们就不知道明天还会不会一起,我们更不知道将来会走向何处。

目前的现状即是如此。表面上看起来轰轰烈烈,但只是提供了一个大帐篷底下大家交流的场所而已【现状也未必尽如人意,很多人感到困惑、乏力】。一个有明确创立时间(1949?)和定名背景(2003)的领域,经过70年的发展和近20年的争论,应该说已不算年轻,成立了很多研究中心、协会学会等组织机构,也具备了学术制度所必须的要素,年会与专业会议一片繁荣,各类基金、教育培训计划等基础设施一应俱全,但还在讨论“dark side”,缺乏“范式”或“纲领”,挣扎在理论“贫困线”上,系统建设多于研究成果,论辩口水多于学科创新,学术产出中得到公认的重大成果基本没有,甚至连从事数字人文的人都不认可数字人文是一个学科,没有形成系统的专业教育体系或职业培训制度。这其实就是我们目前的现状。

一、数字人文属于什么人文?

“人文”一词在我国与众多的其他现代概念一样,是一个舶来品。大约是“五四”运动前后与“德先生”“赛先生”一起引入,被称为“胡先生”,即“Humanism”,只是没有前两位先生有名。与之相关概念有许多,如人文学科、人文科学、人文主义、人文精神、人文素质,以及人道主义(曾经是Humanity的一种翻译)、人本主义等,非常容易混淆,不仅因为含义相近,而且对同一个名词会有许多不同的理解,由于历史的、文化的或语境的原因,造成十分复杂的内涵差异,以至于带来很多理解上的困惑。这对于数字人文的讨论也是十分不利的。我们如果不能对这些概念的前世今生、前因后果和同形异议的情况有一个基本认识,恐怕很难准确把握数字人文的丰富内涵,也很难探究其未来发展。

数字人文中的人文(The Humanities),一般都用作复数形式,是对于各门具体人文学科的总称,主要用于教育学中对教学科目的分类,目的是在教育机构开设相应主题的课程,以提高被教育者的人文素养和人文素质为目的,定位于人文学科的课程建设和教学。

人文科学(Humanity Sciences)则是从哲学的高度对包括人文学科和人文主义在内的人文活动原理进行系统研究的理论体系。人文主义(Humanism)属于思想史范畴,同类概念还有人道主义、人本主义、人文精神等,表现为社会思潮、思想立场和主张等。

尤西林认为人文学科、人文科学和人文主义三类概念不能混淆,更不能互相取代,但它们总是密切相关。人文科学不能代替人文学科的(教育)功能,而依赖于人文学科来发展和阐扬人文科学,同时人文科学所具备的精神不可避免地具有人文主义的价值立场。

数字人文作为各门人文学科应用了数字技术之后产生的新形态,其实就是“人文学科”的延伸和发展,是多门学科共同构成的一个新领域。它既根植于传统的学科(至少目前是),又共同形成一个以“数字技术”作为方法和工具的纽带(是否只是工具方法呢?下文讨论)。数字人文将人文学科也带入了数据驱动型或数据密集型时代。

数字人文是否已经形成一个“科学共同体”了呢?虽然数字人文来自于“方法论共同体(methodological commons)”,但它是否能够作为单数的“数字人文”而存在?也就是说是不是能够作为或形成一门独立的学科?目前争论很大。这需要从三个方面来考察:1.历史的角度;2.“科学学”(或者科学哲学)角度;3.未来发展的角度。

二、数字人文与古典人文是一个东西吗?

从历史上看,人文科学是一切科学之母。从古希腊罗马的七艺(),到中国春秋时期士大夫的六艺(),以及被孔子“学科化”而成为“儒家”六艺(),就反映了当时人类对于自然、社会及自身的认知的总和,并总结为教化人类自身所需的必备素养和学科体系。当然当时只是为了教育贵族子弟或“公民”,下等人和奴隶是不包括的。

据文献记载,汉语中的“人文”最早出自《周易·賁bi卦》:“刚柔交错,天文也;文明以止,人文也。觀乎天文,以察時變;觀乎人文,以化成天下。”这段话引用颇多,当然也有不同理解。中国“人文”本意是以天道信仰为原则而进行礼仪教化,旨在规范人,与西方人文意在解放自然人欲,虽然有很大不同,但总体而言,天人相对,以求致知而达和谐,是相通的。

人文思想到了现代,其内涵和功能有了很大的不同,从主流价值观和意识形态,及其构成的学术形态,蜕变为对现代化的回应,在以印刷术普及为滥觞的五六百年科技和工商业高歌猛进之后,完全呈现为一种防守的态势。在学术与教育思想中反映为人文学科与人文科学与自然科学、社会科学相区别而并列的关系。这一区分是现代化之后才形成的,可以看成是古典人文学科经过现代化而发展、分化所致,因此其内涵与古典人文学科有了很大不同。

现代人文发展到数字时代,更是退化到只见树木不见森林,只有方法而没有灵魂了。

三、人文学科是科学吗?

古典人文与现代人文的最大不同,来自于人们对科学的崇拜,即认为现代人文尚未完成科学化过程。这其实是现代主义对“科学”的一种解释。科学是什么?从库恩、波普尔,到拉卡托斯、费耶阿本德,科学哲学从来没有说清楚科学的本质,因为所有的判断都有反例。这也是在现代性体内长出的后现代特质。

【科学哲学,以及依据科学哲学考察的人文科学】

本意为复兴古典,却带来了现代。科学主义和工业革命一方面给人类社会带来了巨大变化,造就了当今人类的“幸福”生活,另一方面却又戕害了人性,使得人文精神在喧嚣和冷冰冰的大众传播中迷失,社会分工和知识的专门化导致专门家泛滥而真正的知识分子频临灭绝。这都是现代性造成的直接后果。

四、数字人文是工具还是本质?

“数字人文”这个概念的产生,固然是工具论背景的:帮助人们更方便地从事人文研究,而提供索引工具,进而提供基于数据研究或数据驱动型研究的所有设施:资源、平台、工具、方法,一切都是数字化的。

【方法论共同体图】

数字人文的未来具有远超学术研究的广阔天地,当所有的人类活动都基于数字技术时,“数字肥胖”将会是一种普遍的社会病,所有的人文现象都将成为各门人文学科研究的对象,人文科学也将由此得到丰富和发展。数字生活带来的很多新的文化现象,将产生数字现代主义的世界观和价值观。

以网络文学为例,作为一种数字人文现象,既不同于传统文学,又区别于数字人文的学术研究,具有极其丰富的学科内涵,目前暂且可以归入数字文学这一学科门类。而对于其上位学科–数字人文而言,是应该从文学理论角度进行研究呢,还是应该研究其如何助力文学创作?或者这两者无法区分,只好兼而有之。

网络文学从一开始就呈现一种碎片化、新媒介的书写方式,从第一代痞子蔡、安妮宝贝、李寻欢、宁财神等开始,就掀起一种革命性的风潮,发展至今更是丰富多彩。他们的作品多以超文本和网状/非线性、用户交互/协商式情节推进等为特征,在叙事方面也更加后现代,如玄幻、穿越、耽美,无怪不可,做了大量的探索,而且充分利用网络平台的参与性,创造了催更、打赏、接龙等方式,自动筛选出更受欢迎的作品,从而带来巨大的流量,无成本地挖掘出巨大的商业价值。这也使得网络文学与传统文学在理论上分道扬镳,诞生很多超级长篇的作品,永远不可能原样印刷,当然也出现了大量的“太监文”,以及为传统卫道士所不齿的“低俗性”(同人、攻受、鬼畜…)。

其实数字艺术的诸多门类,都存在这种现象。数字莫扎特可以让莫扎特专家难分彼此,数字油画也能唤醒人类心中的艺术激情,数字艺术正在挑战我们对于人文的认识和定义。

按理说艺术作为人类创造力的体现,其创作最具有独特性,似乎只能来自于人类自身的生命体验,取之于人而又被人欣赏,机器(人工智能)似乎是永远无法体会其中的情感和感染力的。而现实似乎正好相反,不仅在绘画、音乐领域,甚至在文学创作方面,完全由计算机程序通过机器学习方式创作出的作品,也越来越能够被人接受,远不是那种粗制滥造或简单拼凑所能解释。机器油画作品已经拍卖出高价,SONY的流行歌曲已经获得非常不错的好评分数,而小说作品完全能够模仿大作家的写作风格和哲学观念,按照一定人群的喜好铺设情节,出品传世佳作。

时至今日,可能还有很多人无法接受数字艺术内容的广泛性和丰富性、以及呈现形式的多样性,但已经没有人能够否认其深刻性和颠覆性了。再以网络文学为例,近年来一些优秀的写手早已不满足浅薄地感官写作和欲望叙事,而直指数字现代主义的无人区,以后现代主义解构一切被广为接受的理论,不断向纵深挺进。沿袭金庸一代开辟的武打文学,英雄长成类作品一直是颇受欢迎的题材,但个体生命在设定宏大背景中的特殊意义,自我与规则的致命冲突中所呈现哲学思考,赋予了作品更深刻的内涵。如《间客》的作者猫腻把康德著名的“星空与道德律”作为卷首语,使康德哲学成为作品中的草蛇灰线;在《朱雀记》中佛主开悟而得出众生皆苦的结论,于是死具有了合理性,而主人公易天行拒绝赴死的抗争也具有了尼采般的英雄主义色彩。这些都使其从后现代的批判和否定中汲取营养,反过来极大地丰富了数字现代主义的内涵。

当数字作用于人文,其所起到的变化应该不是如烹饪中采用了更好的刀具、甚至电动刀具,将食材切得越来越细这样的变化,而是超越了工具甚至方法,将食材腌制、发酵、分解甚至腐烂,更多的时候甚至是把以前不能纳入食材的东西纳入进来,绝不是我们表面上看到的切割形态上的变化,由于有了加工方式的不同,使得装盘呈现的方式也成为其一大特色,造成其最终目标不是为了食客果腹,而是艺术欣赏。久而久之对人的营养结构和文化习俗都会产生变化。这样来看,数字技术所起到的作用远不是物理变化所能涵盖的,而是一种化学、生物、文化的变化,是一种质的变化。

五、超越数字人文

现代主义提供了数字人文兴起的一个深色背景,更具颠覆性的后现代性孕育其中,使数字人文的未来充满不确定性。

发端于启蒙运动的人类现代化过程成功地造就了现代文明。现代性最重要的内涵就是宗教的衰落,启蒙精神的兴起。启蒙精神强调人类理性的重要性,相信凭借人类的理性,可以探究客观世界的真理(笛卡尔:我思故我在),未来是确定的,世界是进步的,找寻规范人类行为的普遍原则,建立公平正义尊重人类尊严的社会,达成对人性和美的终极追求。然而人类发展到后现代,这一切就不是顺理成章的了。
20世纪末兴起的信息革命变本加厉,逐渐赋予人类以几乎超越上帝的能力:改造生命、攫取智能、模拟情感、监控社会,(尼采:上帝死了)人类的欲望可能以更大的规模和范围得到释放,人文主义信仰受到前所未有的威胁。试想,如果我们能够任意编辑生命,甚至像科幻电影中描述的那样,通过体外子宫工场大规模生产人类,科技将能够生产超级人类,我们无需通过婚姻而繁衍后代,机器伴侣也会大行其道,我们的人性该如何定义?我们的伦理道德将会如何发展?是不是人文主义应该扩展为“后人文”(万物平等的泛人文主义),或者退缩为被AI消灭的过时的意识形态?这才是数字人文应该研究的硬核内容。作为现代性的后果之一,后现代即是对现代性的鄙视和摧毁,又蕴含了对古典的呼唤。虽然它无法脱离现代性而独立存在,甚至更多地是一种共生的关系,但却是一种反思、弥补甚至强化。

数字化网络化使现代性登峰造极,而数字人文可以作为一种逆动,成就一种后现代主义。因此,我们不能把数字人文仅仅看成是一个学科领域,而包含了非常丰富和复杂的意义。它首先是一个后现代运动,其次是一种信仰,然后才是一个学科领域和理论学说。

人文科学主要提供思维模式和价值取向,其有古老的一面,即继承自古典人文的基本内核,又有新生的部分,即与自然科学和社会科学抗衡的理论解释。因此它既古老、又年轻,即具有前沿性和探索性,又具有继承性和系统性,虽然面临式微和边缘化,但在人类遭遇危机、困惑或迷失时却成为依靠和灯塔,展示着强大的生命力。

南大428会议小结

很荣幸参加“比较视野中的数字人文反思”学术研讨会。本次会议的两个主题词“比较”和“反思”显示了本次会议比以往的进步。之所以能够比较,归功于本次会议邀请到了三位国外的学者,而需要进行反思,说明我们走得很快,也该停下来想一想了。
十一个发言,涉猎了DH相关的十一个主题词:

  1. 学科建设
  2. 项目组织
  3. 发展前景
  4. 文化记忆
  5. 方法转向
  6. 极简主义
  7. 馆藏再现
  8. 历史地理
  9. 教育实践
  10. 学术交流
  11. 数据设施

最后还有东道主陈静老师,提到了“范式差异”,以及我们如何去做。

会议讨论非常热烈,涉及了几乎DH的所有方面,也提出了更多的问题。我就用更多的问题来总结吧,希望我们下一次开会继续争论。

  1. 数字人文的理论虚无主义是有利的吗?单靠数字(Just make it without thinking)真的能振兴人文吗?
  2. 数字人文的定义一定是排他的吗?大帐篷下不能有小桌子吗?
  3. DH真的已经胜出了吗?前景一定是乐观的吗?What will be left for DH when every Humanity becomes digital?
  4. 人类记忆依靠技术平台是能够长期可持续和经济的吗?
  5. 观念史的数字转向如何保证模型的可靠和有效?
  6. 技术进步是如此之快,如何选择合适的技术?如何让望远镜和显微镜不仅看到原本就有的事实,还能看到新的事实?
  7. 数字呈现在DH中与收集、建模、保存、利用是怎样的关系?花多少钱比较合适?
  8. 大家都需要的GIS平台何时能实现?每个人可以如何贡献?
  9. DH专业教育如何振兴?特别是国内,如何体制化?
  10. 数字学术交流如何更学术、更创新?
  11. 如何建设通用DH的计算设施平台服务?
  12. 东西方数字人文的差异是一种中国特色吗?应该强调还是应该淡化?

本次会议扽主题“比较视野的数字人文反思”其实刚刚开始,恭逢盛事,深感荣幸。我这里代替东道主先要感谢一下 远道而来的Simon、Roopika、Alex,使我们的主题具有了现实性,许多相同的问题让我们感同身受,不同的思考和解决方案也给我们带来了新鲜感,很有启发。

从大家的笑脸我可以感到,这是一次成功的大会,胜利的大会,我们东道主大老板及她的团队付出了辛勤的劳动,表示感谢。期待我们有下一次研讨会,更期待我们能形成一定的共识并开展一定的合作。

只有我们一起努力,DH的未来才会是真正乐观的。让我们共同努力!

人工智能与科技情报工作

本文为《竞争情报》杂志2018年5月的一次访谈内容,最终版本请参阅该刊。

问:在SCIP2017年的年会上,美国人工智能研究所(AiAi)主席Al Naqvi先生提及了这样一个观点“人工智能属于战略部门而非技术部门”,您如何看待这个提法?

答:这种认识在当下有一定的道理。对于一些颠覆性技术,首先需要把握它的宏观战略影响,才能制定合理的措施加以应对。但是对人工智能必须认识到它既有战略层面的影响,又需要有战术层面的布局。就像工业化的起步,一开始的影响并不是全方位的,而只是在某些行业领域、或一些行业的某些环节带来颠覆,然后再扩展到整个产业链,乃至人类社会生活的各个方面。

不懂得AI的战略意义,就无法从10万米高度看清形势,无法做到及时转型和布局;不懂得操作层面的影响,就不知道从何入手,战略决策也将成为空中楼阁。对于情报工作而言,人工智能带来的战略影响是全局性和根本性的,因为情报工作本身就是一种信息过程,从情报的搜集、处理、归纳、分析、整理,在一定的框架内得出结论或提出建议,指导决策或带来行动,无一不是一种智力劳动的结果,人工智能从原理上来说,除了带有情感的、需要人情练达或创意审美的“创造”还无法做到之外,只要是客观的、“科学的”和可重复的过程,假以时日,应该都能解决。从战术层面来说,目前还处在弱人工智能(Artificial Narrow Intelligence,简称ANI)的发展阶段,情报过程的局部过程或部分工作交给机器来完成,已经毫无问题。当前计算机视觉、自然语言处理、自动翻译、语音识别、数据挖掘、文本处理与分析、名称实体识别、自动摘要和报道、自动舆情监控等相关技术已日趋成熟,完全能够应用于情报工作,极大地节省人力并提高效率。

问:管理层通常只愿意为当下的利益买单,设想如果您是一家尚未真正开始考虑人工智能的机构中的战略或情报专家,您如何说服管理层更多地考虑人工智能对公司的影响,并及早对此作出应对?

答:当前的智能化浪潮很容易让人联想起20多年前开始的信息化浪潮,情形十分相似。当时有个说法:企业不信息化(如采用ERP+CRM)要死,而(不合适的)信息化可能死得更快。当时针对普遍采用的ERP(企业全资源管理系统),产业界有人提出一个“三分论”,即三分之一的ERP能用,三分之一修修改改勉强能用,还有三分之一是彻底失败。当初上马一套ERP系统的平均成本是数千万到数亿美元!失败导致的后果常常是一蹶不振甚至最终黯然离场。主流经济学理论对信息化的解释都认为其本身并不具备很好的投资回报率(ROI),但当大家都开始用信息技术进行流程再造时,不进行信息化肯定死路一条。当前智能化浪潮正席卷而来,如果把工业化当作人类体力的延伸的话,智能化才是真正的人脑延伸,当初的信息化还只是智能化的前奏。

对于如何说服管理层,我觉得可以有三条道路:一是多学习AI,了解其能力,通过原理和案例来说服管理者。我们可以看到由于智能分析系统的进步,使得法律助理和证券分析行业已经几乎完全被人工智能所取代,同声传译行业也正在发生同样的事情,这类行业受到人工智能的直接冲击,就是由于相关技术的成熟而直接导致,他们其实都是情报工作的近亲。二是开始着手尝试AI的应用,在搜索查询、跟踪、清洗、建库、编辑、撰写、发布、交流等情报工作流程中各个可能的环节中尝试AI的应用,让事实来说话。一开始肯定会有一定成本,甚至会走一些弯路,但对整个行业来说趋势是明显的,必然会应用到人工智能,享受到巨大的好处。如果管理层实在顽冥不化,则可以祭出终极武器:跳槽到应用了AI的机构里去。

问:人工智能会先影响某个行业吗?还是人工智能将同时为所有行业带来变革性的影响?

答:新技术的开端从来都是不均衡的,人工智能一定会在某些行业,或者某个行业的某些“工种”得到应用,然后再波及整个生态或产业链。科幻作家威廉吉布森(WilliamGibson)曾有一句名言:“未来已来,只是尚未流行而已”。人工智能就是一种“弥漫性”、“基础性”技术,它的影响不是局部性和行业性的,它甚至会对人类社会产生根本性的影响,已经引发关于对人类未来命运产生影响的哲学性思考。

当前人工智能取得重大进展,各类投资蜂拥而来,有人认为我们已经彻底告别了曾经经历了两次的“人工智能之冬”。无论这种乐观是否有足够的依据,我们都必须清醒地认识到,当前人工智能的突破并不是全方位和无条件的,而只是由于在计算机硬件性能得到高速发展和移动网络应用造就大数据随处可得的背景下,以深度学习为代表的人工神经网络取得了实质性的突破,带来计算机视觉、语音识别、机器翻译等认知计算领域的突破,至于为什么会造成如此突破,计算机科学家也莫衷一是,目前还被认为是一个“黑箱”,缺乏让人信服的理论解释。计算机科学家还在寻找机器学习的终极“圣杯”,这个过程应该不是短期内所能完成的。

在可能受到人工智能直接影响的行业中间,情报工作是一个很有意思的实践领域,它一方面由于其“尖兵”和“耳目”的作用历来被高度重视,另一方面由于内容领域的广泛性和方法工具的动态复杂性而一直“找不到北”,一直徘徊于许多相关理论和学科的边缘或末梢,唯一的应对措施是必须尽快地适应。这也可能是它的宿命。当前在人工智能背景下“智慧情报”的概念被适时地提出,即要求情报工作更多地采用基于大数据的分析过程,并在工作流程上更多地应用群体智慧、团队协同,以及自动跟踪、处理、预警和报告的方式,建立数据驱动/数据密集型的情报过程,并发挥模型、工具和算法的优势,是“智慧情报”的两个关键环节。这就不是过去以个人或小团队的作坊式的工作方式,以及基于不完全情报的“顿悟”过程所能够实现,这也使得情报工作有了更高的门槛。当然这个过程也不是一蹴而就的,过去的情报经验在建立模型、开发工具和实现算法方面需要发挥重要作用,并且会经历不断实践和“试错”的过程。

问:您如何看待人工智能改变关于隐私的话题?您是否担忧这可能会成为一个问题?

答:关于隐私,李彦宏的一句话虽然无良但却真实:隐私可以换取便利。人工智能是建立在海量获取数据的基础上的,人的智慧也是建立在大量认知的基础上,未来的个性化医疗、精准化服务,无一不是建立在放弃一部分隐私基础上的,所以问题的关键并不在于隐私的使用,而在于隐私在使用过程中如何能够得到有效的保护,是否有严格的法律及监管体系,能否对于隐私侵犯行为施以严刑峻法,才是我们这个物欲过度、道德不足的跛足社会应该认真考虑的问题。

隐私问题的受害者是普通用户,然而现在却总是成为业界大佬们相互攻奸的利器,例如最近华为与腾讯为隐私实践而起的冲突,这本身就是一个非常不正常现象。法律和政策的制订者不能代表弱势的普通用户发声,不能为真正的受害者伸张正义,而沦为资本的代言人,就永远没有公正可言,隐私问题也将永远是个问题。

问:普华永道(PWC)的一份研究报告称,人工智能将在2035年之前将许多发达国家的经济增长率翻一番。您是否同意这些经济收益会使全球性的发达国家和发展中国家之间的不平等变得愈加严重?中国如何能在这场人工智能的变革中不落伍?

答:人工智能一方面使不发达国家的劳动力优势不复存在,另一方面也使国民素质对于经济发展的影响力降低,因此,在帮助发达国家发展经济的同时,AI也缩小了不发达国家在生产要素方面的劣势。究竟哪个因素起到更大的作用,目前还很难察觉和下结论。

中国迄今在人工智能领域虽然并不处于第一梯队,但进展还是可圈可点、并不落伍的,一方面有一流的互联网公司高度重视这个领域并大量投资,常常能招募到美国顶尖的人工智能专家和团队;另一方面有国家从战略高度政策扶持和产业倾斜。应该说在人才、资金、市场等方面都没有问题,最大的问题是观念的开放性和对研发规律的认识。

在开放观念方面,人工智能从长远看是一个赢者通吃的领域,因此大家除了在技术上尽快取得突破之外,一旦有了一定技术优势,都极尽全力把尽快占领市场看成是高于一切的竞争策略,而只有足够开放,例如充分利用开源,才能迅速聚集更多的第三方力量并最终获得最大的市场占有率。因此这个领域进行技术竞争时很重要的是必须放弃急功近利和零和思维。国内的人工智能公司在一个封闭的市场中往往表现得封闭和急功近利。

在对于人工智能研发的政策扶持方面,我们常常习惯于傍大款、服从马太效应而不是营造公平的竞争环境,政府在支持基础研究方面的角色也常常被忽视,而更多地把公共资金直接投入到所谓“有前景”的公司,使得这些公司不思进取,甚至起到了助纣为虐的作用。

人工智能是一项具有全局意义的颠覆性技术,与全球变暖和核武器技术一样,处理不好甚至会危及到人类自身的生存和发展,因此我们必须依靠全人类的合作才有赢的希望。就像习总书记所说,我们是同一个人类共同体中的成员,和则两利,斗则俱伤。

FOLIO年度进展回顾(视频)

1月最后一天FOLIO网络会议回顾了年度进展,2018年社区取得了很大的发展,开发者人数、活动参与人数都翻倍增长,发展势头良好。

以下嵌入视频,可以打开中文字幕(自动翻译)。

主持人:Laura Wright, University of Colorado Boulder
访谈嘉宾:Christopher Spalding (EBSCO),Michael Winkler (OLE)和Sebastian Hammer (Index Data)

21位DH学者谈数字人文

值得一看的一组视频,带中文字幕。需科学上网,工具自备。

My Digital Humanities – Part 1: https://www.youtube.com/watch?v=I8aRtHW3b6g

Stéfan Sinclair – McGill University, 
Geoffrey Rockwell – University of Alberta, 
Laura Mandell – Texas A&M University, 
Bryan Carter – University of Arizona, 
Claire Clivaz – Swiss Institute of Bioinformatics, 
Bill Endres – University of Oklahoma

My Digital Humanities – Part 2: https://www.youtube.com/watch?v=WdSTQwI5Qz4 

Toma Tasovac from the Belgrade Center for Digital Humanities who gives his own definition of Digital Humanities. In this video, Toma addresses both sides of the Digital Humanities coin. On the one hand, he argues that DH runs the risk of becoming a ‘decontextualiser of the traditional humanities turning everything into conveyor belt scholarship’. On the other hand, he believes that DH enables deeper and more meaningful engagements with our (digitised) cultural heritage in ways and forms that were not available before

My Digital Humanities – Part 3: https://www.youtube.com/watch?v=FAODJW5ytd0 

Kenneth Price (University of Nebraska), 
Elena Pierazzo (Université Grenoble Alpes), 
Elli Bleeker (University of Antwerp), 
Patricia Murrieta Flores (University of Chester), 
James Cumming (University of Oxford)

My Digital Humanities – Part 4: https://www.youtube.com/watch?v=iLqEkXvhPu8

Roderick Coover (Temple University),
Angel D. Nieves (Hamilton College), 
Kathryn Sutherland (University of Oxford), 
Marjorie Burghart (Centre National de la Recherche Scientifique),
Paul Eggert (Loyola University Chicago)

My Digital Humanities – Part 5: https://www.youtube.com/watch?v=4Pvi2J61P0g

Joris van Zundert (Huygens Institute for the History of the Netherlands)
Graeme Earl (University of Southampton/King’s College London)
Mathew Vincent (Bruno Kessler Foundation) 
Federico Meschini (Tuscia University).