旧文重温:情报检索语言脱胎换骨的六点议论

令人尊敬的侯汉清老师,我国索引学和情报语言研究的前辈,最近在北 大信管系庆祝建系60周年系列学术报告(感谢“阳光”网友将这些课件传给我)中,以本人的一段博文作为引言和靶子,着实让人有点受宠若惊。

而看完前辈的ppt,又着实有点失望,因为本人的这段话也就用作一个引言而已,侯老师并未就我2005年11月24日博文的具体内容进行任何批驳,为了方便读者,我把具体的六点论述内容剪贴在此(请大家原谅网络语言的“暴力倾向”):

1.编撰、修订的机制和方式已经不合需要了;一个标准规范的生命力在于给大家带来方便、带来价值,网络时代的技术一要简单、门槛低,二要民主、人人 参与。什么叫权威?权威不是少数人关起门来说的,而是敞开门由大家在实践中评判的。由少数人把持的东西只有逼着大家说拜拜,如果你想做贡献而不得其门而 入。这种东东是没有生命力的。

2.技术背景和应用环境变了,应用目的肯定有所不同,特别是对于Web环境下的信息系统,想要起到规范控制的作用,设计思路一定得跟着变。现在早已 经不是靠索引”引得”文献的时代了,现在”基于内容的检索”遍地开花(全文检索实际上就是一种基于内容的文本检索),”微内容”时代已经到来,我们如果仅 仅局限于用分类主题词表产生和规范索引,几十年如一日地把它当作标引辅助工具,而不能把它作为内容”导航”和自动链接的工具,毫不奇怪这么好的东东将不名 一文。

3.与第一点相关的,开放开放还是开放问题。据说搞了个电子版,然而是个极其封闭的独立系统,甚至在Windows环境下只能通过”复制-粘贴”进 行规范标引,这算什么?!据说如果我人工将其输入,建立XML格式(或RDF/OWL)的分类主题词表还算侵权?是不是有专家能够给我澄清一下,我如果用 其中多少巴仙能够算”合理使用”?或者我修改其中多少巴仙的内容就算没有侵权?这个东东要给大家用,才能普及,不要管别人用得好不好、规范不规范,让大家 随意使用、任意改造、评点,如果大家用你,你应该认为是看得起你,感到高兴才是。不要关起门来自我陶醉,门槛高高,死路一条。

4.我们的分类主题词表要适应网络时代的要求,在设计原则和技术方面可能也可以进行许多改进。传统中我们不满足于分类主题词表体系庞大难于应用,同 时又难以对具体学科有专指度很高的应用,很难扩展,我们可以开发一定的工具在网上供人调用、辅助标引(就像现在的PiggyBank插件集成了本体的插 件,简单点就像网摘软件支持Tag标注一样),并考虑建立一种开放的自行扩展、维护的机制,例如某些行业领域的自行扩展应该能够公示从而有利于词表的复用 和重用(例如可以通过在网上公开应用模型和编码格式,开放讨论等方法)。

5.包括分类法、主题法、知识本体等各类具有一定规范的知识组织体系是数字图书馆建设的重要依据和标准,特别在一些需要规范的信息系统/数字图书馆 中,例如需要地名、历史纪年规范的家谱数字图书馆或地理信息应用系统、需要植物类属关系、物质命名、生物基因工程的数据库等等,甚至社会科学的研究和资料 库、知识库的建立也很需要规范的主题、事件词表。而我国在这方面的成果并不是很多,应该考虑一方面利用现有成果,同时拓展领域,使我们的核心能力发扬光 大。

6.现在不光要有电子版,更重要的是应该有网络版。网络版可以实现很多Web2.0的功能。应用工具也可以任由第三方开发。将有望形成一个图书馆方 法复兴的局面。其实在国际上将图书馆学传统的规范控制方法应用于网络数字信息已经做得非常先进了,例如NKOS的许多努力,其中作为NKOS主力的曾蕾目 前还Chair了FRSAR(主题规范记录的功能需求)(见 编目精灵博客文章 ),我们要学习的话还有现成的老师。我不知道我们是否能在这些方面作些什么。

侯老师在ppt中引证了众多的网站或项目,应用规范控制的思想方法组织信息资源,或者在这方面进行探索研究,实际上并不能证明传统的分类主题词表在继续发 扬光大。一则是因为网络信息资源组织所采用的规范控制方法,必须脱胎换骨,从体例、形式甚至思想方法上已经不是传统的分类法和主题词表了;二来相对于目前 数字信息的指数级增长,采用规范控制的网络资源是微乎其微、越来越可以忽略不计的。目前的信息世界所展示出来的图景,远没有在信息社会前夜、以图书馆为主 的信息世界那样有序。

近年来侯老师带领他的团队,一直在致力于情报检索语言的计算机化,在传统情报检索语言的本体化、信息资源组织的可视化等方面成果甚丰,我是非常关注的,也从中学到了很多东西。我知道侯老师以我的话为靶子,最终目的也是与我一致,就是把传统的图书馆对于知识信息的规范控制思想和方法,应用到数字资源和网络环境中去。我们需要更多的人参与这个领域。这个领域实际上是图书馆学中为数不多的“硬东西”,我虽然势单力薄,也矢志在这个领域多多努力,如果能给大家多作靶 子,被砖头拍死,被唾沫淹死,也心甘情愿。

3 Responses to “旧文重温:情报检索语言脱胎换骨的六点议论”

  1. 能被情报检索语言的领军前辈点名,即使是作为靶子,也很值得啊!侯老师从80年代起提出和引导的检索语言的几个“化”使我终身受益,他现在所致力的工作也是走在最前沿的,与国际上很多努力相似。我期望着这次的讨论能够达到如K师在最后一段所说的目的。需要说明的事,传统词表的改造和再利用是很有必要的,(如ppt中提到的我汇集的一些例子),但这只是一个部分,因为它们不应只是用于文献标引和检索的语言,而应成为用于知识组织的体系(KOS),至少是对KOS起到提供基础词汇和此间关系的作用。在网络环境下KOS的一个关键的转变就是不能以固定的一个词汇为一个目标整体,也不能以一条记录(record)作为基本单位,就像元数据一样,应该以data为基本单位,这样才能做到灵活的组合,多方面的利用,分享、结合与再结合。当每一个name or subject authority data(不管是什么形式)是以它*是什么*为代表,而不是以它*叫什么*为代表时,这些才能实现,而这又必须有网络技术条件的支持,比如根据XML/RDF标准,用URI来代表每一个data,则可以让其在网络中不论到哪里和怎样被使用都保持原本的语义,将知识组织的功能渗透到对大量无序的网络资源的组织和利用之中,并且减少同一水平上的重复劳动或者是价值不大的劳动。在下一代语义网中,本体和其他KOS仍然是一个瓶颈,一方面我们还需要有很多KOS的新生、再造,互补、组合,特别是专门领域;另一方面或许更需要像大众分类(folksonomy)和社会标签(social tagging)这样的自下而上的方式来改变生成和修改管理KOS的方式。我也期望与K师与侯师携手,共同努力。

  2. 补充一句:技术上讲,网络环境下的知识组织系统(NKOS)是计算机可*懂*的,而不只是计算机可*读*的,这一字之差其实很关键。K师05年的博文好像正是因为见到的是一个机器可读的产品。实际上使用现在的编制工具,传统的词表也都可以在*形式上*改变成不同的编码,例如使用Data Harmony可以将词表输出为多种格式,包括RDFS+RDF, XML, OWL, 和SKOS. 不过在本质上和结构上,这还是不同于本体。(关于本体也有太多的定义,很多时候也不正确,还值得讨论。)

  3. 如果说机“读”的,其实MARC和XML并无本质不同,而要机“懂”,就目前的技术来说至少是基于RDF的(当然就包括RDFS, RDFa,OWL, OWLS等),恐怕SKOS也必要以RDF来编码才行。但是从道理上来说,只要符合RDF的抽象模型,编码未必用RDF/XML。
    机“懂”并不是说一定具有人工智能,只是保证了计算机能够处理一定的逻辑关系(目前恐怕只能是等同、包含等描述逻辑或框架逻辑支持的几种,任何“相关”关系都需要严格的约束),虽然这样,让现在的人们接受这一点,还必须在大脑中完成“Paradigm shift”才行,RDF与XML是如此的不同,很多人都难以想象。

Leave a Reply




*