旧文重温:情报检索语言脱胎换骨的六点议论
令人尊敬的侯汉清老师,我国索引学和情报语言研究的前辈,最近在北 大信管系庆祝建系60周年的系列学术报告(感谢“阳光”网友将这些课件传给我)中,以本人的一段博文作为引言和靶子,着实让人有点受宠若惊。
而看完前辈的ppt,又着实有点失望,因为本人的这段话也就用作一个引言而已,侯老师并未就我2005年11月24日博文的具体内容进行任何批驳,为了方便读者,我把具体的六点论述内容剪贴在此(请大家原谅网络语言的“暴力倾向”):
1.编撰、修订的机制和方式已经不合需要了;一个标准规范的生命力在于给大家带来方便、带来价值,网络时代的技术一要简单、门槛低,二要民主、人人 参与。什么叫权威?权威不是少数人关起门来说的,而是敞开门由大家在实践中评判的。由少数人把持的东西只有逼着大家说拜拜,如果你想做贡献而不得其门而 入。这种东东是没有生命力的。
2.技术背景和应用环境变了,应用目的肯定有所不同,特别是对于Web环境下的信息系统,想要起到规范控制的作用,设计思路一定得跟着变。现在早已 经不是靠索引”引得”文献的时代了,现在”基于内容的检索”遍地开花(全文检索实际上就是一种基于内容的文本检索),”微内容”时代已经到来,我们如果仅 仅局限于用分类主题词表产生和规范索引,几十年如一日地把它当作标引辅助工具,而不能把它作为内容”导航”和自动链接的工具,毫不奇怪这么好的东东将不名 一文。
3.与第一点相关的,开放开放还是开放问题。据说搞了个电子版,然而是个极其封闭的独立系统,甚至在Windows环境下只能通过”复制-粘贴”进 行规范标引,这算什么?!据说如果我人工将其输入,建立XML格式(或RDF/OWL)的分类主题词表还算侵权?是不是有专家能够给我澄清一下,我如果用 其中多少巴仙能够算”合理使用”?或者我修改其中多少巴仙的内容就算没有侵权?这个东东要给大家用,才能普及,不要管别人用得好不好、规范不规范,让大家 随意使用、任意改造、评点,如果大家用你,你应该认为是看得起你,感到高兴才是。不要关起门来自我陶醉,门槛高高,死路一条。
4.我们的分类主题词表要适应网络时代的要求,在设计原则和技术方面可能也可以进行许多改进。传统中我们不满足于分类主题词表体系庞大难于应用,同 时又难以对具体学科有专指度很高的应用,很难扩展,我们可以开发一定的工具在网上供人调用、辅助标引(就像现在的PiggyBank插件集成了本体的插 件,简单点就像网摘软件支持Tag标注一样),并考虑建立一种开放的自行扩展、维护的机制,例如某些行业领域的自行扩展应该能够公示从而有利于词表的复用 和重用(例如可以通过在网上公开应用模型和编码格式,开放讨论等方法)。
5.包括分类法、主题法、知识本体等各类具有一定规范的知识组织体系是数字图书馆建设的重要依据和标准,特别在一些需要规范的信息系统/数字图书馆 中,例如需要地名、历史纪年规范的家谱数字图书馆或地理信息应用系统、需要植物类属关系、物质命名、生物基因工程的数据库等等,甚至社会科学的研究和资料 库、知识库的建立也很需要规范的主题、事件词表。而我国在这方面的成果并不是很多,应该考虑一方面利用现有成果,同时拓展领域,使我们的核心能力发扬光 大。
6.现在不光要有电子版,更重要的是应该有网络版。网络版可以实现很多Web2.0的功能。应用工具也可以任由第三方开发。将有望形成一个图书馆方 法复兴的局面。其实在国际上将图书馆学传统的规范控制方法应用于网络数字信息已经做得非常先进了,例如NKOS的许多努力,其中作为NKOS主力的曾蕾目 前还Chair了FRSAR(主题规范记录的功能需求)(见 编目精灵博客文章 ),我们要学习的话还有现成的老师。我不知道我们是否能在这些方面作些什么。
侯老师在ppt中引证了众多的网站或项目,应用规范控制的思想方法组织信息资源,或者在这方面进行探索研究,实际上并不能证明传统的分类主题词表在继续发 扬光大。一则是因为网络信息资源组织所采用的规范控制方法,必须脱胎换骨,从体例、形式甚至思想方法上已经不是传统的分类法和主题词表了;二来相对于目前 数字信息的指数级增长,采用规范控制的网络资源是微乎其微、越来越可以忽略不计的。目前的信息世界所展示出来的图景,远没有在信息社会前夜、以图书馆为主 的信息世界那样有序。
近年来侯老师带领他的团队,一直在致力于情报检索语言的计算机化,在传统情报检索语言的本体化、信息资源组织的可视化等方面成果甚丰,我是非常关注的,也从中学到了很多东西。我知道侯老师以我的话为靶子,最终目的也是与我一致,就是把传统的图书馆对于知识信息的规范控制思想和方法,应用到数字资源和网络环境中去。我们需要更多的人参与这个领域。这个领域实际上是图书馆学中为数不多的“硬东西”,我虽然势单力薄,也矢志在这个领域多多努力,如果能给大家多作靶 子,被砖头拍死,被唾沫淹死,也心甘情愿。
Popularity: 35% [?]
Tags: 专业评论, 检索, 知识组织Related posts
情报检索2.0
David比较了‘Analysis of Google Scholar and Google Books‘和“Google Earth Book Search”,认为后者才是比较地道的情报检索2.0。
前者报道了两篇关于Google学术搜索和图书搜索的论文,写得很好,不知道国内是否已经有了抄袭版,关心数字资源建设的馆员们,以及搞类似学术搜索的网站可以参考。后者只是一篇博文,简单介绍了一下GEBS的功能和缺点。当然如果mashup的搜索就能称为情报检索2.0的话,未免也太容易了。
Popularity: 27% [?]
Tags: 2.0, 检索, 读网Related posts
情报检索与知识组织(2月25日修订)- -
对于知识的认识(包括”知识组织”)在古代应该属于哲学领域,如果沾得上边,后来的图书馆学可以算是一门。图书馆学通过管理知识载体来反映知识结构,并促进知识的有效传播和利用。其中的核心内容”分类编目”堪当此任。
纸、泥板、羊皮、竹、石以及电光磁等媒介是知识的有形载体,书籍、报刊、杂志、图片、动画等是知识的媒体类型,图书馆、博物馆、大学等社会组织可算是知识的交流机构,也是知识运动国政中不可缺少的一种形式。研究知识,这些方面都值得研究。
二战以后诞生的情报学(或也可称为信息学)专注于知识的内容–信息,而把知识的躯壳留给了图书馆学。信息论走的更远,认为信息是”不确定性的减少”或”负熵”。从这一点说信息学和情报学可以分道扬镳了。二战以后的 情报学受到计算机科学发展的影响,但还是基本上从人的角度去研究情报的规律,无法对只能机械操纵符号的计算机提出任何”智能”一点的要求。人为了充分利用计算机的高速运算、大容量存储能力,以及准确性,发明了一整套情报检索技术。
从穿孔卡片开始,人类最早的计算机奴隶就叫做情报检索。一直到后来的字词索引、匹配、倒排档等等。
计算机就象是上帝给人类的一个魅力无穷的玩具,真的让人能够像上帝一样思考了(不知上帝是否会继续发笑?还是发怒?),人类依靠它,在几十年的时间里除了破解了数据的奥秘(关系型数据库技术),拓展了应用的疆域(Internet和Web技术),甚至创造了人类更加富足的信息化社会。这也再次证明了知识的力量。
目前计算机具有的能力与我们人类的需求之间的鸿沟越来越弥合。然而我们还是不得不为人机之间沟通制定一些原则和模式,这样机器才能更好地模仿人的程序处理信息和知识。元数据和知识本体都是这类工具。
我们现在研究知识组织,已经无法不受到计算机科学已有成果的影响。图书馆情报学知识域中有关信息组织(情报检索)的”话语体系”、”领域本体”必须与计算机科学相关的概念体系进行融合,才能发展。所以我们不得不用计算机科学中在知识组织方面的研究进展取代我们传统的情报检索课程内容。这两个领域的发展速度不是一个数量级的,图书馆学的知识组织能够提供计算机科学许多人文滋养,但是如果不承认计算机科学的主体地位,图书馆学的那点经验学识将会荡然无存。计算机科学的发展有如一辆无可回头的蒸汽机车,在历史的进程中摧枯拉朽、一往无前。
近期大量阅读我图书馆学的情报检索、信息组织教材和计算机科学中的知识库研究成果。
首先对张琪玉、侯汉清编的这本《情报检索语言实用教程》非常感兴趣。一本刚出炉的教材,而且是国内该领域的领衔人物的新作,老树开新花,而且书名冠以”实用”,又是武大出的,让人立刻有探个究竟的愿望。
翻开前言,原来是武大出版社委托编写的,让人感到武大对于传统的图书馆学分支学科已经后继无人了。否则恐怕不会委托早已与武大没有瓜葛的两位老人编写。
前言中还说,本书的编写目的是”减少情报语言学领域诸课程之间的重复,精简讲授内容,突出实用性”,看来传统图书馆学科面临的冲击确实不小。
重复课程大概是指”情报语言学基础”"图书分类学”"主题法导论”之类的课程,与我目前要给北大研究生班上的”信息组织”主题的课程应该有些类似。
减少了不常用的情报检索语言类型和语种、发展历史的讲授。
内容主要包括:
总的看来,体系结构还是比较严谨和全面的。(这本书值得购买收藏)
情报检索语言及情报语言学的基本问题
作者避开情报、信息、文献的概念争论,把这三者的检索和检索系统作为同一概念。也算是一大实用的认识吧。
对于文献的概念,作者没有使用国标中”记录有知识的一切载体”,而解释为:”文献是存储和传递知识、信息的主要载体,所以,利用文献成为获取知识、信息的主要途径。”逃避概念几乎有点过于随意了(捣浆糊)。
对于”情报检索”概念的解释也是非常”图书馆学”化的:”其广义是指通过建立情报检索系统来解决文献查找问题(也就是知识和信息的查找问题)的整个实践,其侠义仅指根据某种需要从情报检索系统中查找出相关文献线索(也称文献检索)或文献中相关内容(也称事实检索、数据检索或全文检索)的操作过程”。可见其感念定义中的同义反复和不严密的地方何其多。并且从计算机界的角度看这些”同类”概念有不少不必要的人为定义和偏差在其中。广义和狭义,到底如何理解?
从作者的角度而言,数字图书馆可以看成是一个情报检索系统,因为是有序的,可以通过多种途径检索的,检索结果也是经过排序输出的,用户能够满足信息需求的。
关于情报检索语言的定义也是本书中非常核心的概念。情报检索语言是根据情报检索的需要而创制的人工语言,专门用于各种手工的和计算机化的情报检索系统,表达文献主题概念和检索课题概念。他作为提供文献内容检索途径的情报检索系统的一个构成因素,在其中起到语言保障的作用。情报检索语言分为分类检索语言、主题检索语言和代码检索语言三大语系。情报检索语言的实质是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统。
作者的一个经典的理论是:情报检索与情报存储是相反过程
情报存储过程:文献的情报内容 – 经过主题分析确立主题概念 – 经过利用情报检索语言的标引过程输入到情报检索系统中。而情报检索过程是一个相反的过程,检索者的情报需要经过主题分析,得出一系列的主题概念,经过情报检索语言的标引之后,通过检索系统进行检索,最后输出检索结果。
情报检索语言的特点:
情报检索语言的基本功能:
术语与情报检索语言是应用于被应用的关系。
概念的概念:概念是事物本质属性的概括。概念的内涵是指它所指事物的本质属性的综合,即概念的含义。概念的外延是它所指的一切事物,即概念的适用范围。
概念之间的关系:
相容关系(概念的外延至少有一部分相重合)
同一关系、属种关系、交叉关系、整体与部分关系、全面与某一方面关系、外延不相排斥的并列关系。
不相容关系:
并列关系(同位关系):同一个上位概念之下的几个下位概念之间的关系;
矛盾关系:并列关系的特殊形式,外延总合等于其上位概念全部外延的两个并列概念之间的关系。如金属材料与非金属材料;
对立关系:外延总合小于其上位概念全部外延的两个并列而且相互对立的概念之间的关系。例如导电体和绝缘体;其上位概念除了这两者之外,还有半导体。
概念的划分与概括(分类)指对概念的内涵而言,内涵的扩大或缩小。
概念的分析与综合(组配)指对概念的外延而言,外延的融合或分化。
Popularity: 25% [?]
Tags: 检索, 知识组织, 知识组织Related posts
数字图书馆的检索问题- -
继续学习Modern Information Retrieval中与近期兴趣有关的部分:元搜索、数字图书馆的基本问题、知识组织等。
Modern Information Retrieval 提供了一种从计算机科学看数字图书馆的角度:
数字图书馆是:
作者并认为由于数字图书馆的跨地域性,多语种问题是数字图书馆的首要问题。解决多语种问题首先是字符集问题,字符集可以通过网络下载来解决;同时跨语种检索也是一个很重要的待解决问题。 QBIC 和可视化浏览和视觉辅助等技术有助于实现跨语种检索问题。
多媒体检索也是数字图书馆的核心技术之一。
把文件作为数字图书馆的结构单元,文件的结构及其元数据能够为数字图书馆提供微观的结构和语义。结构和语义是数字图书馆最重要的内容。
数字图书馆中的资源可能物理或者逻辑地不在一处,解决分布环境中的检索问题是数字图书馆有一个重要课题。
分布环境中的检索问题可以有两种方案解决:
其中联邦检索( Federated search )的意思为:
Federated search is the support for finding items that are scattered among a distributed collection of information sources or services, typically involving sending queries to a number of servers and then merging the results to present in an integrated, consistent, coordinated format.
对于联邦检索目前的称呼有很多,元搜索、跨库检索等等都是,其具体流程、步骤是否有什么不同未及深究,可能也应该了解一下。现代情报检索里附了一张图示,作为一个实用系统( BioKleili )的例子。
(无法贴图?)
可见与目前 NISO 组正在制定的 Metasearch 标准是何其相似。
联邦检索的具体步骤, Ricardo 和 Berthier 的书中是这样阐述的:
略有些模糊和不知所云。相比较而言中山大学计算机专业一个硕士(杜剑峰)的学位论文倒是研究得比较仔细:
另外还需参考一些近期的国外论文。
Popularity: 17% [?]
Tags: 数字图书馆, 检索, 知识组织Related posts
Modern Information Retrieval- -
智利的 Ricardo Baeza Yates 和巴西的 Berthier Ribeiro-Neto 两位计算机教授 1999 年著作的《 Modern Information Retrieval 》一书近年来被引率很高,许多学者都给与了很高的评价,成为许多学校的教科书或者必读书。从网上下载了该书的引言、第一章和第十章,感到确实不错,结构清晰,主要是内容比较新。相比较而言,国内情报检索课程所授,除了老套的东西,就是一些不伦不类的东西了。
查了馆藏书目,居然有藏,节后去借了来。
网址: http://sunsite.dcc.uchile.cl/irbook/
Popularity: 20% [?]
Tags: 感悟, 检索, 现代信息检索, 著作