网络资源如何规范控制

计算机技术和互联网的发展使规范控制的环境、对象和需求均发生了巨大的变化。统一标目让位于数字资源唯一标识的管理;汇集、区分和引导等三类功能需求扩展为识别(Identify)、查找(Find)、选择(Select)、关联(Relate)四个方面的功能需求;规范控制工作也主要变成了资源对象属性关系语义的揭示;检索点的控制失去了原来的意义,变成了系统内部不同属性词、属性值的自动参照 和转换。规范不规范,从专业人员主导,变成了由用户主导;静态的“权威性”资源标注,变成了动态的“可信度”关系计算。

当然这些变化将会是慢慢发生的。好在规范控制不像传统的MARC一样,想扔都扔不掉,毕竟传统的规范控制在实践上远不如理论上做得那么完美,从FRBR开始的一系列研究可以使我们从一个新的高度设立一个新的起点。

FRBR为网络资源的规范控制提供了一个合理的框架模型,其中所涉及的三类实体:知识/艺术创造(包含作品、表达、表现和单件四种状态)、责任者(团体、个人)和主题(概念、对象、事件和地点)提供了规范控制的具体内容。第一、二类实体属于名称规范的范畴(题名规范和责任者规范),第三类实体包含了主题和名称(例如地名和事件名)两个方面的规范。在理论上这一框架首次把“文献”之外的实体:人、机构、程序(遗憾的是FRNAR小组后来将这个明确排除在外了,后面两个是否还包括在内,语焉不详)、地点、事件,也当作“资源”而纳入规范控制的范畴。

网络世界是一个由无数协议和规范构成的人造世界,规范控制是附加于网络世界的另一项人为的需求,是帮助用户判断网络资源内容可信度的一种方法。与传统资源所不同的,网络资源的可信度绝非黑白二值,而取决于信源、信宿和信道三方面的多种因素,并且具有主观性和动态性。一组信息对于某一用户的某项查询来说,其可信度应该是呈正态分布的。信息架构师的责任就是提供一定客观的算法,来实时实地地度量这种相对的可信度。

建立网络资源的规范控制需要建立两类设施:1、规范数据仓储;2、规范控制管理系统。后者是实现前者功能的必要保证,解决网络资源规范控制的实现机制问题。在开放异构的Web环境下网络资源的规范控制不可能是集中的、排他的,同一种类型的规范控制可以有多个模式,由规范控制平台提供的机制来实现一定的互操作。传统的规范数据可能会提供必要的“原始规范数据仓储”,但大量的规范数据需要“草根智慧”(collective intelligence),而不再是仅仅依靠图书馆员。

FRAD报告涉及的,以及FRSAR工作组试图做的,(主要)是名称规范和主题规范。而网络资源可以进行规范的内容还要多得多,例如各类“微内容”格式规范(包括事件、地理信息、化学分子式、基因序列等等)、各类标准应用程序接口(作为一种agent)规范、本体规范(也就是规范的领域模型,包括术语规范、关系规范和编码格式等)。

因此,网络世界的规范控制大有可为。

(本文为新近完成的论文《试论网络资源的规范控制》中的主要观点,若需引用,希望注明出处:刘炜,张春景. 试论网络资源的规范控制.现代图书情报技术,2008.12.27-31)。

FRBR,书目控制的未来?

在今天的环境下,书目控制不能再被看作局限于图书馆目录。

书目控制未来将是合作的、去中心化的、国际范围的、基于WEB的。

单一环境如图书馆目录中描述(著录)的一致性,与各种环境间进行连接的能力相比,正变得不那么重要。(上述引述均来自《书目控制未来报告》)

当今书目控制*面临的最大问题,并不是FRBR试图解决的“作品-表达-表现-单件”立体层次模型问题,而是书目控制究竟控制什么的问题。对于这个问题的迷茫,造成对于RDA的口水弥漫,难有定论。这个问题解决不好,直接影响到“下一代”图书馆编目是走向成功,还是走向消亡。当然,消亡论对于图书馆来说,早已如同“狼来了”一般几乎是毫无意义的了。

这其实也是柯平教授提出的“数子目录学”所面临的基本问题。数字目录学中林林总总的内容洋洋大观,其实根本的问题还是“目录录什么”的问题。不论是刘歆刘向的辑略别录,还是章学诚的考镜辩章,都以明确的纸本文献——图书为基础,时代不同了,文献都一样**,这一点彭老先生很想变革,提出“书目情报”说,然而这个目录学怎么看怎么象情报学,而且“情报”这个词在上世纪八十年代狠狠被“信息”强暴了一把,以至于成长为又一个中国特色,长期飘摇动荡而沉沦,至今未见任何咸鱼翻身迹象(摇身一变成了”知识“?)。

书目控制一下子变成了网络资源控制,网络资源是什么?就是数字资源,就是资源,就是信息。所以书目控制变成了信息控制,这哪里是图书馆所干的了的?简直就是整个计算机科学!

于是要加定语,关键问题是这个定语怎么加?图书馆人对于”数字资源“的皮毛了解恐怕加不好这个定语,搞计算机的人好像真是没空来管这个闲事,于是就眼睁睁地看着一门古老的学科消亡了。

FRBR虽然不知道自己在干什么,但它的层次模型在客观上还是给人们透了些数字时代书目控制的光亮,适用的范围的确广了很多。所以FRBR的后续文档和研讨(包括FRAD/FRSAR/RDA)都半遮半掩半推半就地认为自己可以“控制”(Find, Identify, Select, Obtain)所有的“文献”(但是明确提到的只有档案及博物馆资源)。

总的感觉,缘起于上世纪90年代的FRBR还不足以承担未来书目控制基本框架的职责。未来有没有书目控制,网络资源能不能实现控制,是不是要图书馆人来控制,或者是不是其中一部分基于语义的资源(数字图书馆资源)可以由下一代的FRBR来控制,让我们试目以待。

——————————————————

*本文中的“书目控制”概念,取UNESCO1950年的定义:“从书目的目的出发,控制人类已出版的全部文献”。

**国标中对于“文献”的定义是“记录有知识的一切载体”,但是对于“载体”似乎没有明确定义,不证自明地认为应该是物理的、有形的,因为当时是把无线电波、声波等排除在外的。而现在,文献能否扩大到一切“数字资源”呢?

参考:编目精灵,《书目控制未来报告》(草案)解读

编目精灵,“记录在案”走入歧途──对书目控制未来工作组报告的回应

关于FRSAR的问题

看了一晚上FRSAR,结合曾蕾老师的proposal,总结了如下问题:

1、作为描述任何信息资源“主题”属性的抽象模型和应用框架,感到FRSAR似乎没有必要受FRBR的局限,完全能够、也有必要独立存在。FRBR模型本身具有很多模糊性(如下所述的work的定义等),不利于计算机处理和应用,而对于“主题”属性的规范控制,是语义Web的一个极其重要的应用需求,目前还没有很好的解决方案(至少传统的、通过第三方标注而建立的可信任信息,仍旧是实现trusted web的一个方法)。

2、作为“主题”的承载对象的“作品(work)”如何界定?因为作品不仅仅是文学作品,如果所描述的主题只是关于作品的一个局部,如何描述?也就是说在work-thema-nomen的结构中(首先需要说明的是:窃以为这个模型的认识论意义非常重大,但是为了“机读”,还需要更加明确一些),thema可以有parts,work可不可以?局部的work还是不是work?描述局部work的thema能不能代表这个work的thema?(即thema与work的对应关系,不能搞得很复杂,所以就需要对work进行明确界定。)

3、thema有parts的意义何在?是不是因为thema有许多下位的parts,具有thema的work自然就继承了这些parts的thema?在实践中这里面又有一大堆问题需要研究和解决。不如先简化这个问题,留待以后解决。本来一个work可以有很多主题,各个主题并不排斥,可以并存。

4、thema除了可以有parts之外,还可以有type,目前的困境是,能否穷尽type?是否有必要穷尽type,制定严格的规范,必须在这些type中选择?目前的concept, object, event, place再加一个time,是不是就是thema的所有type?如果有从其它角度的分类,是否允许?类型是不是可以开放式的、可扩展的?

5、我对于这个模型的理解:nomen似乎作为thema的形式表现而存在,所有的规范控制都可以归结为对于nomen的规范控制(通过对nomen的规范而达到对thema的规范),work、thema以及nomen这三类“实体”内部的关系和相互关系,都通过nomen的关系来反映。这就是说,规范词表就是nomen的词表(由此nomen词表的规范体系和功能实现又是一大堆问题需要研究了)。

6、根据figure4,由于第一、第二组实体都可以作为work的主题,nomen是不是也可以是第一、二组实体的表现形式呢?于是规范了 nomen就规范了一切。nomen就包括书目数据的规范记录、人名/机构名规范档以及主题词表/分类法等所有的规范控制体系(KOS)。

7、进一步的问题:如何以上述模型描述、并实现规范控制的功能需求?如何编码、形式化、机器可处理?

参考:

编目精灵:FRBR家族未来的第三个成员–FRSAR

书蠹精:FRBR中文翻译版正式发布