标签数字图书馆

去除IT应用的浮华

曾有一段时间常常写一些简短的文字,就 IT 在图书情报届的应用发一些小小的感慨或议论,有些内容似乎至今仍有意义。文章总觉得自己的好,有了博客这种形式,就想陆续整理出来给更多的人看到,也当作一种广而告之吧。

去除IT应用的浮华

写于 2001 年 6 月

从专业刊物看我国图书情报界的计算机应用水平实在是不低,某些领域几乎是处于同一水平线上,甚至美国刚发芽,中国已开花。随手举几个例子:网上虚拟参考工作,美国国会图书馆和OCLC20012月刚开完会,国内已有动作;网上资源导航、元数据应用、知识管理、数字资源整合、电子期刊利用等问题,是近期国际专业会议上的热门话题,也开始看到国内专业杂志上有所讨论。这应该说是一个好现象。

然而,我们身处实际工作中的图书馆员们似乎并没有感到这些新东西扑面而来,更没有享受到新技术带来的好处,读者就更无法奢望了。20015月底在清华大学召开的NIT2001数 字图书馆国际会议可以明显看出在应用项目上与国外的差距。就学科建设而言这种现象依然是前些年照搬其他学科概念的翻版,国内除了少数一流的图书馆正在扎扎 实实进行图书馆工作”转型”之外,大多还处在一种看热闹的状态,有些图书情报机构甚至面临大好机遇而不自知,或无所事事,或肆意挥霍,坐失良机。

图书情报机构能否借助IT技术而融入信息产业,图谋凤凰涅磐呢?这需要一些有战略思考、懂IT技术的馆长所长们,进行一些实实在在的开发、研究和应用。

数图演义(混沌初开篇)- –

看到大家对 数图演义 的另类标题很感兴趣,窃喜。前几天开了个头(只是开头,语言也不敢太调侃),在这里先献个丑。

NSF 对数图的清算:知识在信息中迷失

近几年,正当国内数字图书馆界高奏凯歌,几大系统数字图书馆项目纷纷尘埃落定、笑逐颜开的时候,美国和欧洲纷纷对十余年来在数字图书馆研发方面的巨额投入进行反省和总结。其中最著名的要算美国国家科学基金会 (NSF: National Science Foundation) 于 2003 年 6 月召开的”未来的浪潮:昭示数字图书馆未来( Wave of the Future: NSF Post Digital Library Futures Workshop )”研讨会, 与会者四十多位,真可谓大腕云集,高手如林,会后发表了著名的《知识在信息中迷失》的趋势研究报告。

NSF 为这次会议很早就进行了精心准备。早在一月就与英国 JISC ( Joint Information Systems Committee )一起召开过一次小型的研讨会,听取了欧洲数字图书馆 DELOS 计划和许多英国同行的意见。本次会议之前, NSF 向每位受邀专家发出了一份讨论纲要,列出了需要讨论的主题和问题,并要求每一位专家赐稿。会议选在美国麻省风景如画的鳕鱼岬( Cape Cod )召开。在三天的会议中,进行了多种形式的讨论,所幸的是所有的会议资料都在网站上公开,使我们能够深入研究此次会议,分享会议取得的成果,并为我们提供”站在巨人肩上”的机会。

众所周知, NSF 代表了数字图书馆的最早倡导者,由其批准的两期数字图书馆先导研究计划( DLI: Digital Library Initiave )到 2003 年已接近尾声。究竟这项投入七千多万美元、历时八年的项目取得了怎样的成绩?影响如何?众人如何评说?下一步该怎么办? NSF 急切地希望得到答案。

2003 年年初一份重要报告的出炉,使这次会议的召开显得尤为迫切。这份名为《赛百基础结构带来科学与工程的革命》 的报告,是密西根大学的 Daniel Atkins 教授牵头的一个”蓝带委员会”访问了六十多位顶尖专家、化了大半年时间完成。这份报告从一个更为广阔的背景中分析了信息基础设施建者中新的机遇,为美国信息技术国家战略的制定者指明了下一步发展方向。这份报告的出台从某种意义上说明美国在以数字图书馆为代表的信息基础设施投入方面的重点已经转移,美国已经找到更为急需的发展目标。这份报告对美国未来信息技术发展的国家战略具有相当的指导意义。 Atkins 教授曾是美国”数字图书馆先导研究计划第一期( DLI1 )”密歇根大学数字图书馆项目的负责人,应该说也是数字图书馆研究的先驱之一,然而这份报告只是把数字图书馆作为未来赛百基础结构中的一个部分。这是否意味着”数字图书馆”研究浪潮的终结?由国家倡导的有关数字图书馆的研究与开发是否已足够成熟?可以由”倡导( Initiatives) “而成为”计划( Program )”,进而移交给民间和企业,实现其可持续发展?如果是这样,那么数字图书馆在未来的”赛百基础结构”中应该如何定位?如何发展?

本文也想跟随这些报告的脉络,厘清头绪,对上面这些问题作一个探讨。
……


Technorati :

数图演义- –

一位编辑约稿,关于中外数字图书馆研究进展综述,想尝试一种新的写法,包含内容如下,不知是否会得到首肯。

  • NSF 对数图的清算:知识在信息中迷失
  • Google 奇迹:敲掉谁的饭碗?
  • 狐狸先生的”金木水火土”数字图书馆五行学说
  • DLI 前朝遗少: DSpace 和 Fedora
  • Ian Witten 为”绿石”( Greenstone )鼓与呼
  • DCMI “讣告”:涅磐与重生
  • 张晓林:只有元数据能救数字图书馆?
  • 数字图书馆梦圆国图二期

呼唤数字图书馆的“统一场”理论- –

数字图书馆需要整合。不是说某一个数字图书馆的资源,或者服务需要整合,而是数字图书馆的研究内容需要整合。

记得七、八年前我们刚接触数字图书馆的时候,被其”博大精深”,或者说”混乱无序”弄得非常沮丧。除了一些零散项目、计划的举例,不知道如何认识、怎样下手。好不容易提出了”三种数字图书馆”:即来自计算机界的研究开发、来自各类机构的服务体系建设和纯粹的数字化,又觉得分类很粗,缺乏逻辑,无法反映数字图书馆内在的体系结构和本质联系。

在美国虽数字图书馆的支持接近尾声之际,似乎到来了数字图书馆总结之时( NSF 的”后数字图书馆时代”的提法颇有些对数字图书馆进行”清算”的味道,见” 鳕鱼岬会议 “博客文章。在对 2002 年以来的数次数字图书馆”峰会”(指以回顾展望为主题的管理型的工作会议,如 NSF/DELOS 的一些会议。 99 年也曾召开过一些)进行认真学习之后,突然感到数字图书馆的”学科体系”似乎已然建立,从 Fox 等人的 5S 基础理论( Leon 说 Witten调侃其 为”五行学说”)以及 SFX 的发明人 Sompel 呼吁数字图书馆基础理论建立的必要性,一直到 NSDL 、 CDL 以及 LoC 实打实的建设,以及从技术角度 Digital Library 与 Semantic Web 的联姻,并共同迎接 Cyberinfrastructure 的挑战。数字图书馆的社会性、人文性、技术性正在融合,站得高一点,打破学科之间的固有樊篱,整个图景会变得越来越清晰。本人很想就数字图书馆建立”统一场理论”作一些研究。目前可资借鉴的报告就有如下数篇(名称凭记忆列出):

当然这项研究需要理论与实践的结合,需要不同”粒度”的研究,需要技术与人文的对话。尤其重要的,是需要一个崭新的视角、宽广的视野和突破传统的勇气。这些都不是靠个人的力量所能达到的,需要一个团队,一批人共同的努力。无奈的是国内这个圈子的人太少了。


Technorati :

ADL:一个古老但可资参考的例子- –

加州大学圣巴巴拉分校牵头的” Alexandria Digital Library “项目从 DLI1 就开始作,目前应该说已经基本完全结束。其中涉及到数字图书馆体系结构、分布式资源组织管理、资源集合元数据应用等都是我比较关心的,只有一项:地理信息的规范控制和管理却不是我的重点。

亚历山大数字图书馆项目在 1999 年就提出了资源集合描述元数据的各项功能,现在实际上还是沿着这条道路继续标准化,然而进展看起来并不是很大。 ADL 当初的陈述如下(见 1999 年的一篇文章: http://www.alexandria.ucsb.edu/%7Egjanee/archive/1999/jasis-paper.pdf Linda Hill etc. Collection Metadata Solutions for Digital Library Applications ):

The Alexandria Digital Library (ADL) Project has designed and implemented collection metadata for several purposes: in XML form, the collection metadata “registers” the collection with the user interface client; in HTML form, it is used for user documentation; eventually, it will be used to describe the collection to network search agents; and it is used for internal collection management, including mapping the object metadata attributes to the common search parameters of the system.

现在看起来 ADL 中的资源集合元数据有许多”不规范”的地方:即为了实现功能而”任意”添加的属性。由于其应用平台为 C/S 结构,编码虽然是 XML 格式,但是 Vocabulary 是自定义的。数字对象的描述是封装于 Bucket 中,规定了 Bucketde 的类型和结构,以及一个 Core Bucket 。

一些想法:

康奈尔、加大圣塔巴巴拉、斯坦福三个高校的 DLI2 项目与我的论文有关。涉及的主要内容有:

鳕鱼岬会议(2月25日修订)- –

会议名称: Wave of the Future: NSF Post Digital Library Future Workshop ,简称 鳕鱼岬 会议

会议性质:NSF主办,邀请参加

主题: “Ubiquitous Knowledge Environments: The Cyberinfrastructure Information Ether”

地点: Wequassett Inn, Cape Cod, Chatham, Massachusetts

报告标题: Knowledge Lost in Information

参加人员:数字图书馆的父母们

网址: http://www.sis.pitt.edu/~dlwkshop/

美国现在热衷于 Cyberinfrastructure 的研究和建设,每年要投入 1 billion 经费,这是NII/DL的一个后续研究领域,去年3月在日本筑波开 DLKC04 会议时认识的米歇根大学的 Daniel E Atkins 教授是其中的重要人物 [1]

匹兹堡大学信息科学学院的一帮教授似乎对 Atkins 提出的构建 Cyberinfrastructure 的报告非常有心得,在 2003 年 5 月决定美国数字图书馆研发未来方向的鳕鱼角会议上提交了一份报告: Ubiquitous Knowledge Environments: The Cyberinfrastructure Information Ether ,一举为这次会议定下了基调。会议网站也寄放在匹兹堡大学的域名之下。

这份主旨报告,以及这次 鳕鱼岬 会议本身,似乎很清楚地表明,数字图书馆的研究重点已经转为 Ubiquitous Knowledge Environment ( UKE :无所不在的知识环境),或者说数字图书馆将为 UKE 所取代,或者说数字图书馆将以 UKE 的形式而存在。而 UKE 的存在目的是什么?大会的副标题说的很清楚:( to provide ) Cyberinfrastructure Information Ether (提供赛百基础结构的信息大气)。

查国内对于 Daniel Atkins 的 Cyberinfrastructure 报告是否有报道。查到 http://www.sunway.cn/swnews/html/2/2004-02-25/20040225100106.html 有一段:

阅读” 鳕鱼岬 “会议上专家提交的报告,一些感悟:

Carl Lagoze 认为:

NSF 倡导的数字图书馆研发开始于”前” Web 时代,因而造成了数字图书馆研究与 Web 为基础的研究有些各走各的道,并造成数字图书馆研究成果的一定的落后和不合时宜。然而具有讽刺意味的是,目前如日中天的宠儿,也是 Web 世界近来最重要的进展– Google ,最早却是来自于 DLI1 支持的一个项目; DL 研发促进了 Web 核心技术 (Java 、 XML 、 RDF 等 ) 的进展,然而这些技术没有任何一个源自 DLI 项目。

陈钦智说:

经过十余年的研发,例如 DLI1 、 DLI2 、 IDLP 等的系列项目的研发,我们取得了丰硕的成果,包括元数据和 OAI 方面的进展、全文本和机遇图像、视频的检索技术的进展等,这些项目带来了全球数字图书馆的研究开发热潮。数字图书馆的研究顺理成章地引申出 Cyber-infrastructure 的研究领域,后者广泛地包容了数字环境下人、数据、信息、工具、设施设备等复杂的联系,以及信息系统在其中的功能实现,这个领域逐渐取代了数字图书馆的研究地位。 (NSF 每年拟投入 10 亿美元进行研究 ) 。数字图书馆的研究过多地注重技术研发,虽然 DLI2 注意了这一点,然而也还是基于技术创新的。而 Cyber-infrastructure 更注重功能和实践。

数字图书馆研发的任务依旧是:

数字图书馆的研发没有带来大规模的应用,主要原因还是许多研发还是基于 R&D ,而没有将这些技术很好地整合起来。数字图书馆大踏步地进步依赖于对其相关技术、内容和用户的整合(见图示):

待续……


Technorati :

数字图书馆的检索问题- –

继续学习Modern Information Retrieval中与近期兴趣有关的部分:元搜索、数字图书馆的基本问题、知识组织等。

Modern Information Retrieval 提供了一种从计算机科学看数字图书馆的角度:

数字图书馆是:

作者并认为由于数字图书馆的跨地域性,多语种问题是数字图书馆的首要问题。解决多语种问题首先是字符集问题,字符集可以通过网络下载来解决;同时跨语种检索也是一个很重要的待解决问题。 QBIC 和可视化浏览和视觉辅助等技术有助于实现跨语种检索问题。

多媒体检索也是数字图书馆的核心技术之一。

把文件作为数字图书馆的结构单元,文件的结构及其元数据能够为数字图书馆提供微观的结构和语义。结构和语义是数字图书馆最重要的内容。

数字图书馆中的资源可能物理或者逻辑地不在一处,解决分布环境中的检索问题是数字图书馆有一个重要课题。

分布环境中的检索问题可以有两种方案解决:

其中联邦检索( Federated search )的意思为:

Federated search is the support for finding items that are scattered among a distributed collection of information sources or services, typically involving sending queries to a number of servers and then merging the results to present in an integrated, consistent, coordinated format.

对于联邦检索目前的称呼有很多,元搜索、跨库检索等等都是,其具体流程、步骤是否有什么不同未及深究,可能也应该了解一下。现代情报检索里附了一张图示,作为一个实用系统( BioKleili )的例子。

(无法贴图?)

可见与目前 NISO 组正在制定的 Metasearch 标准是何其相似。

联邦检索的具体步骤, Ricardo 和 Berthier 的书中是这样阐述的:

略有些模糊和不知所云。相比较而言中山大学计算机专业一个硕士(杜剑峰)的学位论文倒是研究得比较仔细:

另外还需参考一些近期的国外论文。


Technorati :