分类目录数字图书馆

ADL:一个古老但可资参考的例子- –

加州大学圣巴巴拉分校牵头的” Alexandria Digital Library “项目从 DLI1 就开始作,目前应该说已经基本完全结束。其中涉及到数字图书馆体系结构、分布式资源组织管理、资源集合元数据应用等都是我比较关心的,只有一项:地理信息的规范控制和管理却不是我的重点。

亚历山大数字图书馆项目在 1999 年就提出了资源集合描述元数据的各项功能,现在实际上还是沿着这条道路继续标准化,然而进展看起来并不是很大。 ADL 当初的陈述如下(见 1999 年的一篇文章: http://www.alexandria.ucsb.edu/%7Egjanee/archive/1999/jasis-paper.pdf Linda Hill etc. Collection Metadata Solutions for Digital Library Applications ):

The Alexandria Digital Library (ADL) Project has designed and implemented collection metadata for several purposes: in XML form, the collection metadata “registers” the collection with the user interface client; in HTML form, it is used for user documentation; eventually, it will be used to describe the collection to network search agents; and it is used for internal collection management, including mapping the object metadata attributes to the common search parameters of the system.

现在看起来 ADL 中的资源集合元数据有许多”不规范”的地方:即为了实现功能而”任意”添加的属性。由于其应用平台为 C/S 结构,编码虽然是 XML 格式,但是 Vocabulary 是自定义的。数字对象的描述是封装于 Bucket 中,规定了 Bucketde 的类型和结构,以及一个 Core Bucket 。

一些想法:

康奈尔、加大圣塔巴巴拉、斯坦福三个高校的 DLI2 项目与我的论文有关。涉及的主要内容有:

鳕鱼岬会议(2月25日修订)- –

会议名称: Wave of the Future: NSF Post Digital Library Future Workshop ,简称 鳕鱼岬 会议

会议性质:NSF主办,邀请参加

主题: “Ubiquitous Knowledge Environments: The Cyberinfrastructure Information Ether”

地点: Wequassett Inn, Cape Cod, Chatham, Massachusetts

报告标题: Knowledge Lost in Information

参加人员:数字图书馆的父母们

网址: http://www.sis.pitt.edu/~dlwkshop/

美国现在热衷于 Cyberinfrastructure 的研究和建设,每年要投入 1 billion 经费,这是NII/DL的一个后续研究领域,去年3月在日本筑波开 DLKC04 会议时认识的米歇根大学的 Daniel E Atkins 教授是其中的重要人物 [1]

匹兹堡大学信息科学学院的一帮教授似乎对 Atkins 提出的构建 Cyberinfrastructure 的报告非常有心得,在 2003 年 5 月决定美国数字图书馆研发未来方向的鳕鱼角会议上提交了一份报告: Ubiquitous Knowledge Environments: The Cyberinfrastructure Information Ether ,一举为这次会议定下了基调。会议网站也寄放在匹兹堡大学的域名之下。

这份主旨报告,以及这次 鳕鱼岬 会议本身,似乎很清楚地表明,数字图书馆的研究重点已经转为 Ubiquitous Knowledge Environment ( UKE :无所不在的知识环境),或者说数字图书馆将为 UKE 所取代,或者说数字图书馆将以 UKE 的形式而存在。而 UKE 的存在目的是什么?大会的副标题说的很清楚:( to provide ) Cyberinfrastructure Information Ether (提供赛百基础结构的信息大气)。

查国内对于 Daniel Atkins 的 Cyberinfrastructure 报告是否有报道。查到 http://www.sunway.cn/swnews/html/2/2004-02-25/20040225100106.html 有一段:

阅读” 鳕鱼岬 “会议上专家提交的报告,一些感悟:

Carl Lagoze 认为:

NSF 倡导的数字图书馆研发开始于”前” Web 时代,因而造成了数字图书馆研究与 Web 为基础的研究有些各走各的道,并造成数字图书馆研究成果的一定的落后和不合时宜。然而具有讽刺意味的是,目前如日中天的宠儿,也是 Web 世界近来最重要的进展– Google ,最早却是来自于 DLI1 支持的一个项目; DL 研发促进了 Web 核心技术 (Java 、 XML 、 RDF 等 ) 的进展,然而这些技术没有任何一个源自 DLI 项目。

陈钦智说:

经过十余年的研发,例如 DLI1 、 DLI2 、 IDLP 等的系列项目的研发,我们取得了丰硕的成果,包括元数据和 OAI 方面的进展、全文本和机遇图像、视频的检索技术的进展等,这些项目带来了全球数字图书馆的研究开发热潮。数字图书馆的研究顺理成章地引申出 Cyber-infrastructure 的研究领域,后者广泛地包容了数字环境下人、数据、信息、工具、设施设备等复杂的联系,以及信息系统在其中的功能实现,这个领域逐渐取代了数字图书馆的研究地位。 (NSF 每年拟投入 10 亿美元进行研究 ) 。数字图书馆的研究过多地注重技术研发,虽然 DLI2 注意了这一点,然而也还是基于技术创新的。而 Cyber-infrastructure 更注重功能和实践。

数字图书馆研发的任务依旧是:

数字图书馆的研发没有带来大规模的应用,主要原因还是许多研发还是基于 R&D ,而没有将这些技术很好地整合起来。数字图书馆大踏步地进步依赖于对其相关技术、内容和用户的整合(见图示):

待续……


Technorati :

论文的“领域知识”- –

最近的学习把握不同领域的兴趣都结合到一起了。 Metasearch 、资源集合的研究、知识本体对于异构信息系统互操作的作用、知识组织与元数据、规范档作用、数字图书馆体系结构等等,这些方面都可以融为一体。然而大脑中的结构时隐时现,还不确定。需要有一个”本体”表达出这样一种”大一统”的结构。

今天看看 UC Santa Barbara 的 ADL 计划。这个数字图书馆项目对于资源整合研究的非常彻底深入,是我学位论文的一个很好的参考原型。

对于 DLI1 早期的基本情况,可以参考 Dli Mag 的特辑: http://www.dlib.org/dlib/july96/07contents.html 。新的情况、各项目的互相影响及成果的后期应用还没有查到专门的总结。我比较关注的是这些项目在解决互操作问题、元数据应用、资源集合描述方面有些什么具体成果和共同结论,这些项目的技术解决方案在目前看起来虽然先进,然而很混乱,都是试验性的,不够简单,不足以获得大规模、广泛的应用。

DLI2 中陈炘钧就领导了一个项目: High-Performance Digital Library Classification Systems: From Information Retrieval to Knowledge Managemen ,在陈炘钧”人工智能实验室”的网页中这个项目变成了该实验室对于” Digital Libraries “研究的总体介绍,包括从 1996 年亚利桑那大学从加州圣塔巴巴拉大学亚历山大数字图书馆项目分得的一个子项目(只有 5 万美元)一直到 2004 年 9 月结题的 NSF 项目。粗粗算来,陈教授在数字图书馆的研究方面拿到了奖金 400 万美元的经费。

在该网页中陈炘钧这样陈述他的研究目标:

To develop techniques to enhance information retrieval and knowledge management of large digital collections. Our work includes portal building initiatives in a wide variety of domains and in multiple languages testing collection building, search, visualization, and analysis techniques.

从研究项目来看,多集中用于生物信息学、教育和计算机文献的数字图书馆方面。

技术研发领域主要有如下一些:


Technorati :

Meta-search: SRW/U会成为NISO Metasearch的标准?- –

1、 Dlib Mag 刊出了一篇 SRW/U 的文章,把 SRW/U 与 OAI 的 protocol 进行对比,并提出了兼用这两种协议的方法。使我想到应该在”知识组织”课程里介绍这两种协议,同时介绍他们的相容性。

2、 SRW/U 作为 Z39.50 的 Web/XML 版本,有彻底的脱胎换骨,实际上 Z ( Zing )的功能被一系列新的协议所取代,而不是仅仅一个 SRW/U 。可参考网页: http://www.loc.gov/z3950/agency/zing/

3、 也是在本期 dlib 杂志上看到一个 OLAC 项目的元数据方案,采用比较规范的 DC Profile 形式在网上公开,可以供我们的项目参考。
http://www.language-archives.org/OLAC/metadata.html
http://www.language-archives.org/REC/olac-extensions.html

4、 NISO 的 Metasearch Initiative ( http://www.niso.org/committees/MetaSearch-info.html )与 Zing 到底是一种什么关系?可能 NISO 希望 Zing 的开发可以作为下一代 MetaSearch 的标准吧。

2005/2/23补记:

看到年心搏客( http://hjn66.blogchina.com/ )里对元搜索的一种区分,好像有点道理,不知是不是国内的普遍认识?

2. 整合检索:将各个数据库的元数据套录出来组成新的二次文献库,对源文件进行链接管理,这种方式技术难度大,需要数据厂商的支持。 TRS 就是这个类型的,这也是国外数字图书馆跨库检索的发展方向,不过国内的数据厂商相对比较封闭,不容易开展!

待续…


Technorati : ,