存档2005年2月16日

数字图书馆的检索问题- –

继续学习Modern Information Retrieval中与近期兴趣有关的部分:元搜索、数字图书馆的基本问题、知识组织等。

Modern Information Retrieval 提供了一种从计算机科学看数字图书馆的角度:

数字图书馆是:

作者并认为由于数字图书馆的跨地域性,多语种问题是数字图书馆的首要问题。解决多语种问题首先是字符集问题,字符集可以通过网络下载来解决;同时跨语种检索也是一个很重要的待解决问题。 QBIC 和可视化浏览和视觉辅助等技术有助于实现跨语种检索问题。

多媒体检索也是数字图书馆的核心技术之一。

把文件作为数字图书馆的结构单元,文件的结构及其元数据能够为数字图书馆提供微观的结构和语义。结构和语义是数字图书馆最重要的内容。

数字图书馆中的资源可能物理或者逻辑地不在一处,解决分布环境中的检索问题是数字图书馆有一个重要课题。

分布环境中的检索问题可以有两种方案解决:

其中联邦检索( Federated search )的意思为:

Federated search is the support for finding items that are scattered among a distributed collection of information sources or services, typically involving sending queries to a number of servers and then merging the results to present in an integrated, consistent, coordinated format.

对于联邦检索目前的称呼有很多,元搜索、跨库检索等等都是,其具体流程、步骤是否有什么不同未及深究,可能也应该了解一下。现代情报检索里附了一张图示,作为一个实用系统( BioKleili )的例子。

(无法贴图?)

可见与目前 NISO 组正在制定的 Metasearch 标准是何其相似。

联邦检索的具体步骤, Ricardo 和 Berthier 的书中是这样阐述的:

略有些模糊和不知所云。相比较而言中山大学计算机专业一个硕士(杜剑峰)的学位论文倒是研究得比较仔细:

另外还需参考一些近期的国外论文。


Technorati :