分类目录数字图书馆

数字图书馆发展的背景

数字图书馆产生和发展的社会历史背景离不开近 30 年来知识经济或信息经济成为目前全球经济的最重要的火车头的转型过程,以及人们对知识和信息的经济学意义的逐步认识。。

从世界范围看,信息产业形成于 60 年代,成长于 70 至 80 年代,快速发展于 90 年代。然而早在 1912 年, 德国经济学家熊彼特就认识到创新才是社会发展的一个根本原因,而创新的关键就是知识和信息的生产、传播、使用。 1957 年美国经济学家索罗研究了 1909 年至 1949 年美国经济构成情况,发现非农业部门劳动生产率翻了一番,技术进步占了 87.5% ,劳动和资本的贡献只占 12.5% 。 1962 年美国经济学家马克卢普发表了《美国的知识生产和分配》,详细地分析和论证了知识和信息在经济发展中的作用,首次提出知识产业的概念。 1967 年,波拉特测定出美国从业人员中有 50% 被人雇用在信息产业中,产值占当时美国国内生产总值 GNP 的 45% ,这项测算产生了深远影响,并导致了对各国产业经济的重新划分和深入研究。欧美各工业国先后开始对本国信息产业作出波拉特式测定,我国也在 80 年代末测算信息产业从业人数占总就业人数的 8.8% ,产值为当时 GNP 的 15% 。值得一提的是, 1996 年诺贝尔经济学奖授予了对信息经济学研究有开创作用的詹姆斯·莫里斯 (James Mirrlees) 教授和威廉姆·维克瑞 (William Vickery) 教授,以表彰他们的贡献。计算机和网络技术的发展彻底改变了人类交流知识和信息的方式,网络消灭了时空差别,而数字图书馆消除了信息占有的差别(技术上),信息上的平等带来交易上的平等,从而具有了经济学上的意义。

人与人之间的知识和信息的交流本来都是意识形态的东西,然而由于技术的发展和人类无止境的需求,它不折不扣地成了经济的主导产业,反过来带动了参与知识信息产生与交流的整个生命过程的各行各业,使这些行业甚至得以提高到国家发展战略的高度,纳入”国家级挑战”等基本国策来重视和扶植。数字图书馆即是其中一员。

从一般意义上说,工业革命极大地拓展了人类的体力,信息革命正在扩展人类的脑力,仅仅在跨越二十世纪的几十年的岁月中,人们对资源的认识经历了从”原子”向”比特”的进步,信息资源已上升为与能源平等的战略资源,而信息之所以成为资源,主要体现在信息的掌控和利用能力。数字图书馆的产生原因和存在价值在于它能够更好地整理、保存和传送信息。

Trackback: http://tb.donews.net/TrackBack.aspx?PostId=552940

数字图书馆的定义

对于数字图书馆这样一个正处在不断变化发展的新生事物,追求一个科学完整而又公认的定义是不可能的,( 参见定义汇总 ) ,几乎每个研究项目都有一个自己的界定,有多少著作就有多少定义。本文无意于评判这些定义,但从历史角度作一简要回顾,有利于形成本书对于”数字图书馆”的界定,从而有助于阐明本书的立论基础。

数字图书馆的概念定义首先是从技术的角度作出的,而且一开始就有异于人们对于图书馆的传统理解。以下是几个典型定义:

“数字图书馆是一个分布式的信息环境,其相关技术使得创建、传播、处理、存储、整合和利用信息的困难大幅降低。” [2] 这是一个早期定义。

“数字图书馆是一系列的信息资源以及相关的、将这些资源组织起来的技术手段,如创建、检索、利用信息的技术。涵盖了现有分布式网络中所有数字媒体类型(文本、图像、声音、动态图像等)的存储和检索系统。” [3] 这是美国国家科学基金会资助的一项有关数字图书馆的”国家级挑战”项目报告中的定义。

早期研究引用较多的一个定义来自美国研究图书馆协会( ARL ): “数字图书馆不是一个单独的实体,需要有关技术提供到其它资源的链接,该链接对用户应该是透明的,目标是做到任意检索( universal access ),数字馆藏应超越传统馆藏而不能仅成为其替代品” [4]

美国著名的数字图书馆研究计划”数字图书馆先导研究计划”第一期将数字图书馆的研究范围限定为”分布式知识工作环境( Distributed Knowledge Work Environments )”,在 1997 年对第一期项目进行总结并对第二期项目进行规划时,专门就该项目对于数字图书馆的定义问题举办了研讨会,研讨会认为上述认识不尽准确,数字图书馆不仅仅是数字馆藏及管理工具的集合,而应包括信息、数据和知识在整个创建、发布、利用、存储等生命周期内的所有活动 [5]

综合上述各种定义,我们对于数字图书馆给出一个限定外延的描述性定义: “数字图书馆是在分布式计算机网络环境中信息资源的组织形式,提供国家信息基础设施( NII )的关键性信息管理技术,并提供其主要的信息资源库。” 这个定义试图抓住数字图书馆的最本质特征–分布式网络环境中的数字化对象的集合,以及最广义的适用范围– NII 的资源库。而对于数字图书馆内涵,我们认同最宽泛的解释:任何利用数字技术和计算机网络获取、存储、存取、发布信息的图书馆或信息机构都可以称为数字图书馆。一个初生婴儿的发展有无限的可能性,我们为什么要作茧自缚呢?

不论信息以何种形式存在,图书馆的任务始终只有一个:对于知识信息的收集和整理,以便更好地传播和利用。传统图书馆收集、存储并重新组织信息,使读者能方便地查到其所需要的信息,传统图书馆还跟踪读者使用情况,以保护信息提供者的权益。数字图书馆抽象地看,与传统图书馆几乎具有相同的工作流程,不同的技术手段为同样的工作环节服务。数字图书馆需要收集或创建数字化馆藏,这集成了各种数字化技术,如高分辨率数字扫描和色彩矫正、光学字符识别、信息压缩、格式转换等。数字图书馆利用建立在各种关系数据库或面向对象数据库系统上的有关数字对象的组织、管理、查询技术能够帮助用户便捷地查找信息,并将信息按照用户期望的格式发送。在安全保护、访问许可和记帐服务等完善的权限管理之下,数字图书馆内经授权的信息能够利用 INTERNET 的发布技术,实现全球信息共享。

数字图书馆有三个基本要素 :数字化资源、网络化存取和分布式管理。

数字化资源 :大量的数字化资源是数字图书馆的 ” 物质 ” 基础。数字图书馆中的数字化资源应该能够直接提供读者所需的信息,而不只是二次文献(仅使用户获得如何得到文献的线索),然而也应该包含大量的查找信息和帮助信息,因为二次文献也可能是某些读者的最终需求,所以书目数据,索引文摘等应该是数字图书馆的有机组成部分,同时由于数字化把各种不同的载体统一于 0 和 1 两个简单的数字,书籍、期刊、录音录像带、缩微品、光盘或者古籍、善本、手稿、碑帖、字画、 X 光片等等,在数字图书馆中都消失了原本的物理形态,多媒体自然也成了数字图书馆的特征之一。

网络化存取 :高速的数字通信网络是数字图书馆的存在基础。数字图书馆依附于网络而存在,其对内的业务组织和对外的服务都是以网络为工具或载体,使得它得益于网络也受制于网络。只有利用网络所提供的一切便利和优势,才能最大限度地发挥数字图书馆的作用和优势。

分布式管理 :分布式管理是数字图书馆发展的高级阶段,它意味着全球数字图书馆遵循统一的访问协议之后,数字图书馆可以实现”联邦检索”,全球数字图书馆将像现在的 INTERNET 联接网站一样,把全球的数字化资源连为一体,组成一个巨大的图书馆,使组织和共享人类所有知识成为一种可能。目前关于数字图书馆的最关键的技术研究和开发重点就在于此,这也是数字图书馆之所以聚集众多的人力财力、受到各国特别是发达国家高度重视的最主要原因。


[2] http://ei.cs.vt.edu/~dlib/def.htm E.A. Fox (ed.), Source Book on Digital Libraries, TR93-35, Dept. of Computer Science, Virginia Tech, (1993);

[3] UCLA-NSF Workshop on Social Aspects of Digital Libraries, Final report, November, 1996 http://www-lis.gseis.ucla.edu/DL/UCLA_DL_Report.html 。 NII/IITA 的国家级挑战计划。

[4] http://www.ifla.org/documents/libraries/net/arl-dlib.txt

[5] http://scholar.lib.vt.edu/DLI12/defineDL.html

Trackback: http://tb.donews.net/TrackBack.aspx?PostId=552922

数字图书馆的缘起

回顾历史,很多成就巨大的事业都源自于零星的思想火种。数字图书馆的概念萌芽可以追溯到半个世纪以前,这时第一台电子管的”电子计算机”刚刚诞生,工程技术人员整天为获得一丁点”数字化信息”的计算结果,不断地更换象灯泡一样电子管器件 ( 如图:世界第一台电子计算机 ENIAC) 。富有远见的专家学者一直随着计算机信息处理技术的发展,不断对人类知识的载体–图书馆的未来形态进行着构想,在一系列新事物,如因特网 (1984) 、 SGML(1985) 、 CD-ROM(1985) 、多媒体 (1986) 、万维网 www 、国家信息基础设施 NII 等产生之时,”数字图书馆”也迅速成为一个时代的特征之一。

“数字图书馆”这一名词的出现与美国政府提出兴建国家信息基础设施( NII )的提出和因特网的迅速普及处在同一时期,显示了它们之间不可分割的联系。最早进行”数字图书馆( digital library )”探讨的文献始见于 1992 年 [1] , [2] ,这一年七月美国国家科学基金会 NSF 主持了一个”电子图书馆研讨班 ( Workshop on Electronic Libraries) ” [3] ,会上 John Garrett 在介绍美国国家先导研究公司 CNRI 的研究项目时提到数字图书馆计划,同年十二月同样的研讨班就更名为”数字图书馆研讨班( Workshop on Digital Libraries )”,美国著名数字图书馆研究专家 Michael Lesk 作了主题发言,名为《数字图书馆:它是什么,为什么是这样的》 [4] ,此后以”数字图书馆”冠名的各类会议、论文层出不穷,一发而不可收。

数字图书馆的基础根植于整个 80 年代对联机情报检索孜孜不倦的追求和探索 [5] ,以及全文本、多媒体信息处理技术的成熟,其发端可以归因于因特网出现后美国政府对信息基础设施的研究和投入。图书馆员和信息专家对早期的数字图书馆项目有独特的影响,但最主要的贡献却是来自计算机技术前沿。到今天,图书馆、信息机构、出版发行公司等大量地走上了数字图书馆的历史舞台,但背后的导演仍然是最新的信息技术,图书馆及其它信息机构的社会角色在技术带动的根本性变革的驱动下正在发生着深刻的变化。我们研究数字图书馆的根本目的,就是要把握这一变化,适应这一变化带来的挑战。

[1] Garrett, John R. and Alen, Joseph S., Toward a Copyright Management System for Digital Libraries, Copyright Clearance Center, Inc. March 1992 (一说本文发表于 1991 年)

[2] 参见 Fox, Edward, ed. Digital Library Source Book. 1993. URL: http://fox.cs.vt.edu/DLSB.html

[3] CNRI project: John Garrett, Corporation for National Research Initiatives. Workshop on Electronic Libraries, July 20-21, 1992 NSF

[4] Michael Lesk ” The Digital Library: What is it? Why should it be here? ” Workshop on Digital Libraries Xerox Palo Alto Research Center December 9-10, 1992

[5] D. Woelk and W. Kim, Multimedia Information Management in an Object-Oriented Database System , Proc.13th VLDB Conference, 319-329, Brighton (1987). 文中实际上已经提出数字图书馆概念。

Trackback: http://tb.donews.net/TrackBack.aspx?PostId=552913

去除IT应用的浮华

曾有一段时间常常写一些简短的文字,就 IT 在图书情报届的应用发一些小小的感慨或议论,有些内容似乎至今仍有意义。文章总觉得自己的好,有了博客这种形式,就想陆续整理出来给更多的人看到,也当作一种广而告之吧。

去除IT应用的浮华

写于 2001 年 6 月

从专业刊物看我国图书情报界的计算机应用水平实在是不低,某些领域几乎是处于同一水平线上,甚至美国刚发芽,中国已开花。随手举几个例子:网上虚拟参考工作,美国国会图书馆和OCLC20012月刚开完会,国内已有动作;网上资源导航、元数据应用、知识管理、数字资源整合、电子期刊利用等问题,是近期国际专业会议上的热门话题,也开始看到国内专业杂志上有所讨论。这应该说是一个好现象。

然而,我们身处实际工作中的图书馆员们似乎并没有感到这些新东西扑面而来,更没有享受到新技术带来的好处,读者就更无法奢望了。20015月底在清华大学召开的NIT2001数 字图书馆国际会议可以明显看出在应用项目上与国外的差距。就学科建设而言这种现象依然是前些年照搬其他学科概念的翻版,国内除了少数一流的图书馆正在扎扎 实实进行图书馆工作”转型”之外,大多还处在一种看热闹的状态,有些图书情报机构甚至面临大好机遇而不自知,或无所事事,或肆意挥霍,坐失良机。

图书情报机构能否借助IT技术而融入信息产业,图谋凤凰涅磐呢?这需要一些有战略思考、懂IT技术的馆长所长们,进行一些实实在在的开发、研究和应用。

对共享工程有话要说- –

前几日参加了一个会议,有关全国文化信息资源共享工程,感到我们国家的各级领导都非常急切地想把事情做好,真正为老百姓多办点实事。特别是两办发文以后,更舍得花钱了。但以我们的经验似乎总是事与愿违,很好的事情一到下面就走样。回顾以往,我们这个行业很难找到成功案例,许多项目虎头蛇尾,转型变调,甚至被人利用。原谅我就不举例子了。

人们不禁要问:这是为什么?

目前已经不能用领导不重视、资金不充足、人才不得力,技术不成熟等借口来解释了,国家现在对文化事业的重视超过了以往任何时期。当然我们一方面不能满足,但另一方面我们必须要有作为才能有所地位。共享工程已启动三年,两办发文犹如一剂补药,然而如果一些根本问题没有解决,可能不会得到应有的效果。
目前有如下几点我感到有话要说:

1 、定位清楚

这四个字说起来容易,争论起来没完没了。项目的目标和定位必须成为这个项目上上下下耳熟能详的东西,必须作为一切决策、运营、执行和服务中的原则和准绳。

据我了解,中央领导已经给共享工程明确定位:为三种人服务: 1 )农民; 2 )未成年人; 3 )弱势群体。并将该工程定位于传播先进文化的公益性事业。这就对资源建设和最终的服务提出了明确的要求,资源建设从内容到形式都必须是这三种人所喜闻乐见的,服务方式也必须强调对这三种人免费。而免费就会有人不高兴,或不乐意,工程的实施就常常会背离初衷,会走样,因而工程要想办法协调好与各种利益集团之间的关系。

2 、目标明确

项目的目标涉及到工程的可持续发展问题。工程到底是个什么东东?项目总有个结束,结束之后成为什么?网站?网络运营商?资源提供商?服务平台提供商?还是兼而有之。共享工程的网络是个全国范围的局域网(合适吗?仅仅为了规避资源的法律问题?没有其他办法?)?还是什么?我的想法,应该是个数字图书馆,是我们文化领域的公共数字图书馆或者数字公共图书馆。谁说数字图书馆不能是一个网站?现在什么服务不是通过一个互联网门户进去的?况且共享工程还必须依托大量的各级图书馆,特别是基层图书馆进行各种服务,最有特色的就是数字参考服务,网站倒是忽略或者无法进行大量人工服务的。共享工程与我国的公共图书馆事业有一个非常良好的互动、互相促进的关系。谁说数字图书馆不能收藏剧团、影视等多媒体资源呢?只是碍于现有体制,没有收藏罢了。从图书馆的社会职能和定位来看,不收藏反而是不应该的。而且对照国内国外,高等教育系统的 CADLIS ,科技系统的 CSDL ,以及美国的 NSDL 和 DLF 等全国性的联盟,我们的公共图书馆的数字图书馆一直没有一个体系,共享工程正是一个机遇。

3 、规划得当

这主要是一个”技术”层面的事情,但是必须要认真对待,有时各个层面的规划计划要占到项目实施的一半时间。其中该有两个原则: 1 )足够公开、开放,吸取各方意见,特别要专家主事; 2 )严格按程序办事,不能在执行过程中随意走样。如果要更改也要经过一定的管理程序,形成新的补充文档。这可能是项目管理层面的事情,有时严格按照项目管理学科所规定的条条框框去做,似乎显得繁琐,然而却是很有必要的。可能我们文化部的项目没有这种习惯,为什么不能聘请一个有高级资格认证的 PM 呢?可能不一定适应我们的文化,但是事情总有个开始,以我的迂腐之见,总比没有好吧?

4 、组织有力

” 政治路线确定之后,干部就是决定的因素。”对于共享工程,项目组织最重要的在于明确各方的关系,目前还有不少模糊的地方,涉及到信息资源的权利明确、管理上的责任义务,等等。例如工程管理中心和国家中心之间的关系(包括资源使用的关系,到底属于无偿租用,还是永久占用?这其中就涉及到不同资源的服务边界问题);国家中心和各省市自治区中心之间的关系;基层服务点与图书馆的关系(大量的基层服务点并不是图书馆网点,要图书馆去管理,必然有问题);基层服务点与主管部门关系(工商、税务、公安等不认)等等。这个问题也涉及可持续发展,应该尽可能清晰地明确下来。

5 、利益驱动

各参与方都是有自己的利益的,项目需要保障各方利益,才能获得自己最大的利益。这里面有两个问题需要把握: 1 )明确自己的利益,不要变来变去,而且上下一定要统一。如果”自己人”在一个项目中有不同的利益就麻烦了; 2 )与各参与方的利益关系要以明确的形式固定下来,例如合同、协议等等,以免口说无凭,后患无穷。

6 、有限目标

同时不可太急功近利。英国 UKOLN 在最近发布的一篇”最佳实践指南”( http://www.ukoln.ac.uk/interop-focus/gpg/ )中说项目的目标应该符合 SMART 原则,即:

技术要讲求性价比,对于共享工程关键是两头:资源建设和最终服务,这两个方面必须下力气,资源建设要考虑长期保存、一物多用;最终服务不一定要采取最先进的网络全自动方法,辅之以许多人工的群众运动也很好,只要效果达到,群众喜欢,得到实惠。对于网络体系架构技术发展很快,价格变化大,应以利用其他网络提供商提供的服务为主,(例如有线电视,与之合作,租用他的频道,将来租用他的数字频道,用他的机顶盒)。很多东西都是我们不可控的,就外包出去。


Technorati :

叙词与本体,及其在Elsevier的应用

在我看来,叙词表是一类特殊的本体–反映领域知识,具有本体的概念层级结构和用代属分参概念联系,但是没有公理、没有实例,或者说公理和实例不是内在的,体现在应用叙词表的系统中。
情报检索的规范控制近年来有明显的回归趋势,主要归功于语义万维网的提出和研究,语义万维网需要机器来操作语义,就必须首先进行规范控制,最好整个知识系统成为一个封闭世界,语义计算就能够”安全”地进行。当然这是不可能的。
我们大约从2001年开始对知识本体的作用进行研究,感到本体是一个非常重要的、代表未来应用方向的研究和开发领域,也是图书馆学能够贡献我们宝贵的专业知识、使我们这个学科”显性化”的领域,当然离开了我们也不是不能搞,可能创建的本体就不会那么中庸、平衡、人性化,甚至”不象”对普遍知识进行抽象的”学科本体”,而带有许多技术描述的、或十分随意的特征,像yahoo的分类体系一样让我们看不上眼,没有DC元数据那么让图书馆员似曾相似、赏心悦目。我们感到应该尽快像当年搞748工程(建立汉语主题词表)一样进行学科本体的创建和应用,但是好像至今仍没有什么启动项目。

知识本体的主要作用如下:

* 在人、机器(表现为软件代理)以及人与机器之间共享对于信息及结构的共同理解
* 实现一定程度的领域知识的重用
* 知识本体可以明确领域假设,使领域公理得到明确描述从而达成共知
* 对于领域知识进行分析、明确,并使其形式化

对于数字图书馆应该能起到如下作用:

* 提供与描述型元数据有关语义描述的知识地图
* 提供资源库领域知识的规范描述
* 提供元数据映射方案,集成到数字图书馆体系中的元数据服务中,成为协议的一部分
* 提供智能代理与信息环境之间基于语义的理解机制
* 跨平台、跨系统之间的通信中介
* 分布环境下查询请求的语义理解

现 有的技术当中最接近本体的就是叙词表了。前些年基于自由词的全文检索势不可挡,而今面临信息超载,注意力稀缺,查到和查准成了非常困难的事情,人们对信息组 织和查询的要求更高了,不得不回过头来,重新审视传统情报检索领域的一些几乎被人遗忘的好的想法。而这些想法一经计算机专家之手,就被玩得完全不同了。
研 究叙词表与知识本体的文章已经有不少了,今天看了一篇Elsevier出版公司对于其众多数据库进行”技术改造”的想法,应用语义技术,涉及叙词表的改 造,虽然没有什么非常特出的地方,但因为是具体企业的应用,还是很有启发的。我国的很多计算机公司,包括软件公司,对新技术的研发投入和应用能力实在不敢 恭维。例如帮我们开发系统的公司,一边赚我们的钱,一边跟我们学,东西开发出来还不能让人满意,真让人愤愤啊!

elsevier 的语义系统应用;

传统上 Elsevier 采用属性字段检索和叙词表主要用于:

*标引文献Indexing (tagging) articles, books and other materials
*层次浏览Browsing thesaurus-indexed content
*扩检Expanding searches against specialized content
*   Overall, a net benefit, but not huge
*范围限定Limiting a search by category
*文件聚类Clustering documents by category
*   Better than limiting search up front…data-driven

然而 Elsevier 目前没有在检索中采用叙词表,据称是因为相对于现在流行的全文检索而言好处不明显(可能还极大地增加了系统的复杂性和维护成本)。

Elsevier 在语义主导 Web 的时候重新考虑采用叙词表,据称主要原因是:

*采用多种叙词表,能够对开放或者内部的数据库实现统一的字段检索,Integrated search of proprietary, public and/or local user content using multiple thesauri
*整合文本名称与化学结构Integrating chemical structure info with text documents
*整合各种模式的数据库Integrating databases with diverse schemas
*支持文本挖掘Supporting text mining
*扩展检索范围Other uses requested by our customers (e.g., extensibility for local content)
*改进叙词表的导航性能Improved thesaurus navigation
*改进查询命中结果Improved search results

叙词表的新用法:

建立基于 RDF 的中间本体用于不同叙词表之间进行映射;

支持多种关系描述 Support multiple relationships

支持用户自行扩展 Extensible by customers

改进性能和可扩展性

试验新的查询选项

在改进查准率的同时改进查全率

用于查询结果的可视化展示,优化用户交户界面

Elsevier 对于文本挖掘的看法:

  • 认识:文本挖掘已经成为信息过剩(overload)时代信息提供的一个必备工具;
  • 重视需求调查,不断开发新的应用;
  • 同时提供”实质性”的挖掘工具和”预备研究”(meta-research)工具;
  • 时间维上的发展趋势,作者/机构分布等等;
  • 以RDF形式作为存储事实的基本形式,提供事实抽取的数据基础。


Technorati : ,

数图演义(混沌初开篇)- –

看到大家对 数图演义 的另类标题很感兴趣,窃喜。前几天开了个头(只是开头,语言也不敢太调侃),在这里先献个丑。

NSF 对数图的清算:知识在信息中迷失

近几年,正当国内数字图书馆界高奏凯歌,几大系统数字图书馆项目纷纷尘埃落定、笑逐颜开的时候,美国和欧洲纷纷对十余年来在数字图书馆研发方面的巨额投入进行反省和总结。其中最著名的要算美国国家科学基金会 (NSF: National Science Foundation) 于 2003 年 6 月召开的”未来的浪潮:昭示数字图书馆未来( Wave of the Future: NSF Post Digital Library Futures Workshop )”研讨会, 与会者四十多位,真可谓大腕云集,高手如林,会后发表了著名的《知识在信息中迷失》的趋势研究报告。

NSF 为这次会议很早就进行了精心准备。早在一月就与英国 JISC ( Joint Information Systems Committee )一起召开过一次小型的研讨会,听取了欧洲数字图书馆 DELOS 计划和许多英国同行的意见。本次会议之前, NSF 向每位受邀专家发出了一份讨论纲要,列出了需要讨论的主题和问题,并要求每一位专家赐稿。会议选在美国麻省风景如画的鳕鱼岬( Cape Cod )召开。在三天的会议中,进行了多种形式的讨论,所幸的是所有的会议资料都在网站上公开,使我们能够深入研究此次会议,分享会议取得的成果,并为我们提供”站在巨人肩上”的机会。

众所周知, NSF 代表了数字图书馆的最早倡导者,由其批准的两期数字图书馆先导研究计划( DLI: Digital Library Initiave )到 2003 年已接近尾声。究竟这项投入七千多万美元、历时八年的项目取得了怎样的成绩?影响如何?众人如何评说?下一步该怎么办? NSF 急切地希望得到答案。

2003 年年初一份重要报告的出炉,使这次会议的召开显得尤为迫切。这份名为《赛百基础结构带来科学与工程的革命》 的报告,是密西根大学的 Daniel Atkins 教授牵头的一个”蓝带委员会”访问了六十多位顶尖专家、化了大半年时间完成。这份报告从一个更为广阔的背景中分析了信息基础设施建者中新的机遇,为美国信息技术国家战略的制定者指明了下一步发展方向。这份报告的出台从某种意义上说明美国在以数字图书馆为代表的信息基础设施投入方面的重点已经转移,美国已经找到更为急需的发展目标。这份报告对美国未来信息技术发展的国家战略具有相当的指导意义。 Atkins 教授曾是美国”数字图书馆先导研究计划第一期( DLI1 )”密歇根大学数字图书馆项目的负责人,应该说也是数字图书馆研究的先驱之一,然而这份报告只是把数字图书馆作为未来赛百基础结构中的一个部分。这是否意味着”数字图书馆”研究浪潮的终结?由国家倡导的有关数字图书馆的研究与开发是否已足够成熟?可以由”倡导( Initiatives) “而成为”计划( Program )”,进而移交给民间和企业,实现其可持续发展?如果是这样,那么数字图书馆在未来的”赛百基础结构”中应该如何定位?如何发展?

本文也想跟随这些报告的脉络,厘清头绪,对上面这些问题作一个探讨。
……


Technorati :

关于元数据方案的问题- –

这是2002年的一个文档中的一些思考,现在有些问题已经有所解决,有些问题的提法已经不对了。贴在这里存档。有机会更新一下。

1、元数据方案分两层:站点级元数据与资源级元数据,名称是否合适?

2、 资源级元数据方案的是否一定要一种”核心”元数据方案(例如选择 DC),作为整个系统的”必须”的元数据元素方案,并规定一组核心元数据元素,哪些是必需的,哪些是可选的等等?或者认为各种元数据方案都是平等的,(缺省甚至可以没有元数据方案?)通过元数据服务器提供相应元数据的包装,以及映射、解析服务,由此揭示资源内容。

3、 元数据方案的功能需求?资源揭示 / 管理 / 保存?
集成数据的结构和语义信息,为实现一定的数据服务进行必要的数据规范和描述,同时实现一些功能性要求(管理、版本 etc.)

4、 对于特定用户查询,元数据方案在资源揭示时是怎样起作用的?
先是通过匹配用户查询针对那些领域(站点元数据),确定需要查询的索引服务器,寻找到合适的站点,发送请求(资源级元数据),然后返回请求,汇总,排序,显示给浏览着。

5、元数据服务器究竟能够实现什么功能?哪些功能是必要的?哪些是可选的?

6、站点级元数据与本体论的关系,如何实现以本体论组织站点?

7、 站点级元数据如何产生(注册)?站点级元数据的具体内容是什么?站点与站点之间的关系如何通过元数据来表现( ontology )?
站点级元数据需要说明站点的内容、能力、地址等信息。信息类别、素材种类、属性模型( CNMARC 或 Dublin Core)、查询能力、查询操作符等。
站点级元数据与资源级元数据是怎样的关系?怎样”收获 harvest “元数据?有必要收获吗?怎样情况下应该收获?怎样情况应该可以允许” on the fly ” ?

8、现有数字图书馆方案中的元数据方案分别是怎样的?

9、 元数据对于语义揭示的互操作是根本的,但是在结构方面的互操作也实在元数据方面不得不考虑的因素。因而描述规范(结构)也是元数据方案必须确定的内容之一。目前的元数据描述规范(表达: XML/RDF/HTML/RMDB/Warwick Framework )有哪些?能否尽量罗列完全 ?

10、元数据著录规则?元数据应用机制?元数据推广方案。

11、查询服务器:生成规范的查询提问式,提供查询路由服务

12、 资源级元数据是否在数字图书馆中分布式保存?互为镜像?抑或纯粹保存在资源站点本地?抑或采取目前 OAI 的方案:采取内容提供站点和服务提供站点分开的方式。