存档三月 2005

去除IT应用的浮华

曾有一段时间常常写一些简短的文字,就 IT 在图书情报届的应用发一些小小的感慨或议论,有些内容似乎至今仍有意义。文章总觉得自己的好,有了博客这种形式,就想陆续整理出来给更多的人看到,也当作一种广而告之吧。

去除IT应用的浮华

写于 2001 年 6 月

从专业刊物看我国图书情报界的计算机应用水平实在是不低,某些领域几乎是处于同一水平线上,甚至美国刚发芽,中国已开花。随手举几个例子:网上虚拟参考工作,美国国会图书馆和OCLC20012月刚开完会,国内已有动作;网上资源导航、元数据应用、知识管理、数字资源整合、电子期刊利用等问题,是近期国际专业会议上的热门话题,也开始看到国内专业杂志上有所讨论。这应该说是一个好现象。

然而,我们身处实际工作中的图书馆员们似乎并没有感到这些新东西扑面而来,更没有享受到新技术带来的好处,读者就更无法奢望了。20015月底在清华大学召开的NIT2001数 字图书馆国际会议可以明显看出在应用项目上与国外的差距。就学科建设而言这种现象依然是前些年照搬其他学科概念的翻版,国内除了少数一流的图书馆正在扎扎 实实进行图书馆工作”转型”之外,大多还处在一种看热闹的状态,有些图书情报机构甚至面临大好机遇而不自知,或无所事事,或肆意挥霍,坐失良机。

图书情报机构能否借助IT技术而融入信息产业,图谋凤凰涅磐呢?这需要一些有战略思考、懂IT技术的馆长所长们,进行一些实实在在的开发、研究和应用。

对共享工程有话要说- –

前几日参加了一个会议,有关全国文化信息资源共享工程,感到我们国家的各级领导都非常急切地想把事情做好,真正为老百姓多办点实事。特别是两办发文以后,更舍得花钱了。但以我们的经验似乎总是事与愿违,很好的事情一到下面就走样。回顾以往,我们这个行业很难找到成功案例,许多项目虎头蛇尾,转型变调,甚至被人利用。原谅我就不举例子了。

人们不禁要问:这是为什么?

目前已经不能用领导不重视、资金不充足、人才不得力,技术不成熟等借口来解释了,国家现在对文化事业的重视超过了以往任何时期。当然我们一方面不能满足,但另一方面我们必须要有作为才能有所地位。共享工程已启动三年,两办发文犹如一剂补药,然而如果一些根本问题没有解决,可能不会得到应有的效果。
目前有如下几点我感到有话要说:

1 、定位清楚

这四个字说起来容易,争论起来没完没了。项目的目标和定位必须成为这个项目上上下下耳熟能详的东西,必须作为一切决策、运营、执行和服务中的原则和准绳。

据我了解,中央领导已经给共享工程明确定位:为三种人服务: 1 )农民; 2 )未成年人; 3 )弱势群体。并将该工程定位于传播先进文化的公益性事业。这就对资源建设和最终的服务提出了明确的要求,资源建设从内容到形式都必须是这三种人所喜闻乐见的,服务方式也必须强调对这三种人免费。而免费就会有人不高兴,或不乐意,工程的实施就常常会背离初衷,会走样,因而工程要想办法协调好与各种利益集团之间的关系。

2 、目标明确

项目的目标涉及到工程的可持续发展问题。工程到底是个什么东东?项目总有个结束,结束之后成为什么?网站?网络运营商?资源提供商?服务平台提供商?还是兼而有之。共享工程的网络是个全国范围的局域网(合适吗?仅仅为了规避资源的法律问题?没有其他办法?)?还是什么?我的想法,应该是个数字图书馆,是我们文化领域的公共数字图书馆或者数字公共图书馆。谁说数字图书馆不能是一个网站?现在什么服务不是通过一个互联网门户进去的?况且共享工程还必须依托大量的各级图书馆,特别是基层图书馆进行各种服务,最有特色的就是数字参考服务,网站倒是忽略或者无法进行大量人工服务的。共享工程与我国的公共图书馆事业有一个非常良好的互动、互相促进的关系。谁说数字图书馆不能收藏剧团、影视等多媒体资源呢?只是碍于现有体制,没有收藏罢了。从图书馆的社会职能和定位来看,不收藏反而是不应该的。而且对照国内国外,高等教育系统的 CADLIS ,科技系统的 CSDL ,以及美国的 NSDL 和 DLF 等全国性的联盟,我们的公共图书馆的数字图书馆一直没有一个体系,共享工程正是一个机遇。

3 、规划得当

这主要是一个”技术”层面的事情,但是必须要认真对待,有时各个层面的规划计划要占到项目实施的一半时间。其中该有两个原则: 1 )足够公开、开放,吸取各方意见,特别要专家主事; 2 )严格按程序办事,不能在执行过程中随意走样。如果要更改也要经过一定的管理程序,形成新的补充文档。这可能是项目管理层面的事情,有时严格按照项目管理学科所规定的条条框框去做,似乎显得繁琐,然而却是很有必要的。可能我们文化部的项目没有这种习惯,为什么不能聘请一个有高级资格认证的 PM 呢?可能不一定适应我们的文化,但是事情总有个开始,以我的迂腐之见,总比没有好吧?

4 、组织有力

” 政治路线确定之后,干部就是决定的因素。”对于共享工程,项目组织最重要的在于明确各方的关系,目前还有不少模糊的地方,涉及到信息资源的权利明确、管理上的责任义务,等等。例如工程管理中心和国家中心之间的关系(包括资源使用的关系,到底属于无偿租用,还是永久占用?这其中就涉及到不同资源的服务边界问题);国家中心和各省市自治区中心之间的关系;基层服务点与图书馆的关系(大量的基层服务点并不是图书馆网点,要图书馆去管理,必然有问题);基层服务点与主管部门关系(工商、税务、公安等不认)等等。这个问题也涉及可持续发展,应该尽可能清晰地明确下来。

5 、利益驱动

各参与方都是有自己的利益的,项目需要保障各方利益,才能获得自己最大的利益。这里面有两个问题需要把握: 1 )明确自己的利益,不要变来变去,而且上下一定要统一。如果”自己人”在一个项目中有不同的利益就麻烦了; 2 )与各参与方的利益关系要以明确的形式固定下来,例如合同、协议等等,以免口说无凭,后患无穷。

6 、有限目标

同时不可太急功近利。英国 UKOLN 在最近发布的一篇”最佳实践指南”( http://www.ukoln.ac.uk/interop-focus/gpg/ )中说项目的目标应该符合 SMART 原则,即:

技术要讲求性价比,对于共享工程关键是两头:资源建设和最终服务,这两个方面必须下力气,资源建设要考虑长期保存、一物多用;最终服务不一定要采取最先进的网络全自动方法,辅之以许多人工的群众运动也很好,只要效果达到,群众喜欢,得到实惠。对于网络体系架构技术发展很快,价格变化大,应以利用其他网络提供商提供的服务为主,(例如有线电视,与之合作,租用他的频道,将来租用他的数字频道,用他的机顶盒)。很多东西都是我们不可控的,就外包出去。


Technorati :

叙词与本体,及其在Elsevier的应用

在我看来,叙词表是一类特殊的本体–反映领域知识,具有本体的概念层级结构和用代属分参概念联系,但是没有公理、没有实例,或者说公理和实例不是内在的,体现在应用叙词表的系统中。
情报检索的规范控制近年来有明显的回归趋势,主要归功于语义万维网的提出和研究,语义万维网需要机器来操作语义,就必须首先进行规范控制,最好整个知识系统成为一个封闭世界,语义计算就能够”安全”地进行。当然这是不可能的。
我们大约从2001年开始对知识本体的作用进行研究,感到本体是一个非常重要的、代表未来应用方向的研究和开发领域,也是图书馆学能够贡献我们宝贵的专业知识、使我们这个学科”显性化”的领域,当然离开了我们也不是不能搞,可能创建的本体就不会那么中庸、平衡、人性化,甚至”不象”对普遍知识进行抽象的”学科本体”,而带有许多技术描述的、或十分随意的特征,像yahoo的分类体系一样让我们看不上眼,没有DC元数据那么让图书馆员似曾相似、赏心悦目。我们感到应该尽快像当年搞748工程(建立汉语主题词表)一样进行学科本体的创建和应用,但是好像至今仍没有什么启动项目。

知识本体的主要作用如下:

* 在人、机器(表现为软件代理)以及人与机器之间共享对于信息及结构的共同理解
* 实现一定程度的领域知识的重用
* 知识本体可以明确领域假设,使领域公理得到明确描述从而达成共知
* 对于领域知识进行分析、明确,并使其形式化

对于数字图书馆应该能起到如下作用:

* 提供与描述型元数据有关语义描述的知识地图
* 提供资源库领域知识的规范描述
* 提供元数据映射方案,集成到数字图书馆体系中的元数据服务中,成为协议的一部分
* 提供智能代理与信息环境之间基于语义的理解机制
* 跨平台、跨系统之间的通信中介
* 分布环境下查询请求的语义理解

现 有的技术当中最接近本体的就是叙词表了。前些年基于自由词的全文检索势不可挡,而今面临信息超载,注意力稀缺,查到和查准成了非常困难的事情,人们对信息组 织和查询的要求更高了,不得不回过头来,重新审视传统情报检索领域的一些几乎被人遗忘的好的想法。而这些想法一经计算机专家之手,就被玩得完全不同了。
研 究叙词表与知识本体的文章已经有不少了,今天看了一篇Elsevier出版公司对于其众多数据库进行”技术改造”的想法,应用语义技术,涉及叙词表的改 造,虽然没有什么非常特出的地方,但因为是具体企业的应用,还是很有启发的。我国的很多计算机公司,包括软件公司,对新技术的研发投入和应用能力实在不敢 恭维。例如帮我们开发系统的公司,一边赚我们的钱,一边跟我们学,东西开发出来还不能让人满意,真让人愤愤啊!

elsevier 的语义系统应用;

传统上 Elsevier 采用属性字段检索和叙词表主要用于:

*标引文献Indexing (tagging) articles, books and other materials
*层次浏览Browsing thesaurus-indexed content
*扩检Expanding searches against specialized content
*   Overall, a net benefit, but not huge
*范围限定Limiting a search by category
*文件聚类Clustering documents by category
*   Better than limiting search up front…data-driven

然而 Elsevier 目前没有在检索中采用叙词表,据称是因为相对于现在流行的全文检索而言好处不明显(可能还极大地增加了系统的复杂性和维护成本)。

Elsevier 在语义主导 Web 的时候重新考虑采用叙词表,据称主要原因是:

*采用多种叙词表,能够对开放或者内部的数据库实现统一的字段检索,Integrated search of proprietary, public and/or local user content using multiple thesauri
*整合文本名称与化学结构Integrating chemical structure info with text documents
*整合各种模式的数据库Integrating databases with diverse schemas
*支持文本挖掘Supporting text mining
*扩展检索范围Other uses requested by our customers (e.g., extensibility for local content)
*改进叙词表的导航性能Improved thesaurus navigation
*改进查询命中结果Improved search results

叙词表的新用法:

建立基于 RDF 的中间本体用于不同叙词表之间进行映射;

支持多种关系描述 Support multiple relationships

支持用户自行扩展 Extensible by customers

改进性能和可扩展性

试验新的查询选项

在改进查准率的同时改进查全率

用于查询结果的可视化展示,优化用户交户界面

Elsevier 对于文本挖掘的看法:

  • 认识:文本挖掘已经成为信息过剩(overload)时代信息提供的一个必备工具;
  • 重视需求调查,不断开发新的应用;
  • 同时提供”实质性”的挖掘工具和”预备研究”(meta-research)工具;
  • 时间维上的发展趋势,作者/机构分布等等;
  • 以RDF形式作为存储事实的基本形式,提供事实抽取的数据基础。


Technorati : ,

数图演义(混沌初开篇)- –

看到大家对 数图演义 的另类标题很感兴趣,窃喜。前几天开了个头(只是开头,语言也不敢太调侃),在这里先献个丑。

NSF 对数图的清算:知识在信息中迷失

近几年,正当国内数字图书馆界高奏凯歌,几大系统数字图书馆项目纷纷尘埃落定、笑逐颜开的时候,美国和欧洲纷纷对十余年来在数字图书馆研发方面的巨额投入进行反省和总结。其中最著名的要算美国国家科学基金会 (NSF: National Science Foundation) 于 2003 年 6 月召开的”未来的浪潮:昭示数字图书馆未来( Wave of the Future: NSF Post Digital Library Futures Workshop )”研讨会, 与会者四十多位,真可谓大腕云集,高手如林,会后发表了著名的《知识在信息中迷失》的趋势研究报告。

NSF 为这次会议很早就进行了精心准备。早在一月就与英国 JISC ( Joint Information Systems Committee )一起召开过一次小型的研讨会,听取了欧洲数字图书馆 DELOS 计划和许多英国同行的意见。本次会议之前, NSF 向每位受邀专家发出了一份讨论纲要,列出了需要讨论的主题和问题,并要求每一位专家赐稿。会议选在美国麻省风景如画的鳕鱼岬( Cape Cod )召开。在三天的会议中,进行了多种形式的讨论,所幸的是所有的会议资料都在网站上公开,使我们能够深入研究此次会议,分享会议取得的成果,并为我们提供”站在巨人肩上”的机会。

众所周知, NSF 代表了数字图书馆的最早倡导者,由其批准的两期数字图书馆先导研究计划( DLI: Digital Library Initiave )到 2003 年已接近尾声。究竟这项投入七千多万美元、历时八年的项目取得了怎样的成绩?影响如何?众人如何评说?下一步该怎么办? NSF 急切地希望得到答案。

2003 年年初一份重要报告的出炉,使这次会议的召开显得尤为迫切。这份名为《赛百基础结构带来科学与工程的革命》 的报告,是密西根大学的 Daniel Atkins 教授牵头的一个”蓝带委员会”访问了六十多位顶尖专家、化了大半年时间完成。这份报告从一个更为广阔的背景中分析了信息基础设施建者中新的机遇,为美国信息技术国家战略的制定者指明了下一步发展方向。这份报告的出台从某种意义上说明美国在以数字图书馆为代表的信息基础设施投入方面的重点已经转移,美国已经找到更为急需的发展目标。这份报告对美国未来信息技术发展的国家战略具有相当的指导意义。 Atkins 教授曾是美国”数字图书馆先导研究计划第一期( DLI1 )”密歇根大学数字图书馆项目的负责人,应该说也是数字图书馆研究的先驱之一,然而这份报告只是把数字图书馆作为未来赛百基础结构中的一个部分。这是否意味着”数字图书馆”研究浪潮的终结?由国家倡导的有关数字图书馆的研究与开发是否已足够成熟?可以由”倡导( Initiatives) “而成为”计划( Program )”,进而移交给民间和企业,实现其可持续发展?如果是这样,那么数字图书馆在未来的”赛百基础结构”中应该如何定位?如何发展?

本文也想跟随这些报告的脉络,厘清头绪,对上面这些问题作一个探讨。
……


Technorati :

关于元数据方案的问题- –

这是2002年的一个文档中的一些思考,现在有些问题已经有所解决,有些问题的提法已经不对了。贴在这里存档。有机会更新一下。

1、元数据方案分两层:站点级元数据与资源级元数据,名称是否合适?

2、 资源级元数据方案的是否一定要一种”核心”元数据方案(例如选择 DC),作为整个系统的”必须”的元数据元素方案,并规定一组核心元数据元素,哪些是必需的,哪些是可选的等等?或者认为各种元数据方案都是平等的,(缺省甚至可以没有元数据方案?)通过元数据服务器提供相应元数据的包装,以及映射、解析服务,由此揭示资源内容。

3、 元数据方案的功能需求?资源揭示 / 管理 / 保存?
集成数据的结构和语义信息,为实现一定的数据服务进行必要的数据规范和描述,同时实现一些功能性要求(管理、版本 etc.)

4、 对于特定用户查询,元数据方案在资源揭示时是怎样起作用的?
先是通过匹配用户查询针对那些领域(站点元数据),确定需要查询的索引服务器,寻找到合适的站点,发送请求(资源级元数据),然后返回请求,汇总,排序,显示给浏览着。

5、元数据服务器究竟能够实现什么功能?哪些功能是必要的?哪些是可选的?

6、站点级元数据与本体论的关系,如何实现以本体论组织站点?

7、 站点级元数据如何产生(注册)?站点级元数据的具体内容是什么?站点与站点之间的关系如何通过元数据来表现( ontology )?
站点级元数据需要说明站点的内容、能力、地址等信息。信息类别、素材种类、属性模型( CNMARC 或 Dublin Core)、查询能力、查询操作符等。
站点级元数据与资源级元数据是怎样的关系?怎样”收获 harvest “元数据?有必要收获吗?怎样情况下应该收获?怎样情况应该可以允许” on the fly ” ?

8、现有数字图书馆方案中的元数据方案分别是怎样的?

9、 元数据对于语义揭示的互操作是根本的,但是在结构方面的互操作也实在元数据方面不得不考虑的因素。因而描述规范(结构)也是元数据方案必须确定的内容之一。目前的元数据描述规范(表达: XML/RDF/HTML/RMDB/Warwick Framework )有哪些?能否尽量罗列完全 ?

10、元数据著录规则?元数据应用机制?元数据推广方案。

11、查询服务器:生成规范的查询提问式,提供查询路由服务

12、 资源级元数据是否在数字图书馆中分布式保存?互为镜像?抑或纯粹保存在资源站点本地?抑或采取目前 OAI 的方案:采取内容提供站点和服务提供站点分开的方式。

数图演义- –

一位编辑约稿,关于中外数字图书馆研究进展综述,想尝试一种新的写法,包含内容如下,不知是否会得到首肯。

  • NSF 对数图的清算:知识在信息中迷失
  • Google 奇迹:敲掉谁的饭碗?
  • 狐狸先生的”金木水火土”数字图书馆五行学说
  • DLI 前朝遗少: DSpace 和 Fedora
  • Ian Witten 为”绿石”( Greenstone )鼓与呼
  • DCMI “讣告”:涅磐与重生
  • 张晓林:只有元数据能救数字图书馆?
  • 数字图书馆梦圆国图二期