存档二月 2005

元数据注册系统的作用

一套元数据规范可以看成是一套规范词表,可以认为具有权威控制的功能,并构成一个独特应用领域的本体。利用数据库提供词汇的组织、管理功能,以 RDF 编码,提供友好的界面供人工查询,提供 application program interfaces ( API )供机器使用。同时可用于非 DCMI 词的注册、管理。

  • 通过元数据元素的重用支持语义互操作;
  • 通过元数据XML Schema的重用支持编码的一致性;
  • 通过元数据应用规则和著录规则的重用而获得模型的一致性;
  • 提供制定元数据方案的方法论和工具(编辑加工修改查询及形式化工具);
  • 提供Semantic Web Serviceautomatic access API
  • 提供各语种的翻译对照

关于CALIS- –

CALIS二期是我国最有希望的数字图书馆系统之一,可与一争的只有CAS图书馆,而后者还不具有前者广大读者群和分布式资源管理的特点。

以前学习过CALIS二期的计划,也给馆长们汇报过一次,有关资料整理存档如下。

CADLIS 十五建设的总目标:在完善九五期间 CALIS 建设成果的基础上,到 2005 年底,初步建成具有国际先进水平的、开放式的中国高等教育数字图书馆。

对此数字图书馆的描述:以系统化、数字化的学术信息资源为基础,以先进的数字图书馆技术为手段,以 CERNET 为依托,为高等院校教学、科研和重点学科建设提供高效率、全方位的文献信息保障与服务,成为经济和社会发展的重要基础设施。

十五期间的建设内容:

5 大环境系统中的三大:

1、文献服务环境

联合目录数据库、学位论文库、特色数据库、以及馆际互借系统等成果以及各类数字资源,通过对各种形态数字资源和各种资源服务方式进行多种方式的整合和自动化协同工作,建立分布式的、开放的综合文献服务环境。该环境已资助的方式向不同类型的读者提供多层次、个性化的文献检索与获取服务等。

相关子项目:

2、参考咨询环境

通过建立以共享知识库和学习中心为支撑的全国咨询台、本地咨询台等良机分布式服务体系,构建面向中国高等教育的分布式联合虚拟参考咨询环境。该环境以本地咨询台为主体,全国咨询台为支撑,实现 24/7 合作咨询服务模式,针对高校读者在使用数字图书馆中所发生的问题,咨询官员能够予以及时解答,不受时间、地点的限制。

相关子项目:分布式联合虚拟参考咨询系统(上海交大)

3、教学辅助环境

以教学参考信息和教学电子参考书为基础,构筑面向我国高等教育的教学参考辅助环境。不经提供教学参考信息和教学参考书的电子文献等一般性服务,而且集成文献服务环境和参考咨询环境的部分功能,构建面向实际教学的 E-reserve (教学参考)环境,成为现代教学的重要辅助环节。

相关子项目:高校教学参考信息管理与服务系统

4、科研辅助环境

基于网络手段和数字文献服务,构建网上学术交流和科研服务平台。结合科研特点,充分挖掘和利用 CALIS 和各个高校馆拥有的丰富数字文献资源。建立网上学术文献发布体系,实现学术成果的及时发表( E-print ),为各个学科之间科研活动的交流与合作、跨地域的协作科研提供虚拟场所,促进高校内各学科领域之间以及高校外学术界之间进一步的资源共享与协作。

相关子项目:科研服务系统

5、专业培训环境

采用远程教育和多媒体手段,建立高校图书馆专业人员的培训服务平台。采用全国中心和地区中心两级培训服务模式,开展网上培训,组织网上考试认证。使更多的图书馆专业人员能够获得及时有效的专业技术培训,使其掌握数字图书馆是第新的服务手段和服务方式。

相关子项目:分布式联合虚拟参考咨询系统

通过各类标准规范和统一接口与架构下互相联系,可分可合。

5+1 数字服务平台: + 服务支撑平台


Technorati :

情报检索与知识组织(2月25日修订)- –

对于知识的认识(包括”知识组织”)在古代应该属于哲学领域,如果沾得上边,后来的图书馆学可以算是一门。图书馆学通过管理知识载体来反映知识结构,并促进知识的有效传播和利用。其中的核心内容”分类编目”堪当此任。

纸、泥板、羊皮、竹、石以及电光磁等媒介是知识的有形载体,书籍、报刊、杂志、图片、动画等是知识的媒体类型,图书馆、博物馆、大学等社会组织可算是知识的交流机构,也是知识运动国政中不可缺少的一种形式。研究知识,这些方面都值得研究。

二战以后诞生的情报学(或也可称为信息学)专注于知识的内容–信息,而把知识的躯壳留给了图书馆学。信息论走的更远,认为信息是”不确定性的减少”或”负熵”。从这一点说信息学和情报学可以分道扬镳了。二战以后的 情报学受到计算机科学发展的影响,但还是基本上从人的角度去研究情报的规律,无法对只能机械操纵符号的计算机提出任何”智能”一点的要求。人为了充分利用计算机的高速运算、大容量存储能力,以及准确性,发明了一整套情报检索技术。

从穿孔卡片开始,人类最早的计算机奴隶就叫做情报检索。一直到后来的字词索引、匹配、倒排档等等。

计算机就象是上帝给人类的一个魅力无穷的玩具,真的让人能够像上帝一样思考了(不知上帝是否会继续发笑?还是发怒?),人类依靠它,在几十年的时间里除了破解了数据的奥秘(关系型数据库技术),拓展了应用的疆域(Internet和Web技术),甚至创造了人类更加富足的信息化社会。这也再次证明了知识的力量。

目前计算机具有的能力与我们人类的需求之间的鸿沟越来越弥合。然而我们还是不得不为人机之间沟通制定一些原则和模式,这样机器才能更好地模仿人的程序处理信息和知识。元数据和知识本体都是这类工具。

我们现在研究知识组织,已经无法不受到计算机科学已有成果的影响。图书馆情报学知识域中有关信息组织(情报检索)的”话语体系”、”领域本体”必须与计算机科学相关的概念体系进行融合,才能发展。所以我们不得不用计算机科学中在知识组织方面的研究进展取代我们传统的情报检索课程内容。这两个领域的发展速度不是一个数量级的,图书馆学的知识组织能够提供计算机科学许多人文滋养,但是如果不承认计算机科学的主体地位,图书馆学的那点经验学识将会荡然无存。计算机科学的发展有如一辆无可回头的蒸汽机车,在历史的进程中摧枯拉朽、一往无前。

近期大量阅读我图书馆学的情报检索、信息组织教材和计算机科学中的知识库研究成果。

首先对张琪玉、侯汉清编的这本《情报检索语言实用教程》非常感兴趣。一本刚出炉的教材,而且是国内该领域的领衔人物的新作,老树开新花,而且书名冠以”实用”,又是武大出的,让人立刻有探个究竟的愿望。

翻开前言,原来是武大出版社委托编写的,让人感到武大对于传统的图书馆学分支学科已经后继无人了。否则恐怕不会委托早已与武大没有瓜葛的两位老人编写。

前言中还说,本书的编写目的是”减少情报语言学领域诸课程之间的重复,精简讲授内容,突出实用性”,看来传统图书馆学科面临的冲击确实不小。

重复课程大概是指”情报语言学基础””图书分类学””主题法导论”之类的课程,与我目前要给北大研究生班上的”信息组织”主题的课程应该有些类似。

减少了不常用的情报检索语言类型和语种、发展历史的讲授。

内容主要包括:

总的看来,体系结构还是比较严谨和全面的。(这本书值得购买收藏)

情报检索语言及情报语言学的基本问题

作者避开情报、信息、文献的概念争论,把这三者的检索和检索系统作为同一概念。也算是一大实用的认识吧。

对于文献的概念,作者没有使用国标中”记录有知识的一切载体”,而解释为:”文献是存储和传递知识、信息的主要载体,所以,利用文献成为获取知识、信息的主要途径。”逃避概念几乎有点过于随意了(捣浆糊)。

对于”情报检索”概念的解释也是非常”图书馆学”化的:”其广义是指通过建立情报检索系统来解决文献查找问题(也就是知识和信息的查找问题)的整个实践,其侠义仅指根据某种需要从情报检索系统中查找出相关文献线索(也称文献检索)或文献中相关内容(也称事实检索、数据检索或全文检索)的操作过程”。可见其感念定义中的同义反复和不严密的地方何其多。并且从计算机界的角度看这些”同类”概念有不少不必要的人为定义和偏差在其中。广义和狭义,到底如何理解?

从作者的角度而言,数字图书馆可以看成是一个情报检索系统,因为是有序的,可以通过多种途径检索的,检索结果也是经过排序输出的,用户能够满足信息需求的。

关于情报检索语言的定义也是本书中非常核心的概念。情报检索语言是根据情报检索的需要而创制的人工语言,专门用于各种手工的和计算机化的情报检索系统,表达文献主题概念和检索课题概念。他作为提供文献内容检索途径的情报检索系统的一个构成因素,在其中起到语言保障的作用。情报检索语言分为分类检索语言、主题检索语言和代码检索语言三大语系。情报检索语言的实质是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统。

作者的一个经典的理论是:情报检索与情报存储是相反过程

情报存储过程:文献的情报内容 – 经过主题分析确立主题概念 – 经过利用情报检索语言的标引过程输入到情报检索系统中。而情报检索过程是一个相反的过程,检索者的情报需要经过主题分析,得出一系列的主题概念,经过情报检索语言的标引之后,通过检索系统进行检索,最后输出检索结果。

情报检索语言的特点:

情报检索语言的基本功能:

术语与情报检索语言是应用于被应用的关系。

概念的概念:概念是事物本质属性的概括。概念的内涵是指它所指事物的本质属性的综合,即概念的含义。概念的外延是它所指的一切事物,即概念的适用范围。

概念之间的关系:

相容关系(概念的外延至少有一部分相重合)

同一关系、属种关系、交叉关系、整体与部分关系、全面与某一方面关系、外延不相排斥的并列关系。

不相容关系:

并列关系(同位关系):同一个上位概念之下的几个下位概念之间的关系;

矛盾关系:并列关系的特殊形式,外延总合等于其上位概念全部外延的两个并列概念之间的关系。如金属材料与非金属材料;

对立关系:外延总合小于其上位概念全部外延的两个并列而且相互对立的概念之间的关系。例如导电体和绝缘体;其上位概念除了这两者之外,还有半导体。

概念的划分与概括(分类)指对概念的内涵而言,内涵的扩大或缩小。

概念的分析与综合(组配)指对概念的外延而言,外延的融合或分化。


Technorati :

ADL:一个古老但可资参考的例子- –

加州大学圣巴巴拉分校牵头的” Alexandria Digital Library “项目从 DLI1 就开始作,目前应该说已经基本完全结束。其中涉及到数字图书馆体系结构、分布式资源组织管理、资源集合元数据应用等都是我比较关心的,只有一项:地理信息的规范控制和管理却不是我的重点。

亚历山大数字图书馆项目在 1999 年就提出了资源集合描述元数据的各项功能,现在实际上还是沿着这条道路继续标准化,然而进展看起来并不是很大。 ADL 当初的陈述如下(见 1999 年的一篇文章: http://www.alexandria.ucsb.edu/%7Egjanee/archive/1999/jasis-paper.pdf Linda Hill etc. Collection Metadata Solutions for Digital Library Applications ):

The Alexandria Digital Library (ADL) Project has designed and implemented collection metadata for several purposes: in XML form, the collection metadata “registers” the collection with the user interface client; in HTML form, it is used for user documentation; eventually, it will be used to describe the collection to network search agents; and it is used for internal collection management, including mapping the object metadata attributes to the common search parameters of the system.

现在看起来 ADL 中的资源集合元数据有许多”不规范”的地方:即为了实现功能而”任意”添加的属性。由于其应用平台为 C/S 结构,编码虽然是 XML 格式,但是 Vocabulary 是自定义的。数字对象的描述是封装于 Bucket 中,规定了 Bucketde 的类型和结构,以及一个 Core Bucket 。

一些想法:

康奈尔、加大圣塔巴巴拉、斯坦福三个高校的 DLI2 项目与我的论文有关。涉及的主要内容有:

鳕鱼岬会议(2月25日修订)- –

会议名称: Wave of the Future: NSF Post Digital Library Future Workshop ,简称 鳕鱼岬 会议

会议性质:NSF主办,邀请参加

主题: “Ubiquitous Knowledge Environments: The Cyberinfrastructure Information Ether”

地点: Wequassett Inn, Cape Cod, Chatham, Massachusetts

报告标题: Knowledge Lost in Information

参加人员:数字图书馆的父母们

网址: http://www.sis.pitt.edu/~dlwkshop/

美国现在热衷于 Cyberinfrastructure 的研究和建设,每年要投入 1 billion 经费,这是NII/DL的一个后续研究领域,去年3月在日本筑波开 DLKC04 会议时认识的米歇根大学的 Daniel E Atkins 教授是其中的重要人物 [1]

匹兹堡大学信息科学学院的一帮教授似乎对 Atkins 提出的构建 Cyberinfrastructure 的报告非常有心得,在 2003 年 5 月决定美国数字图书馆研发未来方向的鳕鱼角会议上提交了一份报告: Ubiquitous Knowledge Environments: The Cyberinfrastructure Information Ether ,一举为这次会议定下了基调。会议网站也寄放在匹兹堡大学的域名之下。

这份主旨报告,以及这次 鳕鱼岬 会议本身,似乎很清楚地表明,数字图书馆的研究重点已经转为 Ubiquitous Knowledge Environment ( UKE :无所不在的知识环境),或者说数字图书馆将为 UKE 所取代,或者说数字图书馆将以 UKE 的形式而存在。而 UKE 的存在目的是什么?大会的副标题说的很清楚:( to provide ) Cyberinfrastructure Information Ether (提供赛百基础结构的信息大气)。

查国内对于 Daniel Atkins 的 Cyberinfrastructure 报告是否有报道。查到 http://www.sunway.cn/swnews/html/2/2004-02-25/20040225100106.html 有一段:

阅读” 鳕鱼岬 “会议上专家提交的报告,一些感悟:

Carl Lagoze 认为:

NSF 倡导的数字图书馆研发开始于”前” Web 时代,因而造成了数字图书馆研究与 Web 为基础的研究有些各走各的道,并造成数字图书馆研究成果的一定的落后和不合时宜。然而具有讽刺意味的是,目前如日中天的宠儿,也是 Web 世界近来最重要的进展– Google ,最早却是来自于 DLI1 支持的一个项目; DL 研发促进了 Web 核心技术 (Java 、 XML 、 RDF 等 ) 的进展,然而这些技术没有任何一个源自 DLI 项目。

陈钦智说:

经过十余年的研发,例如 DLI1 、 DLI2 、 IDLP 等的系列项目的研发,我们取得了丰硕的成果,包括元数据和 OAI 方面的进展、全文本和机遇图像、视频的检索技术的进展等,这些项目带来了全球数字图书馆的研究开发热潮。数字图书馆的研究顺理成章地引申出 Cyber-infrastructure 的研究领域,后者广泛地包容了数字环境下人、数据、信息、工具、设施设备等复杂的联系,以及信息系统在其中的功能实现,这个领域逐渐取代了数字图书馆的研究地位。 (NSF 每年拟投入 10 亿美元进行研究 ) 。数字图书馆的研究过多地注重技术研发,虽然 DLI2 注意了这一点,然而也还是基于技术创新的。而 Cyber-infrastructure 更注重功能和实践。

数字图书馆研发的任务依旧是:

数字图书馆的研发没有带来大规模的应用,主要原因还是许多研发还是基于 R&D ,而没有将这些技术很好地整合起来。数字图书馆大踏步地进步依赖于对其相关技术、内容和用户的整合(见图示):

待续……


Technorati :

符号、数据、信息、知识、智慧、精神- –

我们这辈人大概能够迎来个人”拥有”全部人类知识,甚至”记录”每一个个体知识的时代。但是”拥有”海量知识并不会自动地使我们拥有智慧,我们必须懂得如何运用知识,操控知识,掌握知识之间的联系,方能比前人更聪明。

数字图书馆通过信息组织管理知识,从信息到知识是一个神秘的过程,决定于人的认知过程。因此对计算机来说,其能力永远体现在信息处理方面,而通过各种各样的工具,展现给人的,就变成了知识。(深入探讨这个问题就进入了哲学范畴,在此略过),

数据

知识

智慧

富有洞察力的知识,在了解多方面的知识后,能够预见一些事情的发生和采取行动。譬如大家都觉得国庆长假去杭州旅游的车票非常紧张(知识),但你已经非常有预见性地购买了车票,领先一步(智慧)。智慧是利用知识采取正确行动的体现。

知识的分类

隐性知识和显性知识

know-X 知识分类法

从企业知识管理的角度研究知识形态的转化和循环过程:

上述过程,包含有三个层次的内容:

知识循环的两大主要过程是共享和创新。

创新过程:

1. 创造:就是创造出新思想。知识网络从不同角度促进思想的交叉运用,所以常常会推动创新循环过程。

2. 编辑:样板涉及和工艺说明等在这一阶段出台。这一环节将思想整理成更容易流通的形式。

3. 嵌入:在这个阶段模型得到进一步完善,另外生产过程和企业规程中也纳入了模型的相关知识。

4. 传播:将产品推向市场或者在企业内执行新的工艺和流程。

共享过程

1 .收集:按照常规或根据需要收集现有知识。通常是知识目录或者知识谱的形式

2 .整理 / 存储:将知识归类并存储起来,经常用一种企业特有的数据库或者归类模式。这样能使随后的知识检索更为方便。这一过程一般要靠专业人员的帮助。

3 .共享 / 传播:按常规将信息传给需要的那些人,这是信息的”推广”。各种会议和活动起到了共享隐性知识的工具作用。

4 .存取:使文件服务器或者数据库服务器中的信息读取更加方便,用户需要时就可以”接入”信息。

5 .使用 / 利用:把知识作为工作流程的一部分。知识得到提炼和发展。通过应用,创造出额外知识,同事循环得以重复。

孔繁胜的《知识库系统原理》则是从计算机科学的角度对于知识进行了分层和分类。

知识包含四层:

以及两类:

什么是知识?什么是学习?这些概念离我们很近,却又十分的遥远.

1.哲学的视角
石中英老师(北师大教育学系主任,1967年出生)在《知识转型与教育改革》一书在导言(知识与教育)和第一章(知识、知识型与知识转型)以及第二章(人类历史上的三次知识转型)从哲学的层次对什么是知识做了系统的文献综述和深入分析。

摘出部分概括如下:
历史上对知识的概念的回答一般会涉及以下关系:
知识与认识者的关系(个体/社会身份),积极主动/消极被动,理性主导/感性主导,陈述/信念);
知识与认识对象的关系(知识是外部世界的镜式反映,真正知识与外部世界相符合,知识真理地位的经验证据是否充分,认识对象是否在认识之前就客观存在);
知识作为陈述本身的逻辑问题(知识有没有统一或标准的陈述形式,概念和命题是逻辑的构造还是历史文化的产物,不同领域知识的概念和命题有何不同特征,如何为陈述知识辩护);
知识与社会的关系(知识是价值中立吗,科学研究活动是纯粹理智行为吗,知识与利益、权力、意识形态、性别等关系,知识生活中知识生产、传播、配置如何受社会因素制约);

2.经济的视角
知识经济;知识管理;

3.社会的视角
知识创新与知识传播;知识的社会性;

4.计算的视角
中科院计算机语言信息中心董振东教授在2003年11月”知识的计算与 《知网》”讲座中说:
“知识是一个系统,它揭示了概念与概念之间,以及概念的属性与属性之间的关系;知识体系的广度与深度取决于上述关系的多少
对于面向计算机的知识体系的质量的关键是它的可计算性以及由此为具体的应用而能够提供的服务。”
并且给出了知识的基元–概念/属性的具体描述,以及可计算的知识系统《知网》设计机制与国际应用情况。


Technorati : , ,

DC2005和ECDL2005- –

今年DC元数据年会与欧洲数字图书馆会议ECDL将于9月中下旬相继召开,前者在西班牙首都马德里,后者在音乐之都维也纳召开。会议征文通知预示着这一领域人们关心的论题的细微变化。
对于DC来说,今年是其十周年,应该有一定的庆祝意义。
如果我要投稿,利用FOAF建设人名规范档是一个很好的题目,结合数字图书馆分布式体系结构、元数据应用、词表规范控制等,有理论,有实践。
DC2005的官方网站:http://dc2005.uc3m.es/
ECDL2005的官方网站:http://www.ecdl2005.org/

DC2005 CFP

Metadata based on standards such as Dublin Core are a key component of information environments from scientific repositories to corporate intranets and from business and publishing to education and e-government.

DC-2005 – the fifth in a series of conferences previously held in Tokyo (2001), Florence (2002), Seattle (2003), and Shanghai (2004) – will examine the practicalities of maintaining and using controlled sets of terms (“vocabularies”) in the context of the Web.

DC-2005 aims at bringing together several distinct communities of vocabulary users:

These diverse communities share common problems, from the the use of identifiers for terms to practices for developing, maintaining, versioning, translating, and adapting standard vocabularies for specific local needs. Topics of particular relevance include:

The Program Committee would like to solicit contributions of the following types:

Paper submissions will be peer-reviewed by the program committee and published both in print and electronically in the conference proceedings. All accepted papers must be presented at the conference by at least one of their authors.

The official language of the conference is English, but we will provide simultaneous translation (English-Spanish) for keynotes, tutorials, and plenary sessions.


Technorati :

论文的“领域知识”- –

最近的学习把握不同领域的兴趣都结合到一起了。 Metasearch 、资源集合的研究、知识本体对于异构信息系统互操作的作用、知识组织与元数据、规范档作用、数字图书馆体系结构等等,这些方面都可以融为一体。然而大脑中的结构时隐时现,还不确定。需要有一个”本体”表达出这样一种”大一统”的结构。

今天看看 UC Santa Barbara 的 ADL 计划。这个数字图书馆项目对于资源整合研究的非常彻底深入,是我学位论文的一个很好的参考原型。

对于 DLI1 早期的基本情况,可以参考 Dli Mag 的特辑: http://www.dlib.org/dlib/july96/07contents.html 。新的情况、各项目的互相影响及成果的后期应用还没有查到专门的总结。我比较关注的是这些项目在解决互操作问题、元数据应用、资源集合描述方面有些什么具体成果和共同结论,这些项目的技术解决方案在目前看起来虽然先进,然而很混乱,都是试验性的,不够简单,不足以获得大规模、广泛的应用。

DLI2 中陈炘钧就领导了一个项目: High-Performance Digital Library Classification Systems: From Information Retrieval to Knowledge Managemen ,在陈炘钧”人工智能实验室”的网页中这个项目变成了该实验室对于” Digital Libraries “研究的总体介绍,包括从 1996 年亚利桑那大学从加州圣塔巴巴拉大学亚历山大数字图书馆项目分得的一个子项目(只有 5 万美元)一直到 2004 年 9 月结题的 NSF 项目。粗粗算来,陈教授在数字图书馆的研究方面拿到了奖金 400 万美元的经费。

在该网页中陈炘钧这样陈述他的研究目标:

To develop techniques to enhance information retrieval and knowledge management of large digital collections. Our work includes portal building initiatives in a wide variety of domains and in multiple languages testing collection building, search, visualization, and analysis techniques.

从研究项目来看,多集中用于生物信息学、教育和计算机文献的数字图书馆方面。

技术研发领域主要有如下一些:


Technorati :