“图书馆2.0”研讨培训班视频下载

今年5月13日-15日由上海图书馆学会和中图学会数图专委会合办的“图书馆2.0技术与服务应用”研讨培训班,视频已经处理完毕(抱歉拖到现在)。最近很忙,不想再做专门页面了,如果大家不怕浪费时间,请到以下地址下载、观看:
http://www.dlresearch.cn/download/lib08tutorials/video/

研讨培训班的具体日程安排和课件下载请参考这个帖子:“图书馆2.0技术与服务应用”研讨培训班明日开班“。

如果您对上述培训及内容有任何意见或建议,可以在这里留言,也可以给我发邮件。谢谢!

Andy Powell介绍元数据

最近 EduservAndy PowellDCMI的技术大拿)以纯正的伦敦英语和Lessig 方式(半小时130个幻灯片),介绍元数据。不容错过。

志愿者培训课件

以下是本人这次参加志愿者行动的课件,采用“署名-非商业性使用-相同方式共享”授权,欢迎下载使用。

2008年7月13日星期日 14:00-17:00 吉林省长春市解放军某部南湖招待所(长春市工农大路2826号):

基层图书馆的自动化网络化建设与共享工程 之一:图书馆自动化、数字化与网络化(7.7MB);
基层图书馆的自动化网络化建设与共享工程 之二:文化共享工程与公共图书馆总分馆建设(3.1MB);
基层图书馆的自动化网络化建设与共享工程 之三:图书馆2.0(12MB);
基层图书馆的自动化网络化建设与共享工程 之四:影响图书馆未来的十大技术(9.6MB)。

2008年7月20日星期日 14:00-17:00 贵州省图书馆五楼多功能厅:

基层图书馆的自动化网络化建设与共享工程 之一:图书馆自动化、数字化与网络化(11MB);
基层图书馆的自动化网络化建设与共享工程 之二:文化共享工程与公共图书馆总分馆建设(7.2MB)。

另外郭斌馆长非常精彩的“基层图书馆馆长实务”课件因为有网友要,我也特别要来了放在此处。其他老师的课件我一旦征得许可,也会放在这里,敬请留意。

update:李超平老师贵州授课的课件下载:图书馆推广实务

秦健:建立为数据库信息服务的知识网

参加在杭州举办的”长三角数字图书馆技术与规范”高级研讨班的同事带回来一些ppt文件给我们学习。今天学了秦健的《建立为数据库信息服务的知识网》,并随手作了一些笔记如下(带背景色的为原文,仅摘录了认为较有启发的一些Slides)。

建立为数据库信息服务的知识网

  • 学术数据库的标引现状
  • 商业数据库的标引现状
  • 标引深度和广度对检索和结果显示的影响
  • 知识组织与表述对标引的支持
  • 利用知识组织与表述的方法丰富标引的内容


很有兴趣看看学术与商业数据库对于标引工作的不同做法。再开阔一些视野:像Google们是不屑做”标引”之类的工作的,他们最大的乐趣就是奴役机器,把机器的功能发挥到极致,现在Web2.0又发现人们的个人行为构成的群体社会性行为以及人-人、人-机交互行为能够提取许多有价值的信息,即所谓”社会性网络”,通过这种网络行为模式提取能够使机器做更多的事情,而不必所有的”标引”皆由人工来做。这样,realize the web of its full potential.


学术信息标引的主要特点:

- 传统学科分类

专业主题分类

一文标引多类

动态分类链接相关文献

- 横向主题词

规范语言

一文标引多词

动态主题词链接相关文献


学术信息为什么要这样标引?社会经济因素决定了学术研究的模式是角色分工,因而不对等,有人定规则,其他人执行规则,利用规则的产品,才是最经济的。而且学术研究对于客观理性的追求常常把东西弄得过于复杂,成本高到社会能够接受的上限。所以往往只有有钱人才能搞科学研究,而且是labour intensive的。


学术数据库标引趋势

分类和规范词标引仍然占主导地位

跨数据库检索主要利用顶层主题分类

网络技术的渗透对标引的深度和广度既有帮助更有挑战

- 灵活多样的小主题词表

- 自动标引、自动对应主题词与关键词


这是不是暂时的?还是相当长时间都会这样?可能学术数据库已经积累的大量数据,由于添加了”Value-add“的人工标引信息而显得尤为珍贵,但是将来必须利用技术手段(相关反馈等系统交互信息)而”加值”,小的词表必须采用Semantic Web的相关架构和技术,才能够更加灵活、降低成本、符合用户习惯、使系统越用越好越有粘着性。


商业数据库的标引现状

厂家、产品信息的标引

- 多面标引(Multi-faceted indexing)

- 厂家与产品之间的连接参照

检索界面与标引内容的联系

- 受网络搜索技术的影响,注重检索浏览界面的设计


许多商家的网页不仅仅作为一个数据库,而是作为商家电子商务的一个门户,这种情况下界面的设计有很多功夫用在后台,用在其核心业务流程(B2B/B2CERP/CRM等)的设计上。这里所指的仅仅是作为信息检索的商业数据库。


商业数据库标引的特点

标引的多面化:主题、地区、产品、公司、人名等

粗分类与细分类相结合

- 粗分类:利用各种专业分类表

- 细分类:主题的多面性

充分利用网络技术的优势,把多面标引和粗、细分类结合灵活应用

充分利用情报检索多年的研究成果进行全自动/半自动标引


商业数据库的体系设计与分类表的设计都遵从实用性原则。一些成熟的、优秀的商用数据库在规范控制方面的成就不亚于学术数据库,这虽然看起来成本很高,不可思议,但是将来基于Web Services的电子商务也是需要规范控制的,”信任”是Semantic Web的特点和难点,但却是必须要做的,只是做的方法可能会两样:新方法从整个体系的角度多方位地建设”信任”体系(如对于传输的控制、注册体系的建立、机构中介的认证、历史纪录考察等角度),老的方法只采用以语义规范为主的权威控制。


多面、深标引的语义支持

叙词表

双语、多语种对应词表

主题分类表

- 不同于传统的图书馆分类表

- 分类原则不是那么严格

- 以实用为原则

实用分类系统

- 侧重于概念类目之间的联系

- 基于某专业领域(domain specific)


下面讲到新方法比老方法的优点


传统知识结构的局限性

有限的概念之间关系的表述

- BT, NT, RT

有限的词语语义限制

- USED FOR, USE

无法定义数据模型,给实施系统带来很多不肯定性

- 主要靠程序设计人员在程序设计时决定如何连接不同概念

- 无一定的规律,即使在同一系统中,不同数据库的实施经常不同


利用”实用分类系统”*弥补传统知识结构的缺陷(*即我们所说的”知识本体”)

主要从两个方面来进行:

- 从不同角度来审视概念及其之间关系

- 从知识模型的角度来构造语义和数据模型

什么是实用分类系统?

- 英文:Ontology, ontologies

- 哲学上的含义:本体,本体论

- 信息技术上的含义:对某一特定领域里概念及其相关关系的规定:

知识模型构造: 概念定义、结构与类型,词语规范对应,逻辑性

实用性:数据模型,数据类型,实例

技术性:数据库,表述语言,推理规则,应用程序


对于本体的理解似乎比计算机领域宽泛些,但是又仅仅局限在”领域”应用,且只是一种抽象的概念体系及其关系,并不包含公理逻辑和实例。–看了后面的例子,感觉还是一样的。


实用分类系统的组成部分

类目(ClassConcept)

- 类名class name

- 定义definition, documentation

- 类目类型class type

特性(Property, Slot, Role)

- 特性名Name

- 特性类型Type

- 特性限制Constraint, Cardinality

- 赋值范围Domain/facets

实例Instance)

推理规则Inference rules)


最后讲了本体的构造过程。以及结论:

网络技术对数据库检索既有促进作用,也使索引数据库面临巨大的挑战

检索功能和界面的多样化灵活性都要有多样深化的标引为基础

开发编制各种专门词表并且使其能够在需要的时候合并

以及如何在专业词表的基础上构建实用分类系统

- 评论人:而立

Sat Jul 09 17:57:21 CST 2005  作者Blog


制定规则的人应该在什么程度制定规则?是在大量调查研究的基础上吗?执行操作的人在其中能起到多大的分量?谢谢先生!我以前经常拿图书馆分类法去评判商业数据库分类体系,现在看来,是很不准确且不全面的,谢谢点评!

- 评论人:平林新月

Thu Jul 07 09:02:10 CST 2005  作者Blog


经K先生点评,豁然开朗!

- 评论人:扎根

Thu Jul 07 08:46:50 CST 2005  作者Blog


K先生莫生气,免费的午餐搭配”博客手拉手”挺正常么。

“题库”解答参考

这是前两个部分,论述题部分还没有完成。如果其中有错误或更好的答案,请一定告诉我哦。
超长,只好分开贴。下面概念部分。

4月8日21:30修订。



名词解释47个

信息资源

情报检索

XMLS

复分表

规范控制

知识

博客(Blog

RDFS

OAI

组配

元数据

知识管理

Z39.50

OWLS

后控

知识本体(本体论/Ontology)

元搜索(Metasearch)

编码体系EncodingScheme

万维网服务

(Web Services)

元数据收割(Harvesting)

叙词表

数字图书馆

FRBR

互操作

检索语言

语义万维网

元数据登记系统

MODS

Topic Map

全文检索

因特网

内容管理

MARC

元数据应用纲要

OpenURL

搜索引擎

DC(Dublin Core)元数据

METS

分面分类

相关反馈

KOS

数字对象

HTML

万维网WWW

倒排档inverted file

HTTP






1. 信息资源

信息资源即”作为资源的信息”,可以理解为有价值的信息。然而信息的价值是体现在使用中的,对于不同的使用者,信息可以有不同的价值,而且信息的不同组合、不同的关联也能使信息具有不同的价值。这反映了信息的特性:信息是具有语境(context,也译成”上下文”)的数据。从计算机操作的意义上说,信息资源可以是任何具有标识的东西,在互联网上,标识通常为由命名域给出的URI。

2. 知识

知识是能够指导思考、行为和交流的正确和真实的观察、经验和过程的总结。知识包含真理和信念,观点和概念,判断和预期,方法和诀窍等内容,也可以理解为用于解决问题的结构化信息。

3. 元数据

元数据是关于数据的结构化数据,或者定义和描述其它数据的数据(data that defines and describes other data (ISO/IEC 11179-3:2003(E))

4. 知识本体(本体论/Ontology)

知识本体是领域概念及概念之间关系的规范化描述,这种描述是规范的、明确的、形式化的,可共享的。”明确”意味着所采用概念的类型和它们应用的约束实行明确的定义。”形式化” 指知识本体是计算机可读的(即能被计算机处理);”共享”反映知识本体应捕捉该领域中一致公认的知识,反映的是相关领域中公认的概念集,即知识本体针对的是团体而非个体的共识。知识本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义。

5. 叙词表

又称主题词表(Thesaurus),指以规范化的自然语言语词作为文献主题的标识,通过叙词的概念组配表达主题概念。能够多向成族、多检索途径、多因素组配、灵活扩检/缩检/改变检索范围,具有专指度好,同时具有一定可扩展性的优点。

6. 语义万维网

语义万维网(Semantic Web)是万维网的发明人Tim-Burners Lee倡导的下一代万维网,致力于开发”以计算机可处理形式表示信息含义的语言”,以在资源之间建立起机器可处理的语义联系。

7. 因特网Internet

采用TCP/IP协议和共享命名系统的全球性网络,由一些独立管理的网络互联组成。是在ARPAnet基础上发展而来的。使用”因特网”常指网络的物理结构,包括以TCP/IP协议连接在一起的所有计算机和网络设备。使用”万维网”常指因特网上的内容信息,包括所有网站、网页、电子邮件以及通过其他各种协议和技术能够获取的信息。

8. 搜索引擎Search engine

搜索引擎(Search Engines)是对互联网上的信息资源(主要是网页)进行搜集整理,然后提供查询服务的系统,通常包括信息搜集、信息整理和用户查询三部分,但提供给用户的往往只是一个查询界面。

9. KOS(knowledge Organization Systems/Structures/Service)

可以指三个相关的概念:知识组织体系(这里system翻译成”体系”比较好)/知识组织服务/知识组织结构。知识组织体系指用于组织知识的各类规范方法,如分类法、叙词表、知识本体等等;知识组织服务指利用知识组织体系实现的具体的应用系统所提供的服务,不同的知识组织体系的服务特点和能力是不同的;知识组织结构指各知识组织体系对于知识关系的表达、揭示时达所表现出来的不同形式。

10. HTTP

超文本信息传输协议(Hyper Text Transfer Protocol),是万维网的基本协议,用于浏览器与服务器之间通信。

11. 情报检索Information Retrieval

搜索信息体,查找与查询请求能够匹配的对象的过程。作为一个信息技术领域它可以指建立情报检索系统所必需的情报存储和查询两个互逆的过程,传统上的”情报”多指二次文献,因此情报检索系统也就是二次文献数据库的建立和用户查询过程。

12. 博客(Blog)

Blog或Weblog,中文称网志或博客,是一种包含RSS元数据描述(RDF Site Summary或者Really Simple Syndication:一种描述网页的元数据方案)的动态网页,使用者可以在万维网上发表自己的日记、文章等。由于使用了RSS,因而能够支持语义链接、聚类功能。

13. 知识管理

机构、组织或个人通过有关知识的评估、获取、学习、传播、整合、保存、创新等活动,将知识视为资产而进行管理,目的是为了有效增进知识资产的价值。

14. 元搜索(Metasearch)

同时利用资源站点自身的检索功能搜索多个站点,并且进行实时动态整理、排序等服务的搜索。

15. 数字图书馆

对以数字化形式存在的信息进行收集、整理、保存、发布和利用的实体,其形式可以是具体的社会机构或组织,也可以是虚拟的网站或者任何数字信息资源集合。通常包括以下内容:

- 数字对象的集合所构成的资源库;

- 描述这些数字对象的元数据库;

- 实用这些数字对象的目标用户;

- 提供各种服务(捕捉、标引、编目、查询、浏览、检索、传递、存档、长期保存等)的系统

16. 元数据登记系统

元数据登记系统(Metadata Registry)是对元数据的定义信息、置标方案、转换规则、著录规则、应用指南等规范进行发布登记管理和检索的系统。

17. 内容管理

内容管理是指对组织机构内部多种格式和媒体类型的信息资源(通常称为信息资产)的组织、分类、管理等有序化过程,常常作为数字图书馆或企业知识管理的一个组成部分。

18. DC(Dublin Core)元数据

数字图书馆中使用的一组简单的包括15个”核心元素”的元数据元素集合,主要用于描述数字对象、馆藏管理和元数据交换。1994年提出,目前由DCMI维护,已成为ISO15836-2003、IETF RFC2413和NISO Z39.85-2001等国际国家标准。

19. 数字对象

存储于数字图书馆中的一个条目,通常由数据、元数据和标识符组成。

20. XMLS

XML是eXtensible Markup Language,即可扩展标记语言,由SGML简化而来,是许多置标语言(例如XMLs/RDF/RDFs/OWL等)的元语言。

XMLS指XML Schema,即XML模式,用于定义XML词表和结构用于机器识别和共享信息的定义语言。

21. RDFS

RDF:Resource Description Framework,即资源描述框架。采用”资源-属性-属性值”的”主谓宾”结构(或称三元组),提供一种框架容器,并通过XML定义了一套形式化的方法,为机器语义理解的结构基础。

RDFS即RDF Schema,用于定义元数据属性元素(例如”创建者”),以描述资源的一种定义语言。

22. Z39.50

允许计算机搜索远程系统上馆藏信息的一种协议,产生可进一步处理的检索结果和检索信息,主要用于检索书目信息。

23. 编码体系Encoding Scheme

元数据修饰的一种方式,用来规定元素取值范围或取值意义的受控词表或规范名称。

24. 复分表

复分表就是将一组可适用于多个类别的子目结构,单独制表。在分类时,若有需要用到這个复分结构时,可以自行组合运用。常见的复分表有形式复分表、时代、国别、语言复分表等

25. FRBR

书目记录的功能需求(Functional Requirements of Bibliographic Records)的简称,是IFLA1998年出版的一份研究报告,对书目记录描述的对象在整个生命周期过程中不同阶段的不同实体类型进行了详细的分析,为这些资源的描述、定位提供了完整的思考框架。

26. MODS

Metadata Object Description Schema是提取MARC记录中的部分内容,用XML模式定义为一个新的元数据对象。

27. MARC

图书馆用于存储和交换书目记录的一种格式。

28. METS

元数据编码与传输标准(Metadata Encoding and Transmission Standard)是一套XML模式,用以编码有关资源对象的描述型、管理型、结构型元数据方案。由美国国会图书馆维护。

29. HTML

超文本标记语言(Hyper Text Markup Language)一种简单的文本置标和排版语言,带有指向其他对象的链接,用于万维网。

30. Markup language

一种嵌入文档中、表示文档结构和/或格式的代码。

31. OAI

全称为Open Archives Initiative Protocol for Metadata Harvesting,简称OAI协议,是一种独立于应用的、能够提高Web上资源共享范围和能力的互操作协议标准。

32. OWLS

万维网本体语言(Web Ontology Language)是描述互联网上信息内容及其相互关系的一种人工语言,是对RDF模式语言的进一步扩充,从本质上是为了计算机处理而设计,而不是为了人理解用的。

33. 万维网服务(Web Services)

Web服务是通过标准的描述性界面(Web Services Description Language) 与SOAP(Simple Object Access Protocol)来设计,开发,管理可编程访问的Web组件的技术 与标准的总称,

是独立的、模块化的应用,能够通过互联网来描述、发布、定位以及调用。

34. 互操作

资源的结构或组件存在技术上或/和语义上差异,但在独立的管理环境中为用户建立一致性服务的工作。

35. Topic Map

主题地图(Topic Maps)是一种类似于语义语意网络的知识表示模式,结合了传统索引、图书馆学与人工智能等领域的优点,可以有效的组织知识以利于探索、推理,解决大量无序信息所带来的问题。

36. 元数据应用纲要

元数据应用纲要是一种元数据标准规范的应用形式,也可以看成是一种规范的元数据方案(metadata schema)。允许在应用中采用组合来自多个不同的元数据标准中的数据元素,并对”混合型”元数据方案从内容和形式上进行规范。

37. 分面分类

经过描述对象的概念的分析与综合,可以把复杂主题概念分析为若干简单的主题概念或概念因素,简单的主题概念可以综合表达复杂的主题。简单主题属性即构成”面”。

38. 万维网(WWW)

World Wide Web的缩写,常指利用因特网可访问的所有网站及其信息内容,也指因特网上用于信息互联的技术,如HTML、HTTP、URL和MIME等。

39. 规范控制

对用于标引的标识(例如主题词、类名、人名或其他名称)进行规范的方法。规范控制是为了完善信息系统的汇集功能和查询功能,保证信息资源组织的整体性、有效性和查询的一致性而进行的工作。也称”权威控制”。

40. 组配

在标引或查询中采用多个标识单元组合成新的概念进行检索的方式。例如利用多个单元词、多个类号,应用一定的语法(例如冒号”;”),组合成表达信息资源的概念,或提问式。

41. 后控

与标引中的规范控制类似,对于情报检索系统的查询提问进行规范的一种方法,以提高查全率和查准率。

42. 元数据收割(Harvesting)

在因特网上分布式检索不同的资源库(repositories),获取元数据在本地集中式建库的一种做法。常常包括对于协议和数据格式的规定。

43. 检索语言

即情报检索语言,是根据信息检索的需要创造出来的一种人工语言。检索语言是一种受控语言,它依据一定的规则对自然语言进行规范,将其编制成表,供信息标引以及检索时使用。

44. 全文检索

一种将文件中所有文本与检索项匹配的文字资料检索方法。

45. OpenURL

即”开放链接”,一种解决不同的数字资源系统互操作、进行资源整合的方法,也是一项的技术标准。开放链接(OpenURL)是一种附带有元数据信息和资源地址信息的”可运行”的URL。可用来解决二次文献数据库到原文服务的动态链接问题,服务提供方(通常是图书馆)维护的链接解析器能够在相关服务网页上动态生成开放链接。

46. 相关反馈(Relevance Feedback)

通过与用户交互的方式(包括实时交互或通过用户兴趣文档特征值交互),改善查询效果、提供个性化查询的方法。

47. 倒排档(inverted file)

按文档中出现的单词及其在文档中位置的列表。倒排表能为给定词汇给出它在文档中所有出现的位置。




评论人:门外汉 2005-09-24 11:26:04  

您真是一位好老师,谢谢您在网上给大家教授知识.

- 评论人:keven 2005-04-07 22:28:18  

确实是没有固定答案。有时很多解释都觉得不合适–并不是说错误,而是语境不对–学生们总是需要一个”标准”答案的,当然标准不标准无法衡量。
先生倒是提醒我可以把这些名词解释上载到维基百科中去,呵呵,等有空了在斟酌斟酌吧…
维基对于理解一些概念是很好的,但是定义嘛,就不敢恭维了。不过我还是根据”语义网”的解释修改了我的”定义”。需要说明的是,语义网还有一个对应词:semantic network,意思是完全不一样的。所以我坚持翻译成”语义万维网”。

- 评论人:游园惊梦 2005-04-07 21:35:59  

呵呵,难得keven师花这么长的时间做这个答案,谢谢了。不过名词解释这个东西是没有一个固定的答案的,强烈推荐先生到维基百科(http://zh.wikipedia.org/)去查寻一下这些名词的解释,很有启发的。譬如一个”语义网”的解释便延伸到了很多相关主题。


Technorati : ,