分类目录元数据

关于元数据方案的问题- –

这是2002年的一个文档中的一些思考,现在有些问题已经有所解决,有些问题的提法已经不对了。贴在这里存档。有机会更新一下。

1、元数据方案分两层:站点级元数据与资源级元数据,名称是否合适?

2、 资源级元数据方案的是否一定要一种”核心”元数据方案(例如选择 DC),作为整个系统的”必须”的元数据元素方案,并规定一组核心元数据元素,哪些是必需的,哪些是可选的等等?或者认为各种元数据方案都是平等的,(缺省甚至可以没有元数据方案?)通过元数据服务器提供相应元数据的包装,以及映射、解析服务,由此揭示资源内容。

3、 元数据方案的功能需求?资源揭示 / 管理 / 保存?
集成数据的结构和语义信息,为实现一定的数据服务进行必要的数据规范和描述,同时实现一些功能性要求(管理、版本 etc.)

4、 对于特定用户查询,元数据方案在资源揭示时是怎样起作用的?
先是通过匹配用户查询针对那些领域(站点元数据),确定需要查询的索引服务器,寻找到合适的站点,发送请求(资源级元数据),然后返回请求,汇总,排序,显示给浏览着。

5、元数据服务器究竟能够实现什么功能?哪些功能是必要的?哪些是可选的?

6、站点级元数据与本体论的关系,如何实现以本体论组织站点?

7、 站点级元数据如何产生(注册)?站点级元数据的具体内容是什么?站点与站点之间的关系如何通过元数据来表现( ontology )?
站点级元数据需要说明站点的内容、能力、地址等信息。信息类别、素材种类、属性模型( CNMARC 或 Dublin Core)、查询能力、查询操作符等。
站点级元数据与资源级元数据是怎样的关系?怎样”收获 harvest “元数据?有必要收获吗?怎样情况下应该收获?怎样情况应该可以允许” on the fly ” ?

8、现有数字图书馆方案中的元数据方案分别是怎样的?

9、 元数据对于语义揭示的互操作是根本的,但是在结构方面的互操作也实在元数据方面不得不考虑的因素。因而描述规范(结构)也是元数据方案必须确定的内容之一。目前的元数据描述规范(表达: XML/RDF/HTML/RMDB/Warwick Framework )有哪些?能否尽量罗列完全 ?

10、元数据著录规则?元数据应用机制?元数据推广方案。

11、查询服务器:生成规范的查询提问式,提供查询路由服务

12、 资源级元数据是否在数字图书馆中分布式保存?互为镜像?抑或纯粹保存在资源站点本地?抑或采取目前 OAI 的方案:采取内容提供站点和服务提供站点分开的方式。

呼唤数字图书馆的“统一场”理论- –

数字图书馆需要整合。不是说某一个数字图书馆的资源,或者服务需要整合,而是数字图书馆的研究内容需要整合。

记得七、八年前我们刚接触数字图书馆的时候,被其”博大精深”,或者说”混乱无序”弄得非常沮丧。除了一些零散项目、计划的举例,不知道如何认识、怎样下手。好不容易提出了”三种数字图书馆”:即来自计算机界的研究开发、来自各类机构的服务体系建设和纯粹的数字化,又觉得分类很粗,缺乏逻辑,无法反映数字图书馆内在的体系结构和本质联系。

在美国虽数字图书馆的支持接近尾声之际,似乎到来了数字图书馆总结之时( NSF 的”后数字图书馆时代”的提法颇有些对数字图书馆进行”清算”的味道,见” 鳕鱼岬会议 “博客文章。在对 2002 年以来的数次数字图书馆”峰会”(指以回顾展望为主题的管理型的工作会议,如 NSF/DELOS 的一些会议。 99 年也曾召开过一些)进行认真学习之后,突然感到数字图书馆的”学科体系”似乎已然建立,从 Fox 等人的 5S 基础理论( Leon 说 Witten调侃其 为”五行学说”)以及 SFX 的发明人 Sompel 呼吁数字图书馆基础理论建立的必要性,一直到 NSDL 、 CDL 以及 LoC 实打实的建设,以及从技术角度 Digital Library 与 Semantic Web 的联姻,并共同迎接 Cyberinfrastructure 的挑战。数字图书馆的社会性、人文性、技术性正在融合,站得高一点,打破学科之间的固有樊篱,整个图景会变得越来越清晰。本人很想就数字图书馆建立”统一场理论”作一些研究。目前可资借鉴的报告就有如下数篇(名称凭记忆列出):

当然这项研究需要理论与实践的结合,需要不同”粒度”的研究,需要技术与人文的对话。尤其重要的,是需要一个崭新的视角、宽广的视野和突破传统的勇气。这些都不是靠个人的力量所能达到的,需要一个团队,一批人共同的努力。无奈的是国内这个圈子的人太少了。


Technorati :

关于METS用于资源集合的两个问题

METS网站上找了半天,还没有找到答案,先把问题记在这里:

  1. METS作为元数据方案的Wrapper,如何进行不同元数据方案的互操作(映射或者中介)?这个功能可能放在extension schema中的,或者通过Establish registry of METS repositories来实现?
  2. METS对于数字资源集合元数据的编码是否有用(通过它的structural map)?

元数据项目在编码方案方面应该参考METS

METS Profile:

METS profiles allow digital libraries to specify constraints that they place on METS for ingest, storage/processing or dissemination, including:

  • dictating use of particular extension schema, rules of description, and controlled vocabularies
  • specifying arrangement and use of METS elements and attributes for particular classes of documents
  • specifying the technical characteristics of data files within a METS object
  • identifying tools for creating/processing METS documents compliant with a particular profile

资源集合元数据登记系统

资源集合元数据主要是提供机器与机器之间的理解机制,解决分布环境信息资源集合的封装、提问分发等实用的元数据形式。目前一个比较成熟的做法是利用资源集合的注册系统,作为分布信息环境中的中介,进行资源集合的揭示、管理。其中主要要解决以下问题:

  • 注册系统的协同、标准化问题。

  • “服务”的描述。

  • 资源集合的描述来自开放标准,(是否依旧可以以应用纲要形式?管理元数据等如何办?)

  • 注册系统的基本功能:XML Repository, Meta-registry, several interface including server to server (SOAP/Z39.50/OAI)

资源集合注册体系的功能:

  • 注册系统实际上是提供了机器利用的portal
  • 对于普通用户来说,提供了单一入口、整合的导航工具,把相关的资源集合集中在一起,提供可选的获取信息的方案(最方便?最便宜?最符合自己需要?)。
  • 提供到资源集合的指向(导航);
  • 提供多集合的统一/联邦查询

资源集合注册系统包含的内容:

  • 资源集合的相关信息
  • 服务信息(eg. OpenURL etc.
  • 技术信息
  • 权限信息
  • 资源集合各类责任实体信息

资源集合描述的要求:

  • 不仅给人使用,更重要的是M2MS2S。因而需要大量的标准,符合众多的协议。例如在Web Service架构下;
  • Query的分发;
  • 本体的支持

资源集合对象的描述方案也是”应用纲要”,符合应用纲要[1]的要求:

要求(方法):

  • 定义所要描述的资源属性,并采用ER分析方法明确所要描述的资源对象;
  • 声明元素语义及可能存在相互关系、相关规则等,这些元素可以来自多个不同的元数据标准规范(不同命名域);
  • 声明元素限定或修饰。元素的语义可以根据所引用的元数据标准规范进行某种程度的限定,但是不能扩大或交叉;
    • 可以规定元素的编码规则;
    • 可以规定元素的值的约束;
    • 可以规定其他约束:是否必选、可重复、取值范围、数据类型等等
  • 如果需要增加”新”的元素,必须自己建立命名域并维护这些新的元素组成的元数据方案;
  • 编码规则(制定置标方案)(机读);
  • 编写有关应用文档(人读)

过程:

  • 根据资源类型和系统开发需要,定义元数据及数据元素需求
  • 选择现有的最合适的元数据标准规范(元数据元素集)
  • 复用标准的元素,根据目标系统的需要赋予特定的语义(仅缩小语义,不扩大、改变),制订著录规则并考虑应用规范词表
  • 扩展元素/限定并进行定义,赋予本地的命名域进行管理

资源集合描述元数据基于:

  1. Research Support Libraries Programme name (RSLP) Collection Description schema (RSLPCD) ( RSLP Collection Description. http://www.ukoln.ac.uk/metadata/rslp/schema/)
  2. DC CD AP

资源集合对象的描述方案也是”应用纲要”,符合应用纲要[1]的要求:



[1] 元数据应用纲要参见CEN CWA14855

资源集合描述的对象:

  • a collection; (may have many services that provide access but it must have at least one service registered in registry.)
  • a service, either informational (i.e. providing access to a collection), or transactional;
  • and an agent that is the owner of a collection or an administrator of a service. (An agent may be an owner or an administrator, or both, of many collections or services.)

资源集合的类型

DCMI提案(2003年10月)

扩展:

资源集合描述

增加的元素如searchable元素,表示内容是否可以检索。还有一些纯粹是informational型的。

对于控制词表也做出一定的规定,例如增加usesControlledVocabulary元素。

hasService元素用来描述资源集合所能提供的服务,比DCMI的isAvailableAt 和RSLPCD 的‘locator’元素都要清晰。后两者可同时应用于传统资源和电子资源,而hasService更直接地指用于电子资源。
the coverage, geographic, temporal and educational of the collection, containing or associated collections, and related publications.
权利类:‘dc:rights’,
‘dc:rights’ records any copyright statement about the collection. ‘iesr:useRights’ contains a statement about allowed usage of data from the collection, such as terms and conditions. ‘dcterms:accessRights’ holds information about any licence requirements to access the collection.

服务描述

locator采用:Z39.50或SOAP作为locator的属性值,但是一些服务还需要进一步信息,例如合法用户登陆信息等。
Title
Description
Locator (服务的一个入口,例如一个url或端口)
dc: type包括:Z39.50, Web Services SOAP, SRW (Search – Retrieve – Web) [14], and OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting), webpage, webcgi
iesr:interface
iesr:supportsStandard.
注册系统的管理:

每一个注册实体都需要给定一个标识符POI(PURL-based Object Identifier)

编码举例:

<dcmitype:Collection>
<dc:title>zetoc</dc:title>
<dc:identifier xsi:type=”dcterms:URI”>
http://purl.org/poi/iesr.ac.uk/1056366559-25788
</dc:identifier>
<dcterms:abstract>The zetoc database, the British Library’s ETOC, contains…
</dcterms:abstract>
<dc:type xsi:type=”dcterms:DCMIType”>
Collection</dc:type>
<dc:type xsi:type=”rslpcd:CLDT”>
Catalogue.Library.Text</dc:type>
<dc:rights>Copyright (c) British Library 1993-2004</dc:rights>
<iesr:useRights>All Rights Reserved. http://zetoc.mimas.ac.uk/terms.html
</iesr:useRights>
<dcterms:accessRights>
Available conditionally free to UK FE and HE. Available by subscription to…
</dcterms:accessRights>
<iesr:hasService xsi:type=”dcterms:URI”>
http://purl.org/poi/iesr.ac.uk/1056380019-18263
</iesr:hasService>
<dc:subject xsi:type=”dcterms:DDC”>
050</dc:subject>
<dc:subject xsi:type=”dcterms:LCSH”>
Medicine</dc:subject>
<rslpcd:contentsDateRange
xsi:type=”dcterms:W3CDTF”>
1993/</rslpcd:contentsDateRange>
<iesr:usesControlledList
xsi:type=”iesr:CtrldVocabsList”>
DDC</iesr:usesControlledList>
<rslpcd:owner xsi:type=”dcterms:URI”>
http://purl.org/poi/iesr.ac.uk/1056381752-28099
</rslpcd:owner>
<rslpcd:hasPublication>
http://zetoc.mimas.ac.uk</rslpcd:hasPublication>
</dcmitype:Collection>

<dcmitype:Service>
<dc:title>zetoc Z39.50 search</dc:title>
<dc:identifier xsi:type=”dcterms:URI”>
http://purl.org/poi/iesr.ac.uk/1056380019-18263
</dc:identifier>
<rslpcd:locator xsi:type=”dcterms:URI”>
z3950s://zetoc.mimas.ac.uk:2121/zetoc
</rslpcd:locator>
<iesr:interface xsi:type=”dcterms:URI”>
http://www.mimas.ac.uk/iesr/metadata/examples/interfaces/svc-1056380019-18263-z.xml
</iesr:interface>
<dc:type xsi:type=”iesr:AccMthdList”>
z3950</dc:type>
<dcterms:accessRights xsi:type=”iesr:AuthList”>
ip</dcterms:accessRights>
<dcterms:accessRights xsi:type=”iesr:AuthList”>
athens</dcterms:accessRights>
<iesr:supportsStandard xsi:type=”iesr:StdsList”>
bath-1-c</iesr:supportsStandard>
<rslpcd:seeAlso xsi:type=”dcterms:URI”>
http://zetoc.mimas.ac.uk/z3950.html
</rslpcd:seeAlso>
<rslpcd:administrator xsi:type=”dcterms:URI”>
http://purl.org/poi/iesr.ac.uk/1056381864-28646
</rslpcd:administrator>
</dcmitype:Service>
<iesr:Agent>
<dc:title>MIMAS</dc:title>
<dc:identifier xsi:type=”dcterms:URI”>
http://purl.org/poi/iesr.ac.uk/1056381864-28646
</dc:identifier>
<dc:relation xsi:type=”dcterms:URI”>
mailto:info@mimas.ac.uk</dc:relation>
<dc:relation xsi:type=”dcterms:URI”>
tel:00441612756109</dc:relation>
<dc:relation xsi:type=”dcterms:URI”>
http://www.mimas.ac.uk</dc:relation>
</iesr:Agent>
本文主要参考Ann Apps DC-2004的投稿文章


Technorati : , ,

元数据注册系统的作用

一套元数据规范可以看成是一套规范词表,可以认为具有权威控制的功能,并构成一个独特应用领域的本体。利用数据库提供词汇的组织、管理功能,以 RDF 编码,提供友好的界面供人工查询,提供 application program interfaces ( API )供机器使用。同时可用于非 DCMI 词的注册、管理。

  • 通过元数据元素的重用支持语义互操作;
  • 通过元数据XML Schema的重用支持编码的一致性;
  • 通过元数据应用规则和著录规则的重用而获得模型的一致性;
  • 提供制定元数据方案的方法论和工具(编辑加工修改查询及形式化工具);
  • 提供Semantic Web Serviceautomatic access API
  • 提供各语种的翻译对照

ADL:一个古老但可资参考的例子- –

加州大学圣巴巴拉分校牵头的” Alexandria Digital Library “项目从 DLI1 就开始作,目前应该说已经基本完全结束。其中涉及到数字图书馆体系结构、分布式资源组织管理、资源集合元数据应用等都是我比较关心的,只有一项:地理信息的规范控制和管理却不是我的重点。

亚历山大数字图书馆项目在 1999 年就提出了资源集合描述元数据的各项功能,现在实际上还是沿着这条道路继续标准化,然而进展看起来并不是很大。 ADL 当初的陈述如下(见 1999 年的一篇文章: http://www.alexandria.ucsb.edu/%7Egjanee/archive/1999/jasis-paper.pdf Linda Hill etc. Collection Metadata Solutions for Digital Library Applications ):

The Alexandria Digital Library (ADL) Project has designed and implemented collection metadata for several purposes: in XML form, the collection metadata “registers” the collection with the user interface client; in HTML form, it is used for user documentation; eventually, it will be used to describe the collection to network search agents; and it is used for internal collection management, including mapping the object metadata attributes to the common search parameters of the system.

现在看起来 ADL 中的资源集合元数据有许多”不规范”的地方:即为了实现功能而”任意”添加的属性。由于其应用平台为 C/S 结构,编码虽然是 XML 格式,但是 Vocabulary 是自定义的。数字对象的描述是封装于 Bucket 中,规定了 Bucketde 的类型和结构,以及一个 Core Bucket 。

一些想法:

康奈尔、加大圣塔巴巴拉、斯坦福三个高校的 DLI2 项目与我的论文有关。涉及的主要内容有:

DC2005和ECDL2005- –

今年DC元数据年会与欧洲数字图书馆会议ECDL将于9月中下旬相继召开,前者在西班牙首都马德里,后者在音乐之都维也纳召开。会议征文通知预示着这一领域人们关心的论题的细微变化。
对于DC来说,今年是其十周年,应该有一定的庆祝意义。
如果我要投稿,利用FOAF建设人名规范档是一个很好的题目,结合数字图书馆分布式体系结构、元数据应用、词表规范控制等,有理论,有实践。
DC2005的官方网站:http://dc2005.uc3m.es/
ECDL2005的官方网站:http://www.ecdl2005.org/

DC2005 CFP

Metadata based on standards such as Dublin Core are a key component of information environments from scientific repositories to corporate intranets and from business and publishing to education and e-government.

DC-2005 – the fifth in a series of conferences previously held in Tokyo (2001), Florence (2002), Seattle (2003), and Shanghai (2004) – will examine the practicalities of maintaining and using controlled sets of terms (“vocabularies”) in the context of the Web.

DC-2005 aims at bringing together several distinct communities of vocabulary users:

These diverse communities share common problems, from the the use of identifiers for terms to practices for developing, maintaining, versioning, translating, and adapting standard vocabularies for specific local needs. Topics of particular relevance include:

The Program Committee would like to solicit contributions of the following types:

Paper submissions will be peer-reviewed by the program committee and published both in print and electronically in the conference proceedings. All accepted papers must be presented at the conference by at least one of their authors.

The official language of the conference is English, but we will provide simultaneous translation (English-Spanish) for keynotes, tutorials, and plenary sessions.


Technorati :