Web时代的“元数据方法”(二)
感谢雨师对上文的反馈:“高屋建瓴”。我可能总是把屋建得太高,让我慢慢落下来吧…
同样的世界,以不同的方法和角度去看,会呈现出完全不同的样子,不仅如此,甚至会看到完全不同的东西。由于计算机处理能力的提高和认识与技术的进步,人们越来越倾向于按照事物的本来面目去描述事物,只要能认识到这种“面目”。其中,面向对象(“搞对象“?)的方法被认为跟接近大千世界的本原(就不说“本体”了哈),也是当前计算机认识世界的主流方法,以前我们把万物仅仅看成是数字或文字,而世间万物都是相互独立而又普遍联系的,我们为什么不能在Web上建立真实世界的一种”面向对象”的虚拟镜像涅?
都柏林核心元数据抽象模型(DCAM )就提供了这样一种“面向对象”看待世界的方法。它是为了向计算机描述我们这个世界而提出的,你可以设想向一群外星人解释我们这个世界,你应该如何向他们描述才能让他们理解呢?亚里士多德把世界看成是几种元素,我们到达不了那个境界(深度),只能说:世界都是由“东西”组成的,每个东西都是独立的,东西和东西之间又都是有联系的,认识东西就是认识它的特点(属性),不同的人可能看到不同的特点,把特点说出来就是描述……。然后,外星人就懂了,说:“噢,我们那里也是这样的…”
DCAM是完全基于语义Web的基础RDF模型的,因此可以认为它是语义Web描述这个世界的一种基本方式。
当然,向外星人解释这个世界不应该要求所有人都能干,这样的话”数字图书馆员“也就没有“核心竞争力”了。所以现在DCMI这一帮人(以及爱好者,如本人和平台江 等),以及SW(SemanticWeb)的一大帮人都在日夜奋战,希望能够提供许多方便的工具、平台或环境,使得同志们在按照惯常的方式工作的同时,规范的、外星人能够看懂的语义 描述能够“自动”建立起来。让大量的人文烟鬼继续并且更好地坑蒙拐骗、欺压百姓。
上述的目标距离实现尚有很长的路要走。现在的重点工作,是基于DCAM,建立一整套面向应用的规范体系和架构。
新加坡框架 就是这样提出来的。其目的是为“元数据方案”(DCAP: Dublin Core Application Profile)提供一套理论:一套完整的描述应该包括哪些内容?分别的作用是什么?哪些是定理(例如”用户永远正确“),哪些可以通融…等等。其中最重要的,是有关DSP(Discription Set Profile:描述集方案)的定义和规定。
都柏林核心元数据(DCM)现在是什么东西呢?它以15个基本元素著名,但它早已不是那个东西了,它已经成为一套体系,包括一个模型 (DCAM:Dublin Core Abstract Model,包括)和一套词表(Vocabulary:其中除了元素,又包括子元素——针对属性词来说的;修饰词——针对取值来说的,修饰词还有编码体系修饰词和“取值”修饰词),以及诸多 正在完善中的规定(新加坡框架及其编码)。
欲知后事,且听下文。
“新加坡框架(Singapore Framework)”
沃维克框架、堪培拉限定、芬兰终结……。DC元数据自诞生以来,留下许多里程碑式的成果,如今这些成果中又多了一个:新加坡框架(Singapore Framework)。
新加坡框架是指元数据应用纲要的一种规范形式。虽然应用纲要曾经是欧洲标准CWA14855,但那毕竟只是一个非常笼统、给人作参考的“指南”。DCMI认识到DC的应用一直无法大规模开展,与编码方面的规范一直不统一很有关系,编码的无标准可循造成元数据标准有等于无,各类应用的互操作还是无法进行。然而编码规范的统一是一件不可能的任务,在XML大行其道的今天,任何符合XML模式规范的DC编码,你都不能说它不规范,你也不可能让大家都采用一种XML的DC编码模式。同时专注于语义一致性描述的DCMI怎么可能推荐一种编码而排斥另一种呢?再说现在有RDF/OWL/N3等编码方式(甚至采用关系型数据库来描述和编码),将来还会出来种种新的方式,如何能预料得到呢?所以对于编码的标准化,必须依赖于一种编码模型的标准化。这就是近年来DCMI花大力气研究并反复讨论的“DC元数据抽象模型(DCAM)”。只有独立于语言的编码模型标准化了,才能建立一种标准的形式化编码规范,不论形式化语言用的是什么。
而领域应用中符合DC抽象模型的元数据的形式化方案的整体,就叫做DC元数据应用纲要(DC Metadata Application Profile)。 我们的“专门元数据方案”实际上都可以认为属于领域应用的“应用纲要”。
具体说来,新加坡框架指符合DC元数据抽象模型的元数据应用纲要,应该包含以下几个部分:
–
- 功能需求说明(需要desirable)
- 领域模型 (必需mandatory)
- 元素集描述 (DSP: Description Set Prifile) (必需mandatory)
- 应用指南 (可选)
- 编码句法指南(可选)
对于每个部分是否必需Mandatory、需要Desirable还是可选Option,目前的意见还不统一,例如很多图书馆员认为功能需求说明应该是必需的,但是对于形式化的应用纲要,功能需求说明只是给人读的,不像领域模型(可用UML形式化)和元素集合描述等(DSP,用Schema等形式化),无法翻译成机器语言,对于机器来说并非必需。
为进一步说明应用纲要各个部分的关系,这里还有一个框架的图示(版权属于DCMI,本人拥有翻译版权,引用敬请声明),值得好好推敲和学习:

2004年本人在一篇论文中将数字图书馆的元数据描述方案定义为“语义结构(Semantic Architecture)”,并认为有如下几个部分组成:
- Resource Analysis and Definition
- Metadata Set Definition (Core and Extended)
- Encoding and Mapping Rules
- Guidelines and Best Practices
- Metadata Registry, Ontologies and Authority Files
与这个“新加坡框架”颇有一些异曲同工呢!