Web时代的“元数据方法”(四)
Web上的所有东西,可以看成文本(或数据流),也可以看成是一个个独立的的“资源(resource)”,或者看成这两者的混合(本来就是)。
标 识符是“资源”是否具有独立性的基础,是核心,决定了“资源”的归属、身份、获得途径,等等。标识符体系包括了解析体系。在这个体系里,国家不分大小,一 律平等。国家 内部可以有不同的制度,无论多复杂,都可以交给ORE来负责(听说最近牛排正在研究这个,赞一个!)。目前的技术架构,URI已成主宰,各类Handle 方式基 本上以URI为依托,虽说无奈,倒也无伤大雅,好在DOI等Handle系统也是独立的,离了URI,只要有另外的体系能够取代URI,也能存活。记得 DC的创始人Stu Weibel曾有一阵专门研究取代URI的体系,现在也不知下文了。这些理论问题就不多言了。
因此,有没有URI 是“是不是资源”的 充分必要条件。
至此我们接受了这样一种世界观:网络上的东西,除了有URI的“资源”,就是没有URI的文本字串(literal或string),无 它。(在此我们不讨论“网络上的资源是现实中事物的指代”这样一个哲学跨越,以及由此带来的认识论问题。)
- 任何一个描述,都要明确,描述的对象是什么。无论是什么,都应该是一个网络存在,都有URI。(此乃描述的“资源模型”)
- 任何一个描述,都要明确,描述的是什么。即如果描述颜色,就说“颜色”或“color”,描述作者,就说“作者”、“创建者”或“creator”…
- 任何一个描述,其属性取值可以是互联网上的任何东西,自然就包括有URI的资源和没有URI的文本字串。是“资源”当然也可以像上述属性词一样进行规 范,包括取值体系规范(例如年代的表示规范)和值域规范(从值的列表中选取,例如国家列表、各类复分表,以及大量的KOS词表等)。当然,文本字串是最常见的“值”。(这里涉及 “词表模型”)
上述三个成份,构成描述的基本单元:一个RDF表达,也叫陈述(statement)。
- 一条资源描述可以由多个陈述(statement)组成,即多个属性和属性值对描述一个URI所标识的资源;
- 多条相关的资源描述构成一个描述集(Description Set)。
可以看到,一个陈述可以是资源和资源之间关系的表达式(通过也是资源的属性词表达主体资源和客体资源的关系),每一个作为资源的成份又都可以被其它陈述所描述,具有这种关联关系的描述通常组合成描述集,构成“元数据记录”。Web其实就是各种资源纠结在一起的网状结构,Web这时就从众多服务器构成的网络而转变为无数“资源”连接在一起的网状结构(意义非凡啊!)。联结的末梢常常就是那些字串——字串是无法被描述的,其语义需 要人来解读。
(updated:)与传统的资源描述模型最大的不同,在于明确强调了以下两点:
- 描述的原子性。即每一个陈述必须是由“资源-属性-值(可以是另一个资源)”构成。例如作者是图书的属性,而作者单位是作者的属性,这两者应该用两个RDF语句来陈述。
- 描述的专指性。即属性一定是所描述资源的属性,而不是其任何相关资源的属性。如“作者单位”的属性不能用来描述“图书”资源。
上面所说的,就是DCAM: DC抽象模型的大概。
推荐阅读:宋文等“CDOI规范及其在国家图书馆的应用”《现代图书情报技术》2008.10.1-5,虽然好像国图还没有用,但是这个方案不错。
Popularity: 48% [?]
Tags: DCAM, 元数据抽象模型, 元数据描述, 知识组织, 语义技术