Web时代的“元数据方法”(四)

Web上的所有东西,可以看成文本(或数据流),也可以看成是一个个独立的的“资源(resource)”,或者看成这两者的混合(本来就是)。

标 识符是“资源”是否具有独立性的基础,是核心,决定了“资源”的归属、身份、获得途径,等等。标识符体系包括了解析体系。在这个体系里,国家不分大小,一 律平等。国家 内部可以有不同的制度,无论多复杂,都可以交给ORE来负责(听说最近牛排正在研究这个,赞一个!)。目前的技术架构,URI已成主宰,各类Handle 方式基 本上以URI为依托,虽说无奈,倒也无伤大雅,好在DOI等Handle系统也是独立的,离了URI,只要有另外的体系能够取代URI,也能存活。记得 DC的创始人Stu Weibel曾有一阵专门研究取代URI的体系,现在也不知下文了。这些理论问题就不多言了。

因此,有没有URI 是“是不是资源”的 充分必要条件。

至此我们接受了这样一种世界观:网络上的东西,除了有URI的“资源”,就是没有URI的文本字串(literal或string),无 它。(在此我们不讨论“网络上的资源是现实中事物的指代”这样一个哲学跨越,以及由此带来的认识论问题。)

  • 任何一个描述,都要明确,描述的对象是什么。无论是什么,都应该是一个网络存在,都有URI。(此乃描述的“资源模型”)
  • 任何一个描述,都要明确,描述的是什么。即如果描述颜色,就说“颜色”或“color”,描述作者,就说“作者”、“创建者”或“creator”…
你立刻会发现,这里面有着“属性词”(也称为“术语”term,其实就是元数据元素metadata elements)统一的问题。这其实就是元数据标准规范所要做的:规范属性词。
所有的属性都有URI,因此也都是资源,于是都应该有管理主体对其“负责“ 。
由此可知,是不是DC元素(属性词)其实并不重要,只要大家都和谐相处。和谐相处的前提是,遵不遵从这个“资源模型”,因为不遵从这个模型,就有可能不遵从属性词与资源对象的对应关系,或者资源对象在网络上没有“户口”(URI),整个描述体系就会乱套。而遵从这样的体系,将来国家语委的工作就比较好了,同理,很多领域知识也可以管理起自己的”领域概念“,不方便的话托管给图书馆来管也可以。目前”维基百科“已经在做此类事情了。将来所有的概念都有名有姓,有“监管”了。换句话说,网络上的每一句话每一个词都有出处,就有意思了。当然,这并不妨碍你发明自己的火星语,只是发明的火星语也需要有众多的URI管理起来)。(这就是“描述集模型”)
  • 任何一个描述,其属性取值可以是互联网上的任何东西,自然就包括有URI的资源和没有URI的文本字串。是“资源”当然也可以像上述属性词一样进行规 范,包括取值体系规范(例如年代的表示规范)和值域规范(从值的列表中选取,例如国家列表、各类复分表,以及大量的KOS词表等)。当然,文本字串是最常见的“值”。(这里涉及 “词表模型”)

上述三个成份,构成描述的基本单元:一个RDF表达,也叫陈述(statement)。

  • 一条资源描述可以由多个陈述(statement)组成,即多个属性和属性值对描述一个URI所标识的资源;
  • 多条相关的资源描述构成一个描述集(Description Set)。

可以看到,一个陈述可以是资源和资源之间关系的表达式(通过也是资源的属性词表达主体资源和客体资源的关系),每一个作为资源的成份又都可以被其它陈述所描述,具有这种关联关系的描述通常组合成描述集,构成“元数据记录”。Web其实就是各种资源纠结在一起的网状结构,Web这时就从众多服务器构成的网络而转变为无数“资源”连接在一起的网状结构(意义非凡啊!)。联结的末梢常常就是那些字串——字串是无法被描述的,其语义需 要人来解读。

(updated:)与传统的资源描述模型最大的不同,在于明确强调了以下两点:

  • 描述的原子性。即每一个陈述必须是由“资源-属性-值(可以是另一个资源)”构成。例如作者是图书的属性,而作者单位是作者的属性,这两者应该用两个RDF语句来陈述。
  • 描述的专指性。即属性一定是所描述资源的属性,而不是其任何相关资源的属性。如“作者单位”的属性不能用来描述“图书”资源。

上面所说的,就是DCAM: DC抽象模型的大概。

推荐阅读:宋文等“CDOI规范及其在国家图书馆的应用”《现代图书情报技术》2008.10.1-5,虽然好像国图还没有用,但是这个方案不错。

7 Responses to “Web时代的“元数据方法”(四)”

  1. 如果加上时间维度,URI就不可能一成不变,当然,资源也不可能一成不变,如何解决这一问题?

  2. 谢谢花生壳哈,牛排可能当不了美联储主席,有点慌了。偶的这句话是想举个例子,说明网络资源的URI就像人的姓名一样,法律认定一个人首先需要有一个法定的姓名,孩子生下来去派出所报户口首先要报上姓名,否则派出所就不承认你有了个孩子。网络“资源”也是如此,你都没有一个URI,如何认定是一个可以通过网络访问的“资源”呢?

  3. 老牛最近开课上瘾了?嘻嘻。
    不过,偶喜欢对偶没有研究过的东东说三道四,所以,也来掺和一下。
    主要想说的是,没有任何事是绝对的,所以,不要寄希望说什么除了URI以外的东东能解决URI持久性的问题。因为这话永远是既对又不对的。DOI也好,CDOI也好,PURL也好,本质是一回事,用的人认同,大家认真用,永久性(相对的)就好。不然其永久性可能比URI都差(老牛说的这个生命周期偶也不太认同,这个生命周期谁来认定?)。在一个较小的行业领域中,管好了,URI的永久性也很好(当然,URI的理念是不管永久性的)。在一个较广泛的领域中,DOI没人理,根本就谈不上永久性与适用性。所以,结论,拿DOI太当回事根本是蛮蠢的一个主意。
    不过,当回事就当回事吧,不要把它绝对化。DOI也仅仅是长效性网络资源标识标准中的一种而已。它一定是局部与领域性的,适用面也很小,所以,讨论URI的时候,不用扯上它,嘻嘻。

  4. leon大师真是不鸣则已,一鸣惊人啊!

  5. 近来OOR圈子里有一条讨论题就是URIs and Unique IDs, 讨论轰轰烈烈,还没来得及学习,下面是别人推荐看的一张片子:
    Mike Uschold was just talking about this subject matter (a week or so
    ago) in his lightning talk called “A URI Crisis” at ISWC 2008
    http://ontolog.cim3.net/file/resource/pic/iswc2008_Karlsruhe_Oct-2008/images/P1010167.jpg

    John F. Sowa前两天的一个回话:
    http://ontolog.cim3.net/forum/oor-forum/2008-11/msg00007.html
    其它讨论存档也可以从这里看到,查看 2008-10 和2008-11 的messages。

  6. 请问K师,微内容的聚合与挖掘是否可以成为研究问题?

  7. 回图客:当然,这是个热门的实践领域。

Leave a Reply




*