Web时代的“元数据方法”(一)

描述一类资源,首先需要明确为什么要描述,也就是明确需求。需求决定了那些实体需要析出,分别有哪些属性应该被描述,以及实体之间、属性之间的关系是什么。

我们现在的”元数据方案”一般就管到这一步,成果是ER图和属性表,基本方法论就是实体-关系分析。基本功能交给关系数据库来实现。

上面几乎和数据库系统的开发如出一辙。所不同的,我们的目的是建立标准化的、供行业(领域)或更大范围使用的”元数据规范“。即我们希望提供的属性表以及编码方案应该是可被大家共同遵守的、可共享和重用的。

但是上面这种思考方法(“思考范式”),到了Web时代,虽然引入和“神秘的配方”——元数据,也还是不够用的。

1、 Web是一个开放的环境,其功能需求考虑的不光是”自己”的需求,这里的”自己”是指的是本地系统的”相关用户”,借用术语来说:”传统的需求定义只考虑了企业级应用范围内的各类代理(agent)的需求”,Web用户访问特定应用的目的和方式常常会超出系统设定的情境,并且Web用户是不接受”培训” 的,他们会有更多的”替代”选择,甚至你系统的look and feel不好,他们都会走人。因此一个优秀的Web应用,必须能够具有更好的可用性和更强的功能性,必须把更多的可能性置于你的”控制”之下,即便不直接开放,也要提供开放的可能性。

2、这就是为什么很多数字图书馆的Web应用,不能仅仅以”实现需求”为目标,而要深层挖掘”为什么”的原因。特别是现在Web2.0概念引入,需求分析、设计、实现诸多流程合一,用户常常不仅要提出需求,还要介入设计,并且关心如何实现。大多数软件公司希望你明确定义需求,而采用什么平台技术架构来实现,不需要你来关心。这样开发出来的数字图书馆或2.0应用,虽然能够实现功能,但是几乎肯定不是一个“好的应用”。你可以责怪用户没有充分明确需求,很多隐含的需求没有提出来,但系统不好就是不好,谁都有责任。

3、当然这个困境应该是由于软件工程还没有发展出相应的分析方法和设计工具,以及经验流程性的东西能够支撑Web级的数字图书馆或Web2.0应用的开发而造成,也并非任何一方的责任。

4、 Web级的应用对于资源描述的需求可能就常常包含在那些未被提出的”隐含的需求”中,例如Web范围内的语义互操作、数据共享、代码(方案)可重用、永久保存的需要,以及相关技术标准和协议的支持和遵循等等。这些规范的研讨和制定,实际上也是为了将来省事:你只要遵循了我的这些标准规范,许多可能的”隐含需求”就自然而然能够的到满足,即便你的行为是无意识的,好处是奉送的。

因此目前的”元数据方法“(全称应该是”Web资源描述的元数据方法”),已经超越了仅仅提出一套(不管是普适的,例如DC,还是领域的,例如IEEE- LOM或者DCAP)元素集的阶段,因为光是属性元素集是远远不够的。目前DCMI所做的,希望在思想方法上进行一定的统一,即:基于”我们如何看待这个世界”建立描述世间万物的一般方法,而建立起一个一致的思考模型(”抽象模型”);并且基于这个抽象模型,提出一整套的描述体系和元数据方案。语义Web技术可以提供这种方法的技术基础。可以说,我们正在向语义描述的”统一场论”进发。

Popularity: 54% [?]

Tags: DCAM, 元数据, 抽象模型, 数图统一场, 语义技术

Related posts

信息资源描述的“假设系统”

昨天雨师谈到,在远洋老师的FRSAR模型中,他希望研究一下在背后支持这个模型成立的“公理体系”。

时间无多,未及深入探讨。但这肯定是一个很有意思的问题。雨师提到我应该继续完善那个贸贸然提出的信息资源描述“同一场论”(原来是数字图书馆同一场论,实际上是一套为了解决数字图书馆语义互操作的体系框架,信息资源描述在其中居于核心位置),直觉告诉我,与雨师这个“公理体系”有很大关系。

回来之后想了一下,可以有以下基本假设(不成体系,更不是公理,只是一种理解。持续完善中…):

1.可标识是可描述的前提条件。任何事物,不论是物理的、抽象的或者概念的,作为认识和交流的对象,首先必须能够以某种方式(有意义或无意义,能解析或不能解析,需调度或无需调度)进行标识,才能够进行描述。
2.任何数字对象至少具有“标识符”属性。标识体系是任何描述系统首先需要确立的系统,不论是有形的、无形的,具体的、抽象的。
3.任何一个标识体系,都可以(构建/看成)是一个封闭系统(复杂性可控)。
4.数字图书馆是数字对象的集合,其中的数字对象可以以不同的标识体系进行标识,以不同的元数据方案进行描述。因此数字对象是数字图书馆的组织基础,元数据是数字图书馆(数字对象)的结构基础。
5.元数据提供了数字图书馆的微观结构,领域本体提供了数字图书馆的宏观结构。
6.任何描述(不是陈述),最后都能够简化为“主体、谓词、客体”的一阶谓词逻辑(或其可控的扩展)形式的组合(即RDF(作为一种模型而不是语言)形式)。
7.所谓元数据元素,实际上就是描述信息资源的谓词(属性)词表(包括各类结构限定和取值限定)而已。
8.微内容是一类由微格式(包括RDFa)表示的数字对象,通常具有可共享、可重用、结构化和规范化的特性。
9.SKOS是一套用以表达数字对象的“主题”属性(或aboutness)的微格式,由一套属性词表(表现为RDFS)和形式化描述规范构成。
10.作为主题属性标识的SKOS和作为领域本体的知识组织系统具有完全不同的功能,不可同日而语。

Popularity: 65% [?]

Tags: SKOS, 数图统一场, 知识组织, 语义技术

Related posts

呼唤数字图书馆的“统一场”理论- -

数字图书馆需要整合。不是说某一个数字图书馆的资源,或者服务需要整合,而是数字图书馆的研究内容需要整合。

记得七、八年前我们刚接触数字图书馆的时候,被其”博大精深”,或者说”混乱无序”弄得非常沮丧。除了一些零散项目、计划的举例,不知道如何认识、怎样下手。好不容易提出了”三种数字图书馆”:即来自计算机界的研究开发、来自各类机构的服务体系建设和纯粹的数字化,又觉得分类很粗,缺乏逻辑,无法反映数字图书馆内在的体系结构和本质联系。

在美国虽数字图书馆的支持接近尾声之际,似乎到来了数字图书馆总结之时( NSF 的”后数字图书馆时代”的提法颇有些对数字图书馆进行”清算”的味道,见” 鳕鱼岬会议 “博客文章。在对 2002 年以来的数次数字图书馆”峰会”(指以回顾展望为主题的管理型的工作会议,如 NSF/DELOS 的一些会议。 99 年也曾召开过一些)进行认真学习之后,突然感到数字图书馆的”学科体系”似乎已然建立,从 Fox 等人的 5S 基础理论( Leon 说 Witten调侃其 为”五行学说”)以及 SFX 的发明人 Sompel 呼吁数字图书馆基础理论建立的必要性,一直到 NSDL 、 CDL 以及 LoC 实打实的建设,以及从技术角度 Digital Library 与 Semantic Web 的联姻,并共同迎接 Cyberinfrastructure 的挑战。数字图书馆的社会性、人文性、技术性正在融合,站得高一点,打破学科之间的固有樊篱,整个图景会变得越来越清晰。本人很想就数字图书馆建立”统一场理论”作一些研究。目前可资借鉴的报告就有如下数篇(名称凭记忆列出):

当然这项研究需要理论与实践的结合,需要不同”粒度”的研究,需要技术与人文的对话。尤其重要的,是需要一个崭新的视角、宽广的视野和突破传统的勇气。这些都不是靠个人的力量所能达到的,需要一个团队,一批人共同的努力。无奈的是国内这个圈子的人太少了。


Technorati :

Popularity: 32% [?]

Tags: 元数据, 数图统一场, 数字图书馆, 数字图书馆, 链接

Related posts