我们的元数据标准规范成熟了吗?
年初听说要进行大规模的元数据培训,感到似乎还不成熟,为时过早,最近耄耋少年陈老师要我写一些对出版界制订元数据方案的想法,联想到对目前元数据标准规范项目的一些想法,在此不揣浅陋,把自己的想法抛出,请砖家猛砸。
我们现在制定元数据方案,最大的问题还是出发点的问题:给谁用?给机器用还是给人用?
现在的元数据方法与传统的编目规则最大的不同在于,元数据方法的成果——元数据——是真正给机器读的,这个“读”与传统MARC中的Read有质的不同, MARC还是利用机器的字符处理和匹配能力,打印卡片或者显示在屏幕上给人读,而元数据的“读”是要给网络上千千万万相互“认识”或不“认识”的机器来 读,不能读错,才能最终达到检索、利用的准确性(也就是语义互操作)。
我们“数字图书馆标准规范建设”课题制定了一大堆元数据规范(基本、专门元数据规范),实际上还主要是些元素集,把这些元素集当成完整的元数据方案方案进 行培训,说简单点有些混淆视听,说严重点有些误人子弟。应该说这个标准规范建设的课题还没有结束,它的重点应该进一步明确抽象模型和应用模型(这是需要花 大力气去做的,不是靠一两个人起草文章所能完成),在此基础上制定一系列编码方案,并且开发一些验证工具和集成环境(可以授权一些公司进行研发),再进行 推广培训。
在网络环境下,不同的应用领域采用哪些元素进行描述,实际上是一个用户自己选择的过程,元数据规范不可能面面俱到,所以元数据标准只需要定义最宽泛的核心元素(领域应用也可以制定一些领域核心),然后通过复用或自定义方式扩展所需的元素。这种方法已经得到元数据界的公认。
问题是:扩展方式如何确定?元素之间的关系如何描述?如何使计算机明确地知道你描述的属性是属于某个对象的?属性如何取值?属性值之间的关系如何定义?这 些问题都属于元数据描述的抽象模型和应用模型。这些问题不解决,元数据方案是没有办法达到“机读(机器理解)”的,元数据标准规范也是无法应用的,因此也 就是没有完成的标准规范。
由于复杂的应用环境极易造成元数据著录和编码的不一致性,开发工具和集成应用环境可以:
1、尽可能降低使用门槛,消除人们理解和使用上的障碍,使最普通的 工作人员也能过做元数据标引工作;
2、确保元数据元素之间的关系、元数据描述的抽象模型和应用模型已经被编码语言和应用环境/工具“固化”在系统中了。
这 样才能确保应用中正确实施元数据标准规范,同时减少元数据标引创建和维护人员的工作量,少死一些脑细胞。
Popularity: 46% [?]
Tags: 专业评论, 元数据, 元数据, 数字图书馆, 标准规范
















明蓝 Said on 七月 25th, 2007 at 10:13 下午 quote
很有道理啊!!
总觉得元数据记录标准格式的输入输出至今在很多国内应用中都没有真正达到,缺乏元数据工具支撑,也缺乏真正的重视。
元数据给机器读,这个目标看起来还比较遥远。
Like or Dislike:
0
0
[回复]
平台江 Said on 八月 12th, 2007 at 8:53 下午 quote
就“元素之间的关系如何描述?”这个话题作些求教和抛砖引玉。
DC元数据各元素兼可重复,对于中文资源,多个题名与其汉语拼音的关联如何编码表达,目前我尚未见有合理的应用。刘老师见多识广,请引导我学习一二。
我的理解是:汉语拼音是采用“汉语拼音方案”对题名描述的编码,所以应该仍采用title元素,通过编码方案限定。其实,对于西文资料也类似,只不过其可能有“国际音标”这种编码方案限定而已。
因为元素重复,要想准确表现元素之间的关系,必须考虑在元数据编码中对每个元素标识一个唯一标识符,这个可用xml:id实现。那么,对于某个题名的汉语拼音,通过编码中扩展的XML元素属性IDREF(单引用)或IDREFS(多引用)这些元素id即可准确体现元素间的关系,比如:
<dc:title xml:id=”T0001″>(正题名1)</dc:title>
<dc:title xml:id=”T0002″>(正题名2)</dc:title>
<dc:title refinement=”bopomofo”
IDREF=”T0001″>(正题名1的拼音)</dc:title>
<dc:title refinement=”bopomofo”
IDREF=”T0002″>(正题名2的拼音)</dc:title>
但这有点点小的不足:从常见语意理解来看,IDREF这是一种引用概念,似与被引用者有单向而非双向关系。如果这样理解,似有主从之感。那么,为了体现它们间平等关系,又不得不放弃现成的xml:id这个标准的定义——即考虑增加一个绑定属性,为想绑定的元素提供一个相同的值,类似MARC现在某些字段中的$5子字段,如:
<dc:title bind=”T0001″>(正题名1)</dc:title>
<dc:title bind=”T0002″>(正题名2)</dc:title>
<dc:title refinement=”bopomofo”
bind=”T0001″>(正题名1的拼音)</dc:title>
<dc:title refinement=”bopomofo”
bind=”T0002″>(正题名2的拼音)</dc:title>
以上我的心得,借刘老师宝地抛砖引玉,希望得到更多的建议和指点。也许通过我们的实际工作可以来改变一下当前国内不重视元数据编码方案的现状吧。
题外话:其实,MARC时代,又有多少人在研究ISO2709这个MARC元数据的编码方案呢?
Like or Dislike:
0
0
[回复]