关于如何制定数字出版的元数据规范

元数据也搞了这许多年了,虽说应用成果不多,知识倒是学了不少。前一阵耄耋少年陈先生希望我就数字出版的元数据方案制定工作谈一点想法,不揣浅陋,在此谈一些初步想法,以期抛砖引玉。

元数据是关于数据的数据。任何元数据方案,首先要弄清楚它是关于“谁”的数据,这是“革命”的首要问题。数字出版物的元数据,首先需要界定什么是数字出版物(从内容、形态等各方面,以及描述的对象是不是复合对象,如何组成等),才能明确元数据的描述对象。目前出版界似乎只想到按照传统出版物角度进行界定,仅仅考虑(数字)图书和期刊,恐怕会有很大的局限性。

这里试着从我国出版行业的主管部门的角度给出一个“数字出版物”的定义:

[具有出版资质的单位(出版社)]以数字(指内容)或电子媒体(指载体)形式产生和发布的,具有独立标识或者能被唯一识别的出版物。

这个定义核心部分是清楚的,但是边界很模糊。什么东西不算“数字出版物”,例如网页算不算?可能需要”权威部门”提供“司法解释”。

这个定义还应该进一步明确”出版社”和”出版物”两个概念,他们与元数据规范的管理和应用有关。其它的诸如”数字内容”、“电子媒体”、”独立标识”、”唯一识别”等概念都属于技术概念,定义起来很容易。

但是只要有了这样一个可资参考的定义,就可以开展下面的工作了:

1、界定主要的数字出版物类型;什么是数字/电子图书?什么是数字/电子期刊?还有哪些其他类型?(例如课件、电子地图、游戏、软件甚至网站、资源集合等等算不算?)
2、考察元数据规范的功能需求:为什么要制订元数据方案?制订了元数据方案是不是想解决的问题都能解决?还有哪些需求是元数据方案所不能解决的,需要其它的规范(如编码规范、协议规范)来解决?
3、所涉及的数字出版物对象的各类属性分析,结合功能需求,详细考察哪些属性应该被纳入,哪些暂缓,为什么?
4、如果简单的元数据方案不敷使用,考察是否需要建立扩展机制和应用模型,以体现元数据方案一定程度上的灵活性和可扩展性。
5、是否能建立一个数字出版物的概念模型和描述模型?通过它来定义标准的书目记录以及各种转换方法。

我们的出版标准大多把注意力放在出版物的具体格式(如PDF)上了,当然具体格式不是不重要,pdf已经成为一种开放的国际标准,采用它当然是很好的,但是作为电子出版物的标准,应该不局限于任何具体的格式标准,可以应用于任何开放和私有的格式,如果我们建立标准的模型,以XML/RDF形式编码,就完全可能把元数据带到各种格式中去。目前很多新的格式(或者老的格式新的版本)都包含元数据和数字对象二进制编码两个部分,我们这个电子出版物标准如何制订一定的指南,可以用于PDF、JPEG2000、MPEG7甚至网络出版媒体、流媒体等各类数字格式中去。这应该成为我们的目标。

Leave a Reply




*