让MARC安乐死

2006年11月12日,全世界最大的联合书目数据库,OCLC的WorldCat起用了9位数的记录号,意味着它的第一亿条记录的诞生[4]。这家总部 位于美国俄亥俄州的图书馆会员制机构,可以说是伴随着20世纪60年代书目数据格式MARC的诞生而诞生,随着MARC的发展而发展,目前已拥有全世界 112个国家5万7千多会员图书馆和超过十亿条的馆藏数据(Items)[5],虽然是非盈利机构,依靠向全世界的图书馆和会员图书馆提供服务,全年的营收逾2亿美元。

MARC是我们这个职业的最重要核心竞争力之一,如同OCLC一样,甚至是我们行业赖以生存的基础。全世界的书目数据基本上反映了当前人类非”实物”文化 遗产的概貌,在迄今为止所生产的所有人类知识中也占有相当比例,如果时间倒退四分之一个世纪,可以说占有绝大的比例。在目前一年的信息产量相当于过去 5000年的总和,而其中绝大多数为数字资源的情况下,这个比例正大幅减少,可能用不了多久,我们所掌控的”知识”记录,就会被复制拷贝,而使我们的 MARC变得微不足道。

MARC最大的价值在于标准化而适于机器处理,从而有利于规模化应用,并极大地提高了系统效率。以历史的眼光来看,MARC领导了图书馆行业最辉煌的时 代,至少说明我们的信息技术应用曾领先于绝大多数行业。然而也是碍于当时的技术,严格的形式化并不是为了读者而设计的,而是为了传统的业务流程(例如卡片 或印刷目录输出)而设计,甚至仅仅为了机器而设计(定长不定长的考虑),造成MARC的七宗罪:

  1. 字段众多,且重复严重。真正对读者有意义的字段(主要指与内容描述有关的字段)很少,因此真正作索引的字段也并不多。据最新的研究统计,80%的书目记录只使用了36个字段或子字段[7],国图数据的抽样中多于30个字段的记录只占0.09%[8],几乎可以忽略不计。
  2. 技术严重过时。格式设计所依赖的是以磁带为主要存储介质的技术,在目前各种集成系统的技术实现中早已采用了关系数据库技术,乃至其它更为先进的全文索引、面向对象技术甚至XML技术(在与其它数据格式进行数据交换时)等,MARC格式可以是一个动态映射的用户视图。
  3. 规范乃至著录规则很不统一,语义含糊。特别是不同国家地区和不同版本的MARC,即便不是不能互操作,也绝难互操作。从各家系统对于多MARC的支持情况就可以看出来。
  4. 字段、子字段标识和结构复杂。书目记录的描述主体、客体及关系模型不清晰,格式规定琐碎、不统一。例如新引入的数字资源链接856字段,著录方式千差万别千奇百怪,造成系统实现方式也难以统一。况且这个字段随着新的链接机制的应用普及,其本身的必要性也值得怀疑。
  5. 数据加工成本巨大,专业门槛高,难以普及。
  6. 数据生产的周期较长,时间滞后,不利于服务开展。
  7. 语义与语法及结构捆绑,适应性和灵活性差,难以适应新媒体和新技术发展的需要。具体表现在难以应用于电子资源编目,以及难以进行无损失的元数据映射。

我们最大的财富正在成为我们最大的包袱。头脑清醒的人没有认为MARC对数字资源还能继续有用,而一旦我们的书目宝库不能融入互联网庞大的信息库中,成为 前朝遗老,我们就有极大的可能被信息社会边缘化。令人振奋的是我们已经看到OCLC(当然这也是为了它自身的生存)正在引领整个行业走在一个正确的方向上,例如DC元数据的提出、FRBR化、”元数据”(XML)化等;美国国会图书馆等业界大佬,虽然步履蹒跚,也并未止步不前;许多图书馆或图书馆联盟,也在积极研究,寻求合作,采取行动。

近年来兴起的一些研究(特别是元数据研究)对书目数据的功能进行了较为全面的梳理,如果把MARC看成一种元数据的话,满足要求的MARC可以完全不必如 此,而且MARC也可以仅作为图书馆集成管理系统中的”一种”元数据而已,而且是粗粒度的、着眼于与历史数据兼容的元数据形式。新的图书馆系统即便仍然以”元数据”为核心,也应该能够灵活地支持多种元数据格式。

MARC面临改造是必然的,然而这一步究竟应该走得多大,才能保护图书馆行业半个世纪以来在MARC上的投资,才能实现平稳过渡?我们依然不清楚。目前编目界围绕RDA的争论就反映了这个问题。换句话 说,我们目前面临的问题,不是MARC该不该死,而是如何使其安乐死?

Leave a Reply




*