Web时代的“元数据方法”(五)

如果你被当成专家,请去咨询某些研究课题或开发项目,什么话都说完了,也找不出破绽,或者其他专家十分彪悍,不拿点真家伙出来显示不出你的水平,这时你可以缓缓地吐出两个字:”本~体~~“。

没错,本体,Ontology。光看一看这充满哲学味的名词,许多人都要被雷一跟头,这是个Magic word。秦健老师翻译成“实用分类系统”,肯定没这效果。

其实,“本体”一词自古希腊诞生之后,几乎只存在于少数哲学怪人的意识之中,偶尔蠢动,也如木乃伊一般。可是到了互联网时代,突然借尸还魂,锐利无比,所向无敌。这还是那个本体吗?

从 很大程度上来说,这只是计算机行业的一个借用而已。Ontology, the study of being. 计算机能够用它来作什么呢?要知道计算机是肯定不懂哲学的,它所引入的概念,从来都是工具性的、操作性的,不可能带有任何模糊性,因为计算机和计算机之 间,是从来不进行“商榷”的。

计算机说,本体是”概念体系的明确的、形式化、可共享的规范说明”。说白了,就是概念体系的机读化,机器能够读得懂的概念体系。

什么叫“懂”,机器懂不懂你怎么知道?就像计算机并不懂你输入的每一个字符却能够准确地显示和匹配一样,计算机也能准确地展示和匹配概念,只要你把概念体系进行了它可以操作的编码。

于是,计算机可以知道人分男女,爸爸的爸爸是爷爷;可以把红楼梦四大家族关系表罗列的一清二楚,并找出其中的矛盾之处,只要你按照机读编码方式准确输入了内容;可以把你的全部馆藏按照各种分类法显示成知识树,虽然你可能只标引了中图法。

这是怎么做到的?仅仅是把你脑子里的知识理理清楚,用一种叫做OWL的编码语言代码化而已。

“本体”或“实用分类系统”?

远洋老师“正确认识本题的功能和局限”一帖在那边非常热闹,已经留言21条,参与者远洋师、皮诺曹、迷图、雨僧、本人等等,很多思考,很多成果。看中图学报都不会有这么大收获。

忽然讨论到Ontology/ies翻译成“实用分类系统”是否比“本体”更合适,风云变幻,帮派立现。我也去留了言。世事恢恢,人海茫茫,是不是提供了一个更本体的认识呢?各位看后自有评判吧。

这几天看了太多的生离死别,听了太多的可歌可泣,终于知道自己还有泪腺。于是我想:

  1. 世界原本是很简单的。就像原子,0和1,E=mc2,以及XML和RDF。世界之所以复杂,是因为我们了解得不够。能简单,就不要复杂。
  2. 要逝去的总是留不住的。永远准备从头开始,从头思考,从头架构。有时候你的财富,正是你的包袱,曾经的辉煌,其实都是累赘。
  3. 上帝不是在掷榖子,凡事皆有因果。本体的任务是揣摩上帝,模拟因果。不论是计算机的或不是计算机的,它都是更本质和更一般的,包含KOS更是不在话下。
  4. 语词表达概念,概念达成交流。孔子云:“辞达而已矣”,就是说,我们之间都能听懂彼此的“本体”,还去追究“本体”这个词合不合适做什么呢?多义词海了去了,不同的领域本体中,“本体”具有不同的含义,如果计算机都能够“理解”,你还不能理解吗?

图书推介

上次在IFLA与曾蕾老师说起,本体研究似乎可以从哲学的角度寻找一些理论依据,虽然目前计算机科学所研究的本体已经与哲学本体离得很远。相比较而言,图书馆学在研究本体时关注更宏观、更本质的问题,而不仅是操作层面的问题,例如,我们究竟应该怎样分类事物?不同的分类思想如何共存?事物的属性能不能穷尽?人类认识世界的目的究竟是什么?认识的各种方式有没有局限?如可看待这些局限?等等。接下来才是如何使我们的知识在更大范围内(因特网)通过计算机更“自然”、更准确地交流和保存的问题。

回来后发现有一些著作已经翻译成了中文,大喜,想就其中的几本写一个书评。刚开了个头,先放在这里,提供大家一个参考。

哲学与计算机科学并非像人们所想的那样毫无瓜葛。人民大学出版社近年出了一套《当代世界哲学名著*哲学》,编选了众多距离我们很近的、当代哲学名家的著作, 其中不乏许多能够提供计算机和认知科学以理论基础的名作。虽然我们不难得到这些著作的原著,然而哲学问题的深奥已经让我们望而却步,不要说还有一层语言障 碍了。十分幸运的是,人大社组织这套丛书非常认真,选题由十二位当代国际顶尖哲学家推荐,在一百多种他们认为五十年来最有影响的著作中精选了12种,邀请国内相关领域的一流专才进行翻译,他们多为横跨大洋、学力充沛正当盛年的中青年学者,从而保证了这套丛书的质量。投放市场后效果立竿见影,多本著作已告售罄。

计算机不谛 是二十世纪人类最伟大的发明。伴随着计算机科学的兴盛和繁荣,提供该学科基础的数学和工程科学显然并不能满足人类的求知欲,为探究人类认知的奥秘,以及计 算机发展的可能性和终极目标,同时作为一种对人类社会和生活产生巨大影响的事物和学科,从哲学层面进行探讨是必然和必需的,忽视或漠视都是不正常的。延续 20世纪末学科边缘、交叉的趋势,这些探讨实际上不可能在任何传统的学科领域内展开,已有的这些探讨许多并未定论,甚至争议很大,但是却提供了全新的想法 或崭新的思路,似乎可以印证,人类的认识可能有局限,然而思想和科学是无疆界和无止境的。

目前这套丛书至少有四本与当下计算机认知领域有关(包括知识建模、描述和本体研究等):

泽农*派利夏恩(Zenon Pylyshyn)《计算与认知–认知科学的基础
唐纳德*戴维森(Donald Davidson)《对真理与解释的探究(第二版)
彼得*斯特劳森(Peter Strawson)《个体(论描述的形而上学)
W.V.O.蒯因(Willard Van Orman Quine) 《语词和对象

叙词与本体,及其在Elsevier的应用

在我看来,叙词表是一类特殊的本体–反映领域知识,具有本体的概念层级结构和用代属分参概念联系,但是没有公理、没有实例,或者说公理和实例不是内在的,体现在应用叙词表的系统中。
情报检索的规范控制近年来有明显的回归趋势,主要归功于语义万维网的提出和研究,语义万维网需要机器来操作语义,就必须首先进行规范控制,最好整个知识系统成为一个封闭世界,语义计算就能够”安全”地进行。当然这是不可能的。
我们大约从2001年开始对知识本体的作用进行研究,感到本体是一个非常重要的、代表未来应用方向的研究和开发领域,也是图书馆学能够贡献我们宝贵的专业知识、使我们这个学科”显性化”的领域,当然离开了我们也不是不能搞,可能创建的本体就不会那么中庸、平衡、人性化,甚至”不象”对普遍知识进行抽象的”学科本体”,而带有许多技术描述的、或十分随意的特征,像yahoo的分类体系一样让我们看不上眼,没有DC元数据那么让图书馆员似曾相似、赏心悦目。我们感到应该尽快像当年搞748工程(建立汉语主题词表)一样进行学科本体的创建和应用,但是好像至今仍没有什么启动项目。

知识本体的主要作用如下:

* 在人、机器(表现为软件代理)以及人与机器之间共享对于信息及结构的共同理解
* 实现一定程度的领域知识的重用
* 知识本体可以明确领域假设,使领域公理得到明确描述从而达成共知
* 对于领域知识进行分析、明确,并使其形式化

对于数字图书馆应该能起到如下作用:

* 提供与描述型元数据有关语义描述的知识地图
* 提供资源库领域知识的规范描述
* 提供元数据映射方案,集成到数字图书馆体系中的元数据服务中,成为协议的一部分
* 提供智能代理与信息环境之间基于语义的理解机制
* 跨平台、跨系统之间的通信中介
* 分布环境下查询请求的语义理解

现 有的技术当中最接近本体的就是叙词表了。前些年基于自由词的全文检索势不可挡,而今面临信息超载,注意力稀缺,查到和查准成了非常困难的事情,人们对信息组 织和查询的要求更高了,不得不回过头来,重新审视传统情报检索领域的一些几乎被人遗忘的好的想法。而这些想法一经计算机专家之手,就被玩得完全不同了。
研 究叙词表与知识本体的文章已经有不少了,今天看了一篇Elsevier出版公司对于其众多数据库进行”技术改造”的想法,应用语义技术,涉及叙词表的改 造,虽然没有什么非常特出的地方,但因为是具体企业的应用,还是很有启发的。我国的很多计算机公司,包括软件公司,对新技术的研发投入和应用能力实在不敢 恭维。例如帮我们开发系统的公司,一边赚我们的钱,一边跟我们学,东西开发出来还不能让人满意,真让人愤愤啊!

elsevier 的语义系统应用;

传统上 Elsevier 采用属性字段检索和叙词表主要用于:

*标引文献Indexing (tagging) articles, books and other materials
*层次浏览Browsing thesaurus-indexed content
*扩检Expanding searches against specialized content
*   Overall, a net benefit, but not huge
*范围限定Limiting a search by category
*文件聚类Clustering documents by category
*   Better than limiting search up front…data-driven

然而 Elsevier 目前没有在检索中采用叙词表,据称是因为相对于现在流行的全文检索而言好处不明显(可能还极大地增加了系统的复杂性和维护成本)。

Elsevier 在语义主导 Web 的时候重新考虑采用叙词表,据称主要原因是:

*采用多种叙词表,能够对开放或者内部的数据库实现统一的字段检索,Integrated search of proprietary, public and/or local user content using multiple thesauri
*整合文本名称与化学结构Integrating chemical structure info with text documents
*整合各种模式的数据库Integrating databases with diverse schemas
*支持文本挖掘Supporting text mining
*扩展检索范围Other uses requested by our customers (e.g., extensibility for local content)
*改进叙词表的导航性能Improved thesaurus navigation
*改进查询命中结果Improved search results

叙词表的新用法:

建立基于 RDF 的中间本体用于不同叙词表之间进行映射;

支持多种关系描述 Support multiple relationships

支持用户自行扩展 Extensible by customers

改进性能和可扩展性

试验新的查询选项

在改进查准率的同时改进查全率

用于查询结果的可视化展示,优化用户交户界面

Elsevier 对于文本挖掘的看法:

  • 认识:文本挖掘已经成为信息过剩(overload)时代信息提供的一个必备工具;
  • 重视需求调查,不断开发新的应用;
  • 同时提供”实质性”的挖掘工具和”预备研究”(meta-research)工具;
  • 时间维上的发展趋势,作者/机构分布等等;
  • 以RDF形式作为存储事实的基本形式,提供事实抽取的数据基础。


Technorati : ,