叙词与本体,及其在Elsevier的应用

在我看来,叙词表是一类特殊的本体–反映领域知识,具有本体的概念层级结构和用代属分参概念联系,但是没有公理、没有实例,或者说公理和实例不是内在的,体现在应用叙词表的系统中。
情报检索的规范控制近年来有明显的回归趋势,主要归功于语义万维网的提出和研究,语义万维网需要机器来操作语义,就必须首先进行规范控制,最好整个知识系统成为一个封闭世界,语义计算就能够”安全”地进行。当然这是不可能的。
我们大约从2001年开始对知识本体的作用进行研究,感到本体是一个非常重要的、代表未来应用方向的研究和开发领域,也是图书馆学能够贡献我们宝贵的专业知识、使我们这个学科”显性化”的领域,当然离开了我们也不是不能搞,可能创建的本体就不会那么中庸、平衡、人性化,甚至”不象”对普遍知识进行抽象的”学科本体”,而带有许多技术描述的、或十分随意的特征,像yahoo的分类体系一样让我们看不上眼,没有DC元数据那么让图书馆员似曾相似、赏心悦目。我们感到应该尽快像当年搞748工程(建立汉语主题词表)一样进行学科本体的创建和应用,但是好像至今仍没有什么启动项目。

知识本体的主要作用如下:

* 在人、机器(表现为软件代理)以及人与机器之间共享对于信息及结构的共同理解
* 实现一定程度的领域知识的重用
* 知识本体可以明确领域假设,使领域公理得到明确描述从而达成共知
* 对于领域知识进行分析、明确,并使其形式化

对于数字图书馆应该能起到如下作用:

* 提供与描述型元数据有关语义描述的知识地图
* 提供资源库领域知识的规范描述
* 提供元数据映射方案,集成到数字图书馆体系中的元数据服务中,成为协议的一部分
* 提供智能代理与信息环境之间基于语义的理解机制
* 跨平台、跨系统之间的通信中介
* 分布环境下查询请求的语义理解

现 有的技术当中最接近本体的就是叙词表了。前些年基于自由词的全文检索势不可挡,而今面临信息超载,注意力稀缺,查到和查准成了非常困难的事情,人们对信息组 织和查询的要求更高了,不得不回过头来,重新审视传统情报检索领域的一些几乎被人遗忘的好的想法。而这些想法一经计算机专家之手,就被玩得完全不同了。
研 究叙词表与知识本体的文章已经有不少了,今天看了一篇Elsevier出版公司对于其众多数据库进行”技术改造”的想法,应用语义技术,涉及叙词表的改 造,虽然没有什么非常特出的地方,但因为是具体企业的应用,还是很有启发的。我国的很多计算机公司,包括软件公司,对新技术的研发投入和应用能力实在不敢 恭维。例如帮我们开发系统的公司,一边赚我们的钱,一边跟我们学,东西开发出来还不能让人满意,真让人愤愤啊!

elsevier 的语义系统应用;

传统上 Elsevier 采用属性字段检索和叙词表主要用于:

*标引文献Indexing (tagging) articles, books and other materials
*层次浏览Browsing thesaurus-indexed content
*扩检Expanding searches against specialized content
*   Overall, a net benefit, but not huge
*范围限定Limiting a search by category
*文件聚类Clustering documents by category
*   Better than limiting search up front…data-driven

然而 Elsevier 目前没有在检索中采用叙词表,据称是因为相对于现在流行的全文检索而言好处不明显(可能还极大地增加了系统的复杂性和维护成本)。

Elsevier 在语义主导 Web 的时候重新考虑采用叙词表,据称主要原因是:

*采用多种叙词表,能够对开放或者内部的数据库实现统一的字段检索,Integrated search of proprietary, public and/or local user content using multiple thesauri
*整合文本名称与化学结构Integrating chemical structure info with text documents
*整合各种模式的数据库Integrating databases with diverse schemas
*支持文本挖掘Supporting text mining
*扩展检索范围Other uses requested by our customers (e.g., extensibility for local content)
*改进叙词表的导航性能Improved thesaurus navigation
*改进查询命中结果Improved search results

叙词表的新用法:

建立基于 RDF 的中间本体用于不同叙词表之间进行映射;

支持多种关系描述 Support multiple relationships

支持用户自行扩展 Extensible by customers

改进性能和可扩展性

试验新的查询选项

在改进查准率的同时改进查全率

用于查询结果的可视化展示,优化用户交户界面

Elsevier 对于文本挖掘的看法:

  • 认识:文本挖掘已经成为信息过剩(overload)时代信息提供的一个必备工具;
  • 重视需求调查,不断开发新的应用;
  • 同时提供”实质性”的挖掘工具和”预备研究”(meta-research)工具;
  • 时间维上的发展趋势,作者/机构分布等等;
  • 以RDF形式作为存储事实的基本形式,提供事实抽取的数据基础。


Technorati : ,

领域本体——广域网信息检索- –

感觉做论文时间紧迫,过年也得好好抓紧。

梳理思路:

论文的选题领域实际上是广域网的信息搜索问题,问题域集中在数字图书馆作为”一种”广域网的信息环境(首先必须定义清楚),希望利用语义万维网的一些思想来解决,包括利用元数据和知识本体的思想。

需要对自己要解决的问题领域先有一个本体:

因此先得找一些综述文档来看看。


Technorati :

关于OWL-S应用的一些问题- –

关于 OWL-S 应用的一些问题(摘自 W3C 语义万维网讨论组 public-sws-ig@w3.org Evan K. Wallace 的一个贴子):

Eric Miller 在最近的一次会议上提到,许多软件公司对 OWL-S 的应用似乎比当初 RDF-S 和 OWL 来得迟缓,究其原因,大概是因为 OWL-S 目前还是一个 W3C submission 而不是推荐标准,正在讨论之中,变动还会比较大。另一方面好的工具比较少,参考文档和参考案例不多,也影响了应用。

实际上与 OWL-S 处于同一水平层次上的同类技术规范很多,例如 XPDL, BPML, BPE4WS, ebBPSS, BPRI, WMF, 以及 UML2 Action Semantics 等等。 其它更为形式化的如 PSL 和 SWSL 。 OWL-S 似乎并没有像 OWL 一样在同类语言中鹤立鸡群(特别作为概念建模语言方面)。 OWL-S 似乎没有吸收足够的同类语言的成果。


Technorati :

Ontology大牛Tom Gruber访谈- –

Dr. Tom Gruber' s (Co-founder and Chief Technical Officer of Intraspect Software) Interview
For the Official Quarterly Bulletin of AIS Special Interest Group on Semantic Web and Information Systems, Volume 1, Issue 3, 2004

Tom Gruber (tomgruber.org) ,就是那个在 Ontology 最牛的牛,给 Ontology 下定义而被无数人引用的那个大牛,最近又说了一些很牛的话:

他说:”每个本体都是一个条约–一项社会要约–存在于想共享某些事物的人之间”( “Every ontology is a treaty – a social agreement – among people with some common motive in sharing.” )

他把 Ontology 分为形式化的、半形式化的和非形式化的,他认为形式化的本体会很难达成,会有很多限制,而半形式化的本体更有用,办形式化的本体:形式化的一半由机器来处理,半形式化部分给人读的。有意思。

The term “Semiformal Ontology” refers to a ontology which has a few bits of formality but is largely informal. It is the analog of what Tom Malone calls semistructured data, such as email or office forms. A semiformal ontology could support technology to processing of its formal parts but leaves it to the reader make sense of the informal parts.

Tom 认为 Ontology 工具(他的 Intraspec 公司正在干这个明堂)将对其应用带来很大便利,特别是对那些不懂技术的用户。

Tom 还认为半形式化本体由于能够结合上下文,会工作得很好。


Technorati :