本体究竟应用得如何?

经常被问到一个问题:“本体”近年来一直是个十分热门的领域,但是有没有具体应用的成功案例?

这个问题的由来可能有两个方面:

1、大量的本体文章都停留于研究探讨层面,虽然有“本体工程”一词,但是似乎未见真正的“工程”成果,例如像中图法、汉表之类看得到摸得着的成果;
2、缺乏“一剑封喉”或者“刀刀见血”的杀手级应用。

应 该说本体领域确实存在上述现象,但这并不是说本体作为时髦一时的词汇已经失去了价值,相反它已经作为一种基本的系统建模和资源组织的思想方法,在当今的计 算机应用、特别是基于互联网和语义的应用方面,几乎是遍地开花、无所不在,可能也正是这个原因,大家并不刻意地去强调和渲染“本体”的作用。

但 就上面第一个问题而言,由于当前的本体基本上都是给计算机操作的,因此以机器可识别的方式编码,是本体的一大特征。多种本体编码语言中,基于万维网应用的 OWL目前处于主流地位,Google专门有一个“本体搜索引擎”Swoogle(http://swoogle.umbc.edu/),能够搜索超过一 万个大大小小的本体OWL/RDFS文档(RDF/RDFS可以认为是OWL的宿主语言)。本体作为一种互联网时代的知识组织规范,其标准化程度可能再也 不会像传统分类法或者叙词表那样,具有“国家标准”的地位,但是它们却是在大量的应用系统背后,起到“行业标准”或“领域规范”的作用。

由于本体有多种含义,有广 义、狭义的区分,也有内外之别。广义地来说,作为信息组织的概念模型和基本方式,传统的分类法、叙词表等各种方法都可以转换成本体形式,都可以称之为本 体(这一点可能有争议)。而且大量的领域本体或者企业内部本体是不对外的,是否应用了本体,我们通常可以从用户界面和系统功能方面考察,例如应用了分类主题导航或者分面浏览功 能的很多系统,都可以认为是应用了本体。

本体在最需要严格的知识组织、跨学科综合性海量信息资源管理的领域已经得到很多应用,例如生命科学 (生物多样性,基因工程,医疗卫生疾病防控等)、地球科学(大气监控、环境变化等)、教育资源(特别是英国)。记得最早接触和学习的本体,是联合国粮农组织FAO的项目,他们是这 个领域的先驱,一直做得很好,而且很开放。对于我们这个领域来说,除了大量的知识组织方法可以转化成本体,继续在互联网时代发挥作用之外,FRBR其实也是一种 本体,正在成为下一代编目数据的模型基础,得到广泛的应用,另外我的另两篇博文也谈到与图书情报领域相关的两个本体应用项目:一个可资借鉴的本体应用项目:STERNA叙词与本体,及其在Elsevier的应用。

Web时代的“元数据方法”(五)

如果你被当成专家,请去咨询某些研究课题或开发项目,什么话都说完了,也找不出破绽,或者其他专家十分彪悍,不拿点真家伙出来显示不出你的水平,这时你可以缓缓地吐出两个字:”本~体~~“。

没错,本体,Ontology。光看一看这充满哲学味的名词,许多人都要被雷一跟头,这是个Magic word。秦健老师翻译成“实用分类系统”,肯定没这效果。

其实,“本体”一词自古希腊诞生之后,几乎只存在于少数哲学怪人的意识之中,偶尔蠢动,也如木乃伊一般。可是到了互联网时代,突然借尸还魂,锐利无比,所向无敌。这还是那个本体吗?

从 很大程度上来说,这只是计算机行业的一个借用而已。Ontology, the study of being. 计算机能够用它来作什么呢?要知道计算机是肯定不懂哲学的,它所引入的概念,从来都是工具性的、操作性的,不可能带有任何模糊性,因为计算机和计算机之 间,是从来不进行“商榷”的。

计算机说,本体是”概念体系的明确的、形式化、可共享的规范说明”。说白了,就是概念体系的机读化,机器能够读得懂的概念体系。

什么叫“懂”,机器懂不懂你怎么知道?就像计算机并不懂你输入的每一个字符却能够准确地显示和匹配一样,计算机也能准确地展示和匹配概念,只要你把概念体系进行了它可以操作的编码。

于是,计算机可以知道人分男女,爸爸的爸爸是爷爷;可以把红楼梦四大家族关系表罗列的一清二楚,并找出其中的矛盾之处,只要你按照机读编码方式准确输入了内容;可以把你的全部馆藏按照各种分类法显示成知识树,虽然你可能只标引了中图法。

这是怎么做到的?仅仅是把你脑子里的知识理理清楚,用一种叫做OWL的编码语言代码化而已。

“本体”或“实用分类系统”?

远洋老师“正确认识本题的功能和局限”一帖在那边非常热闹,已经留言21条,参与者远洋师、皮诺曹、迷图、雨僧、本人等等,很多思考,很多成果。看中图学报都不会有这么大收获。

忽然讨论到Ontology/ies翻译成“实用分类系统”是否比“本体”更合适,风云变幻,帮派立现。我也去留了言。世事恢恢,人海茫茫,是不是提供了一个更本体的认识呢?各位看后自有评判吧。

这几天看了太多的生离死别,听了太多的可歌可泣,终于知道自己还有泪腺。于是我想:

  1. 世界原本是很简单的。就像原子,0和1,E=mc2,以及XML和RDF。世界之所以复杂,是因为我们了解得不够。能简单,就不要复杂。
  2. 要逝去的总是留不住的。永远准备从头开始,从头思考,从头架构。有时候你的财富,正是你的包袱,曾经的辉煌,其实都是累赘。
  3. 上帝不是在掷榖子,凡事皆有因果。本体的任务是揣摩上帝,模拟因果。不论是计算机的或不是计算机的,它都是更本质和更一般的,包含KOS更是不在话下。
  4. 语词表达概念,概念达成交流。孔子云:“辞达而已矣”,就是说,我们之间都能听懂彼此的“本体”,还去追究“本体”这个词合不合适做什么呢?多义词海了去了,不同的领域本体中,“本体”具有不同的含义,如果计算机都能够“理解”,你还不能理解吗?

一本好书《Ontological Semantics》

Ontological Semantics
Sergei Nirenburg and Victor Raskin


September 2004
ISBN 0-262-14086-1
7 x 9, 440 pp., 52 illus.
$50.00/£32.95 (CLOTH)



In Ontological Semantics , Sergei Nirenburg and Victor Raskin introduce a comprehensive approach to the treatment of text meaning by computer. Arguing that being able to use meaning is crucial to the success of natural language processing (NLP) applications, they depart from the ad hoc approach to meaning taken by much of the NLP community and propose theory-based semantic methods. Ontological semantics, an integrated complex of theories, methodologies, descriptions, and implementations, attempts to systematize ideas about both semantic description as representation and manipulation of meaning by computer programs. It is built on already coordinated “microtheories” covering such diverse areas as specific language phenomena, processing heuristics, and implementation system architecture rather than on isolated components requiring future integration. Ontological semantics is constantly evolving, driven by the need to make meaning manipulation tasks such as text analysis and text generation work. Nirenburg and Raskin have therefore developed a set of heterogeneous methods suited to a particular task and coordinated at the level of knowledge acquisition and runtime system architecture implementations, a methodology that also allows for a variable level of automation in all its processes.

Nirenburg and Raskin first discuss ontological semantics in relation to other fields, including cognitive science and the AI paradigm, the philosophy of science, linguistic semantics and the philosophy of language, computational lexical semantics, and studies in formal ontology. They then describe the content of ontological semantics, discussing text-meaning representation, static knowledge sources (including the ontology, the fact repository, and the lexicon), the processes involved in text analysis, and the acquisition of static knowledge.

Sergei Nirenburg is Professor of Computer Science and Electrical Engineering at University of Maryland, Baltimore County.

Victor Raskin is Professor of English and Linguistics at Purdue University.


目录贴在这儿,以窥端倪:

Table of Contents

Preface

1. Introductionto Ontological Semantics

1.1 A Model of Language Communication Situation for Ontological SemanticTheory 15

1.1.1 Relevant Components of an Intelligent Agent’s Model 15
1.1.2 Goals and Operation of the Discourse Producer 16
1.1.3 Operation of the Discourse Consumer 16

1.2 Ontological Semantics: An InitialSketch 17
1.3 Ontological Semantics and Non-Semantic NLP Processors 19
1.4 Architectures for Comprehensive NLP Applications 20

1.4.1 The Stratified Model 21
1.4.2 The “Flat” Model 22
1.4.3 Toward Constraint Satisfaction Architectures 22

1.5 The Major Dynamic Knowledge Sources inOntological Semantics 26

1.5.1 The Analyzer 26
1.5.2 The Generator 27
1.5.3 World Knowledge Maintenance and Reasoning Module 27

1.6 The Static Knowledge Sources 28
1.7 The Concept of Microtheories 29

2. Prolegomena to the Philosophy of Linguistics

2.1 Reasons for Philosophizing 32

2.2 Reasons for Theorizing 34
2.2.1 Introduction: Philosophy, Science,and Engineering 34
2.2.2 Reason One: Optimization 36
2.2.3 Reason Two: Challenging Conventional Wisdom 37
2.2.4 Reason Three: Standardization and Evaluation 38
2.2.5 Reason Four: Explanation 39
2.2.6 Reason Five: Reusability 39

2.3 Components of a Theory 39

2.3.1 P urview 41
2.3.2 Premises 41
2.3.3 Body 43
2.3.4 Justification 44

2.4 Parameters of Linguistic SemanticTheories 46

2.4.1 P arameters Related to Theory Proper 47
2.4.1.1 Adequacy 47
2.4.1.2 Effectiveness 48
2.4.1.3 Explicitness 50
2.4.1.4 Formality and Formalism 51
2.4.1.5 Ambiguity 53

2.4.2 P arameters Related to the Methodology Associated with a Theory 53

2.4.2 .1Methodology and Linguistic Theory 53
2.4.2.2 Methodology and AI 55
2.4.2.3 Methodology and the Philosophy of Science 55
2.4.2.4 Methodology of Discovery: Heuristics 55
2.4.2.5 Practical Skills and Tools as Part of Methodology 57
2.4.2.6 Disequilibrium Between Theory and Methodology 58
2.4.2.7 Specific Methodology-Related Parameters 59

2.4.3 P arameters Related to the Status of Theory as Model of Human Behavior59
2.4.4 Parameters Related to the Internal Organization of a Theory 59
2.4.5 Parameter Values and Some Theories 60
2.5 Relations Among Theory, Methodology and Applications 63

2.5.1 Theories and Applications 63
2.5.1.1 Difference 1: Goals 67
2.5.1.2 Difference 2: Attitude to Resources 68
2.5.1.3 Difference 3: Evaluation 68

2.5.2 Blame Assignment 68
2.5.3 Methodologies for Applications 69

2.5.3 .1″Purity” of Methodology 69
2.5.3.2 Solutions are a Must, Even for Unsolvable Problems 69

2.5.4 A spects of Interactions Among Theories, Applications, andMethodologies 70

2.5.4 .1Explicit Theory Building 70
2.5.4.2 Partial Interactions 70
2.5.4.3 Theoretical Premises Pertaining to Applications 71
2.5.4.4 Constraints on Automation 71
2.5.4.5 Real-Life Interactions 72

2.5.5 Examples of Interactions Among Theories, Applications, andMethodologies 72

2.5.5 .1Statistics-Based Machine Translation 72
2.5.5.2 Quick Ramp-Up Machine Translation Developer System 73

2.6 Using the Parameters 76
2.6.1 P urview 77
2.6.2 Premises 78

2.6.2 .1Premise 1: Meaning Should Be Studied and Represented 78
2.6.2.2 Premise 2: The Need for Ontology 78
2.6.2.3 Premise 3: Machine Tractability 80
2.6.2.4 Premise 4: Qualified Compositionality 80

2.6.3 Justification 81

2.6.3 .1Why should meaning be studied and represented? 82
2.6.3.2 Why is ontology needed? 82
2.6.3.3 Why should meaning be machine tractable? 83
2.6.3.4 Why should meaning be treated as both compositional andnon-compositional? 83

2.7 “Post-Empirical” Philosophy ofLinguistics 83

3. OntologicalSemantics and the Study of Meaning in Linguistics, Philosophy and ComputationalLinguistics

3.1 Prehistory of semantics 86
3.2 Diachrony of word meaning 86
3.3 Meaning and reference. 88
3.4 The Quest for Meaning Representation I: From Ogden and Richards toBar-Hillel 89

3.4.1 Option 1: Refusing to Study Meaning 89
3.4.2 Option 2: Semantic Fields, or Avoiding Metalanguage 90
3.4.3 Option 3: Componential Analysis, or the Dawn of Metalanguage 90

3.4.4 Option 4: Logic, or Importing a Metalanguage 91

3.5 The Quest for Meaning RepresentationII: Contemporary Approaches 93

3.5.1 Formal Semantics 93
3.5.2 Semantic vs. Syntactic Compositionality 97
3.5.3 Compositionality in Linguistic Semantics 98

3.6 A Trio of Free-Standing Semantic Ideas from Outside Major Schools 100
3.7 Compositionality in Computational Semantics. 101

4. Choicesfor Lexical Semantics

4.1 Generativity 104

4.1.1 Generative Lexicon: Main Idea 104
4.1.2 Generative vs. Enumerative? 105
4.1.3 Generative Lexicon and Novel Senses 106
4.1.4 Permeative Usage? 107
4.1.5 Generative Vs. Enumerative “Yardage” 109

4.2 Syntax vs. Semantics 109
4.3 Lexical Semantics and Sentential Meaning. 111

4.3.1 Formal Semantics for Sentential Meaning 112
4.3.2 Ontological Semantics for Sentential Meaning 112
4.3.3 Lexical Semantics and Pragmatics 114

4.4 Description Coverage 115

5. Formal Ontology and the Needs of Ontological Semantics

5.1 Ontology and Metaphysics 120
5.2 Formal Ontology 122

5.2.1 Formal Basis of Ontology 122
5.2.2 Ontology as Engineering 124
5.2.3 Ontology Interchange 125

5.3 Ontology and Natural Language 127

5. 3.1 A Quick andDirty Distinction Between Ontology and Natural Language 127
5.3.2 The Real Distinction Between Ontology and Natural Language 129

5.4 A Wish List for Formal Ontology from Ontological Semantics 133

6. MeaningRepresentation in Ontological Semantics

6.1 Meaning Proper and the Rest 136
6.2 TMR in Ontological Semantics 141
6.3 Ontological Concepts and Non-Ontological Parameters in TMR 148
6.4 The Nature and Format of TMR 149
6.5 Further Examples of TMR Specification 152
6.6 Synonymy and Paraphrases 155
6.7 Basic and Extended TMRs 156

7. TheStatic Knowledge Sources: Ontology, Fact Database and Lexicons

7.1 The Ontology 160

7.1.1 The Format of Mikrokosmos Ontology 163
7.1.2 Inheritance 172
7.1.3 Case Roles for Predicates 174
7.1.4 Choices and Trade-Offs in Ontological Representations. 180
7.1.5 Complex Events 182
7.1.6 Axiomatic definition of ontology. 187

7.2 Fact DB 191
7.3 The Lexicon 195
7.4 The Onomasticon 205

8. Basic Processing in Ontological Semantic Text Analysis

8.1 Preprocessing 208

8.1.1 Tokenization and Morphological Analysis 208
8.1.2 Lexical Look-up 210
8.1.3 Syntactic Analysis 211

8.2 Building Basic Semantic Dependency 212

8.2.1 Establishing Propositional Structure 213
8.2.2 Matching Selectional Restrictions 216
8.2.3 Multivalued Static Selectional Restrictions 218

8.3 When Basic Procedure Returns More Thana Single Answer 221

8.3.1 Dynamic Tightening of Selectional Restrictions 221
8.3.2 When All Else Goes Wrong: Comparing Distances in Ontological Space 228

8.4 When Basic Procedure Returns No Answer231

8.4.1 Relaxation of Selectional Restrictions 231
8.4.2 Processing Non-literal Language 231
8.4.3 Processing Unattested Inputs 235
8.4.4 Processing Ellipsis 237

8.5 Processing Meaning Beyond BasicSemantic Dependencies 239

8.5.1 A spect 239
8.5.2 Proposition Time 245
8.5.3 Modality 248

8.6 Processing at the SuprapropositionalLevel 254

8.6.1 Reference and Co-Reference 254
8.6.2 TMR Time 257
8.6.3 Discourse Relations 258
8.6.4 Style 260

9. Acquisitionof Static Knowledge Sources for Ontological Semantics

9.1 Automating Knowledge Acquisition inOntological Semantics 261
9.2 Acquisition of Ontology 265
9.3 Acquisition of Lexicon 273

9.3.1 General Principles of Lexical Semantic Acquisition 273
9.3.2 Paradigmatic Approach to Semantic Acquisition I: “Rapid Propagation” 274
9.3.3 Paradigmatic Approach to Lexical Acquisition II: Lexical Rules 276
9.3.4 Steps in Lexical Acquisition 280
9.3.5 Polysemy Reduction 280
9.3.6 Grain Size and Practical Effability 287
9.3.7 Ontological Matching and Lexical Constraints 291

9.4 Acquisition of Fact DB 298

10. Conclusion

Bibliography

(本人提供学术信息以方便国内同行研究交流为目的,使用时请尊重原作者版权)






Trackback: http://tb.donews.net/TrackBack.aspx?PostId=571389




Technorati :
,

叙词与本体,及其在Elsevier的应用

在我看来,叙词表是一类特殊的本体–反映领域知识,具有本体的概念层级结构和用代属分参概念联系,但是没有公理、没有实例,或者说公理和实例不是内在的,体现在应用叙词表的系统中。
情报检索的规范控制近年来有明显的回归趋势,主要归功于语义万维网的提出和研究,语义万维网需要机器来操作语义,就必须首先进行规范控制,最好整个知识系统成为一个封闭世界,语义计算就能够”安全”地进行。当然这是不可能的。
我们大约从2001年开始对知识本体的作用进行研究,感到本体是一个非常重要的、代表未来应用方向的研究和开发领域,也是图书馆学能够贡献我们宝贵的专业知识、使我们这个学科”显性化”的领域,当然离开了我们也不是不能搞,可能创建的本体就不会那么中庸、平衡、人性化,甚至”不象”对普遍知识进行抽象的”学科本体”,而带有许多技术描述的、或十分随意的特征,像yahoo的分类体系一样让我们看不上眼,没有DC元数据那么让图书馆员似曾相似、赏心悦目。我们感到应该尽快像当年搞748工程(建立汉语主题词表)一样进行学科本体的创建和应用,但是好像至今仍没有什么启动项目。

知识本体的主要作用如下:

* 在人、机器(表现为软件代理)以及人与机器之间共享对于信息及结构的共同理解
* 实现一定程度的领域知识的重用
* 知识本体可以明确领域假设,使领域公理得到明确描述从而达成共知
* 对于领域知识进行分析、明确,并使其形式化

对于数字图书馆应该能起到如下作用:

* 提供与描述型元数据有关语义描述的知识地图
* 提供资源库领域知识的规范描述
* 提供元数据映射方案,集成到数字图书馆体系中的元数据服务中,成为协议的一部分
* 提供智能代理与信息环境之间基于语义的理解机制
* 跨平台、跨系统之间的通信中介
* 分布环境下查询请求的语义理解

现 有的技术当中最接近本体的就是叙词表了。前些年基于自由词的全文检索势不可挡,而今面临信息超载,注意力稀缺,查到和查准成了非常困难的事情,人们对信息组 织和查询的要求更高了,不得不回过头来,重新审视传统情报检索领域的一些几乎被人遗忘的好的想法。而这些想法一经计算机专家之手,就被玩得完全不同了。
研 究叙词表与知识本体的文章已经有不少了,今天看了一篇Elsevier出版公司对于其众多数据库进行”技术改造”的想法,应用语义技术,涉及叙词表的改 造,虽然没有什么非常特出的地方,但因为是具体企业的应用,还是很有启发的。我国的很多计算机公司,包括软件公司,对新技术的研发投入和应用能力实在不敢 恭维。例如帮我们开发系统的公司,一边赚我们的钱,一边跟我们学,东西开发出来还不能让人满意,真让人愤愤啊!

elsevier 的语义系统应用;

传统上 Elsevier 采用属性字段检索和叙词表主要用于:

*标引文献Indexing (tagging) articles, books and other materials
*层次浏览Browsing thesaurus-indexed content
*扩检Expanding searches against specialized content
*   Overall, a net benefit, but not huge
*范围限定Limiting a search by category
*文件聚类Clustering documents by category
*   Better than limiting search up front…data-driven

然而 Elsevier 目前没有在检索中采用叙词表,据称是因为相对于现在流行的全文检索而言好处不明显(可能还极大地增加了系统的复杂性和维护成本)。

Elsevier 在语义主导 Web 的时候重新考虑采用叙词表,据称主要原因是:

*采用多种叙词表,能够对开放或者内部的数据库实现统一的字段检索,Integrated search of proprietary, public and/or local user content using multiple thesauri
*整合文本名称与化学结构Integrating chemical structure info with text documents
*整合各种模式的数据库Integrating databases with diverse schemas
*支持文本挖掘Supporting text mining
*扩展检索范围Other uses requested by our customers (e.g., extensibility for local content)
*改进叙词表的导航性能Improved thesaurus navigation
*改进查询命中结果Improved search results

叙词表的新用法:

建立基于 RDF 的中间本体用于不同叙词表之间进行映射;

支持多种关系描述 Support multiple relationships

支持用户自行扩展 Extensible by customers

改进性能和可扩展性

试验新的查询选项

在改进查准率的同时改进查全率

用于查询结果的可视化展示,优化用户交户界面

Elsevier 对于文本挖掘的看法:

  • 认识:文本挖掘已经成为信息过剩(overload)时代信息提供的一个必备工具;
  • 重视需求调查,不断开发新的应用;
  • 同时提供”实质性”的挖掘工具和”预备研究”(meta-research)工具;
  • 时间维上的发展趋势,作者/机构分布等等;
  • 以RDF形式作为存储事实的基本形式,提供事实抽取的数据基础。


Technorati : ,