关于中国历史朝代本体的rdf描述

书社会的Caveman在做一项很实用的研究,问了一个很好的问题(一般而言,回答不上来的问题都是好问题)。我在这里做一些讨论,希望抛砖引玉,批评指正。
在这里把问题归纳为:如何用RDF(及其家族)描述中国朝代的公元纪年。他的朝代与公元纪年对照表在这里:http://tinyurl.com/timeReignChinese
直感转换方法有很多种,可以用RDF,也可以用SKOS和OWL,甚至其它,包括直接用XML自定义也可以。
编码原则应该是:能复用就复用,看看前人的成果。
而如何编码,哪种方式合用,关键还要看需求。
网络上已经有一些供人使用的转换工具了,但如果要通用性,应该基于RDF进行编码,并开发一个工具,甚至变成语义网络的一种服务,就能够直接为机器理解、获取和使用,能够被其它应用任意调用,就能体现语义技术最大的优越性了。

想到目前国内有些分类法主题词表分别都有了网络版,但那是给人看的,无法通过服务器直接获取术语和术语关系,进行匹配和关系运算,这实际上发挥不了多大的作用。只有用RDF(SKOS或OWL)编码之后,提供一定的语义Web服务(例如用关联数据方式发布),才能真正发挥词表的作用。
这里的核心需求可以整理为:
1、某个朝代有哪些年号,这些年号的起讫日期(即这个对照表:http://tinyurl.com/timeReignChinese
2、某个公元年号落在哪个朝代的哪个年号。
3、模糊年号(如不同朝代相同年号)和模糊日期(如起讫年精确到年还是月还是日)的处理。
4a、是否需要提供网络服务接口,实现双向转换;
4b、还是提供代码,嵌入任何应用;
4c、还是仅仅用RDF来描述这个对照表。
5、进一步的,不同朝代的国家情况(地理疆域、并行的国号等)。
就这个对照表的转换而言,可以认为只需满足1、2和4c即可。

简单的解决方案可以这样:
定义朝代(dynasty)类和年号(reign)子类,都属于event类,复用event本体(http://motools.sourceforge.net/event/event.html)和timeline本体(http://motools.sourceforge.net/timeline/timeline.html)中的元素,建立“朝代-年号”和“年号-公元纪年(date interval类型)”的rdf描述即可。
将来可以扩展(复用)event的其它属性,例如皇帝,都城,等等。

Popularity: 15% [?]

Tags: RDF, 朝代, 本体, 知识组织, 语义技术

Related posts

语义表达是不是一定要用RDF?

昨天参加了一场博士论文答辩,内容有关语义Web应用,论文架构很庞大,从基本概念、标准规范到元数据和本体的构建,到特定领域应用的实现和查询效果的比较等,感觉该童鞋很不容易。
答辩期间问了两个问题:

1、对于“语义”是如何理解的?机器如何理解语义?是不是Web加了元数据之后就是语义Web了?
2、如何对语义进行编码和查询?为什么没有试验用SAPRQLSPARQL进行查询?

第一个问题是因为论文中罗列了很多语义Web的定义而没有对语义进行定义,更没有说明语义是如何能被机器“理解”,保证机器理解的机制到底是什么?整篇文章给人的感觉好像是对于Web进行了元数据(语义)标注之后就是语义网了。
第二个问题是针对论文认为语义标注必须首先用XML进行结构化,RDF以及KOS转换的本体(OWL)起什么作用都没有明确说明,有点知其然不知其所以然的味道,后面更是没有提到语义Web查询语言SPARQL的独特作用,而是用SQL实现对语义数据的查询。
该 童鞋对于这两个问题的回答还是基本到位的,第一个问题她说到了语义就是所表达内容的含义,需要通过形式化编码才能被机器理解;第二个问题说需要用基于 XML的语义描述语言进行编码,因为在实验系统实现的过程中没有直接支持RDF的数据库系统,所以无法用SPARQL进行语义查询,等等。
这里想补充一些我的认识,有些认识可能比较绝对,对与不对大家可以批评指正。

1、 对于语义Web而言,RDF是基本的编码方式,是不是用了RDF可以作为具不具有明确外在的语义编码的判定标准。就是说,用了RDF,才能说是有语义的, 就像用了ASCII等字符编码标准才能进行文本编码一样。元数据可以不用RDF来表示,但是RDF是专门为了表达元数据而发明的语言(或者说框架或结 构),因为元数据就是“关于数据(主体)的数据(客体)”,主客体通过某种方式(谓词)相联系。这个问题在计算机界一直有争论,但是我这里对RDF的定义 是三元组方式,不一定是XML表达的三元组,也可以是其它方式(如N3等)表达的三元组,或者通过数据库方式能够输出三元组。本体OWL和SKOS都是基 于RDF的,因此它们肯定是表达语义的,而用XML自定义的任何表达方式,可以认为是系统内部局部的语义表达方式,到Web上就不具有可交换性了。因此它 虽然是结构化的,但不是表达全局语义的。
2、RDF是表达机器语义的必要条件,但并不充分。在语义Web中,必须结合URI机制,才能赋予任何一 个表达(资源)的全局语义,当然这个全局也仅仅是对于开放的Web来说的,这也就是URI能够解析的范围。任何一个局域网,无论其规模再大,都可能屏蔽这 种机器语义,而具有其独特的、更丰富的语义。因此,元数据和本体可以适用于比语义Web更广泛的领域,但到了Web上,这些内部语义如果要进行分享、重 用、交换,都有互操作问题。现有的技术架构、模型方案等,都是为了规范和减少这些互操作问题而提出。
3、采用了语义技术,语义Web就可能借助于SKOS或OWL等编码表达的概念体系,进行基于概念的检索,并可能进行知识挖掘和简单推理。SPARQL提供了强大的知识查询能力。

从理解XML到理解RDF,似乎在“思考范式”上要有一个转型。许多搞计算机的人都无法理解,对语义Web认识一直有一个障碍,就是“管它语义不语义,机器懂什么语义?系统只要能满足用户的需求,什么技术不能表达语义?”希望上述解释能够回答这个问题。

Popularity: 17% [?]

Tags: OWL, RDF, 元数据, 语义技术

Related posts

Web时代的“元数据方法”(三)

就像用ASCII(或者Unicode)表示字符一样,RDF(Resouce Description Framework)是表达语义的基础。(有人把它直接叫做元数据编码标准,错是没错,过于狭窄了)。这时候你就不要管RDF也必然是基于字符集的,就像你一般不需要管字符的二进制表达一样。用了RDF之后,你就当机器天然是能够直接处理“语义”的。语义底下的“层次”(如提供字符交换的编码层,乃至提供网络交换的各类协议中的层次。想起来雨师特喜欢分层,很有道理)就让机器去管了,用术语说:字符编码在这时候是对你是透明的。

于是,计算机就能像字符匹配一样,能够进行语义匹配了(记住:URI在这整个技术架构中是极其重要的,机器没有人聪明,只有通过URI来判断唯一性和同一性,而人是可以经常偷换概念的)。

语义匹配除了像字符匹配那样可以做“全等”运算,还可以把传统文本检索中的许多“智能”提取出来,进行标准化和模块化(也是一种“层次化”),例如同义词概念匹配,概念族的关联,跨系统的语义互操作等,在文本检索中只能作为系统内嵌的功能,而在语义层面它可以是独立的模块或网络服务,结合领域应用(似乎“普适”的智能已经走到了尽头,需要领域应用才能突破),这种智能能够挖掘出更多的东西,其威力是非常巨大的,现在才刚露端倪——您猜对了,这当然就是目前大热门的本体技术。

这里可能需要解释一下什么是“语义 ”,语义:semantics,is the meaning of meanings,即“表达”背后的含义,“表达”可以是文本,图像或任何其它东西。我一直很纳闷李爵士当初为什么不用Knowledge Web这个词,而用了Semantic Web,敢情“知识”一词含义太多,涉及到认知过程,一团浆糊,抑或已经被“人工智能”弄得臭不可闻了。现在越想越有理,Semantic,而不是Knowledge,高,就是高!

RDF是“资源-属性-属性值”三元组,每一个三元组就是一个语义的基本单元。例如“红楼梦-作者-巴金”(别笑,我知道巴金不是曹雪芹,语义表达并不是语义判断!),这个句式表达了一项基本语义。它可以用XML版本的RDF来表示,也可以用N3来表示,也可以什么东不用——就用上面的句式来表示,等等,只要是三元组,都是RDF。别相信赵同学说你不对,自信点。

你知道了语义表达可以用RDF作为基本单位。那么,请听题:”巴金-是-作家“是三元组吗?”巴金不是曹雪芹”该如何表达呢?

这些问题暂且按下不表,继续来看“元数据”。

这种思考是一种典型的“思考范式的转型”,不要说不懂技术的,很多搞技术的人至今也转不过来。甚至有技术大牛甘做钉子户(例如RSS2.0,放弃RDF还振振有词。试想如果Feed都是RDF,现在不是像FOAF一样,又多了一个海量语义库了吗?),觉得干嘛那么麻烦!典型的技术实用主义,愚昧啊!

Popularity: 58% [?]

Tags: RDF, Semantic Web, 元数据, 语义技术

Related posts

Drupal向Web3.0发展?

Drupal看来确实是一个值得关注的开源软件,不仅因为它是Web2.0的内容管理软件,而且因为它正在向3.0发展。

我并不喜欢2.0、3.0之类的模糊词汇,现在已经炒到4.0了(见这里这里),但是大家都这么说,就将就了吧。

在上周召开的Drupalcon Boston 2008大会上,Drupal的创始人Dries Buytaert发表了一场精彩的主旨报告,这里有视频(视频1视频2音频),可惜我们看不到。 Dries正在把Drupal带入一个全面应用RDF的富语义时代,在他的演示中我们可以看到作为一个内容管理软件平台的Drupal如何借助标准的SPARQL语言,将各类语义应用(如dbpediadbtunes,Google数据), 以及包含地理数据(geodata),事件、FOAF 、表单,利用Exhibit框架混搭(mashup)起来。

这是一个令人振奋的进展。在许多Web2.0的开源社区中,Drupal似乎显得最有活力, 这次Drupalcon Boston 2008半年会盛况空前,可能与Drupal注入了一定的商业元素有关吧。开源如何与商业共同发展,是一个值得探讨的话题。

进一步资讯:开源CMS 项目 Drupal 创始人 Dries Buytaert 访谈录

Popularity: 78% [?]

Tags: Drupal, OSS, RDF, Web3.0, 会议, 语义技术, 语义网, 读网

Related posts

代码示例2:DCq编码实例

<?xml version=”1.0″?>

<!DOCTYPE rdf:RDF [

<!ENTITY rdfns 'http://www.w3.org/1999/02/22-rdf-syntax-ns#'>

<!ENTITY rdfsns 'http://www.w3.org/2000/01/rdf-schema#'>

<!ENTITY dcns 'http://purl.org/dc/elements/1.1/'>

<!ENTITY dctermsns 'http://purl.org/dc/terms/'>

<!ENTITY dctypens 'http://purl.org/dc/dcmitype/'>

]>

Read the rest of this entry »

Popularity: 67% [?]

Tags: DC Metadata, encoding, Metadata, RDF, 元数据

Related posts