Web时代的“元数据方法”(三)
就像用ASCII(或者Unicode)表示字符一样,RDF(Resouce Description Framework)是表达语义的基础。(有人把它直接叫做元数据编码标准,错是没错,过于狭窄了)。这时候你就不要管RDF也必然是基于字符集的,就像你一般不需要管字符的二进制表达一样。用了RDF之后,你就当机器天然是能够直接处理“语义”的。语义底下的“层次”(如提供字符交换的编码层,乃至提供网络交换的各类协议中的层次。想起来雨师特喜欢分层,很有道理)就让机器去管了,用术语说:字符编码在这时候是对你是透明的。
于是,计算机就能像字符匹配一样,能够进行语义匹配了(记住:URI在这整个技术架构中是极其重要的,机器没有人聪明,只有通过URI来判断唯一性和同一性,而人是可以经常偷换概念的)。
语义匹配除了像字符匹配那样可以做“全等”运算,还可以把传统文本检索中的许多“智能”提取出来,进行标准化和模块化(也是一种“层次化”),例如同义词概念匹配,概念族的关联,跨系统的语义互操作等,在文本检索中只能作为系统内嵌的功能,而在语义层面它可以是独立的模块或网络服务,结合领域应用(似乎“普适”的智能已经走到了尽头,需要领域应用才能突破),这种智能能够挖掘出更多的东西,其威力是非常巨大的,现在才刚露端倪——您猜对了,这当然就是目前大热门的本体技术。
这里可能需要解释一下什么是“语义 ”,语义:semantics,is the meaning of meanings,即“表达”背后的含义,“表达”可以是文本,图像或任何其它东西。我一直很纳闷李爵士当初为什么不用Knowledge Web这个词,而用了Semantic Web,敢情“知识”一词含义太多,涉及到认知过程,一团浆糊,抑或已经被“人工智能”弄得臭不可闻了。现在越想越有理,Semantic,而不是Knowledge,高,就是高!
RDF是“资源-属性-属性值”三元组,每一个三元组就是一个语义的基本单元。例如“红楼梦-作者-巴金”(别笑,我知道巴金不是曹雪芹,语义表达并不是语义判断!),这个句式表达了一项基本语义。它可以用XML版本的RDF来表示,也可以用N3来表示,也可以什么东不用——就用上面的句式来表示,等等,只要是三元组,都是RDF。别相信赵同学说你不对,自信点。
你知道了语义表达可以用RDF作为基本单位。那么,请听题:”巴金-是-作家“是三元组吗?”巴金不是曹雪芹”该如何表达呢?
这些问题暂且按下不表,继续来看“元数据”。
这种思考是一种典型的“思考范式的转型”,不要说不懂技术的,很多搞技术的人至今也转不过来。甚至有技术大牛甘做钉子户(例如RSS2.0,放弃RDF还振振有词。试想如果Feed都是RDF,现在不是像FOAF一样,又多了一个海量语义库了吗?),觉得干嘛那么麻烦!典型的技术实用主义,愚昧啊!
beefsteak Said on 十月 31st, 2008 at 8:03 上午 quote
K师的Web时代的“元数据方法”应该是Bringing Authority Control to the Web (1)(to be finished)的前传。太好听了。
雨僧 Said on 十月 31st, 2008 at 8:57 上午 quote
k师一回一回到来,有味道
gsls Said on 十月 31st, 2008 at 11:37 上午 quote
主体-关系-客体?
巴金-作家中的一员-作家?
巴金-不同的人-曹雪芹?