几个概念:开放数据,关联数据,语义Web和Web3.0
针对童鞋们经常提问,以及本人根据网络资源和自己的理解整理如下:
开放数据(Open Data):
在网络上可以公开得到的数据,没有任何控制访问的措施(无需登录,否则只能是免费数据或其它名称)。
为了促进开放数据应用,模仿“创作共用”协议,好事者也提出了“开放数据共用协议”。
开放元数据是其中的一类。
项目举例:
- data.gov(美国)
- Open Data Network(德国)
- making public data public(英国)
关联数据(Linked Data):
一种数据访问(整合)技术,基本上都是以RDF方式表达,对于Http协议进行少量扩展(规定)而成。低成本,高可用性,整合简单。
开放链接数据(Linked Open Data)是关联数据的一项运动。
- 美国纽约时报项目,目前已经上载了5000个人物的主题表目,可以按照cc by协议开放使用。
- Linked Data Research Center
- GoodRelations:关于产品、价格和企业数据的规范词表
- oeGOV:应用于政府信息管理的本体词表
Web3.0:
Web2.0的热衷者或者搅局者提出的一个概念,作为下一代Web的一种趋势探讨,有人说就是语义Web,有人在语义Web基础上添加了P2P、各类无线应用甚至云计算等内容。
语义Web:
现有Web之上的、以数据资源为基本组成单位的Web,这些资源(数据)都标注有元数据描述,从而能够进行语义查询,以及数据整合,提供了互联网上实现语义互操作的技术平台。关联数据可以理解为语义Web的一种实现。
Web of Data是其另一别称。
Popularity: 19% [?]
Tags: linked data, Open Data, Web3.0, 关联数据, 语义Web, 语义技术Related posts
语义万维网服务的自动发现
20090822-update:本文为加入Research Blogging而修订(在文后添加了他们所要求的引文代码,以便集成到RB的平台上),日期也应要求改成今天(原来是2005年2月24日)。需要说明的是,W3C的语义网服务发现的技术框架目前已经有了很大进展,目前轻量级的、更加松散耦合的approach逐渐占了上风,估计这种繁复和缺乏灵活性的方案不会得到普及。目前“关联数据(Linked Data)”的发布方式作为一种直接的数据服务(更复杂的语义服务尚无可能)正在得到追捧。特此说明。
我感兴趣的问题实际上就是Ontology based metadata services for information retrieval. 实际上是开发一个或一组智能代理,利用Semantic Web services架构解决异构系统的情报检索互操作问题。前提条件是一定的Semantic Web services架构。首先必须对这个概念解释清楚。这是个很热门的话题了实际上,一篇经典的文章见(2001年的文章,稍早一些,还没有DAML-S):http://www.daml.org/services/ieee01-KSL.pdf,一个作者是越南人,第三作者是个中国留学生,都很年轻啊!
以下主要来自(Katia Sycara, Massimo Paolucci, Anupriya Ankolekar, Naveen Srinivasan, “Automated discovery, interaction and composition of Semantic Web services”)*
Web services 利用自主的代理在分布的环境中实现自动的”按需”服务,Semantic Web提供服务描述和服务接口的语义支持,目前这方面的标准正在逐步建立起来,然而多个Web service之间的协调和语义一致性是一个关键问题,目前BPEL4WS 和WSCI在这方面作了一些探索,然而最可能的途径是通过DAML-S提供解决框架。
组合多个Web services可以分为三方面的问题:
- “计划”Web服务之间的交互以及其提供的功能如何整合;
-
“发现”Web服务实现的的任务;
-
对Web服务之间的”交互”进行有效的管理。
这三个方面是交织在一起的,计划决定了如何去发现Web服务的类型,却依赖于Web服务的实现。同样,Web服务的交互过程依赖于计划的实施,计划本身又依赖于对交互的需求。
揭示一个Web服务,系统必须提供对于Web服务所能实现功能和能力的描述机制,并且能够识别和比较不同Web服务的功能和能力的异同。另一个挑战是系统还必须支持对不同Web服务的交互的支持。
也就是说需要从语义和语法两个方面提供互操作性,而不是仅仅是目前考虑的重点–从语法上制定协议标准(例如SOAP和WSDL,利用XSD展现消息数据的结构)。语法的互操作性仅仅提供了消息交换的结构,没有提供消息内容的解释。UDDI仅仅是关于Web服务的信息库,并不包含Web服务能力的揭示。WSCI和BPEL4WS描述了多个Web服务可以组合在一起成为一个更复杂的Web服务,但是其重点放在语法的规定上,因此并不支持自动的Web服务的组合。
语义互操作因此成为Web服务协同组合的关键问题。它必须:
-
表达和支持Web服务的任务实现(例如网上卖书或者信用卡认证等),以便通过对于Web服务功能清楚的描述和广告而实现自动发现;
-
表达和支持业务关系和规则(Business relations and rules);
-
表达和支持消息排序(message ordering);
-
理解消息的语义;
-
表达和支持使用特定Web服务的前提条件以及激活服务的效果;
-
允许Web服务组合成为更为复杂的服务。
Web服务可以直接在语义Web基础上直接建立,后者为Web提供了内容语义,能够被代理或者其他服务获取,代理能够通过严格定义的语义内容和规则进行推理,由本体提供的概念模型能够很好地解释Web网页的内容。从这一点来看,语义Web为Web服务提供了其所需得的语义互操作的基础,提供了形式化的语言和本体,用以支持服务描述、消息内容的理解、业务规则,并提供了不同本体之间的联系。语义Web和Web服务互相促进:前者使Web成为一个庞大的机读数据库,后者提供机器自动使用这些数据的工具。
由此可以认为,”语义Web服务”是语义元数据、本体、形式化工具和Web服务架构的集成,是基于良好定义的语言进行语义描述的Web服务(A Semantic Web service is a Web Service whose description is in a language that has well-defined semantics)。
因此,网络计算的不确定性得到了最大程度的消除,Web服务的发现、选择、组合、沟通、激活、监测、管理、恢复和补偿都得到了最大程度的自动化和实现。特别低,语义Web服务依赖语义Web描述:
-
消息交换的内容;
-
消息交换的顺序;
-
消息交换的状态变化。
结果为不同服务的无缝互操作提供了基础。
利用语义Web描述Web服务有很多具体内容,包括描述Web服务的许多附加属性,例如服务质量、安全性约束等,可能最重要的是在Web服务的运行过程中的状态描述,包括其输入和前提条件,以及输出和结果等,这些是对于其功能和能力描述所必需的。
文章的第二部分讨论了DAML-S对于发现和激活语义Web服务的作用,并进一步讨论了Web服务发现的不同方法和DAML-S处理模型的形式语义。第三部分集中讨论DAML-S怎样用于Web服务能力的发现,怎样在UDDI注册系统的基础上更进一步。在第四部分介绍了DAML-S虚拟机,主要用于第二部分介绍的”DAML-S处理模型”形式语义的处理。第五部分提供了DAML-S虚拟机运行效果的评价,我们可以看到其运行并不频繁。第六部分描述了一个具体的利用DAML-S组合服务的应用。第七部分是结论。
(语义Web服务图示及说明)。
服务描述一般包括三方面内容:服务能力描述;非功能性静态参数(元数据);对该项服务负责的服务实体的描述。
服务能力描述:对于符合一定前提条件的Web服务输入产生一定的输出(返回消息),以及其间的副产品。例如一个付费新闻服务需要一个日期和信用卡帐号的输入,然后判断是否符合日期和信用卡的有效性以及信用卡没有被过度使用(超出信用额度的透支)的前提条件,所产生的输出是提交用户一个满足其日期请求的新闻网址,以及从信用卡中扣除相应的服务费用,其中可能会有非功能性静态参数(元数据)参与整个过程,例如对于新闻质量、收费标准以及新闻类别的选者和控制等。
处理过程和服务概要提供了描述Web服务的两个方面:服务概要描述服务内容和能力,而处理过程描述如何实现服务。例如Amazon的Web服务的概要描述了该网站的售书功能,而服务过程则必须详细描述为了实现卖书的过程,请求者必须首先查到他所需要的书,提供支付信息,并提供发货地址等。
*Sycara, K. (2003). Automated discovery, interaction and composition of Semantic Web services Web Semantics: Science, Services and Agents on the World Wide Web, 1 (1), 27-46 DOI: 10.1016/j.websem.2003.07.002
Popularity: 39% [?]
Tags: web服务, 研客, 语义Web, 语义技术Related posts
语义网范式
最近Alex Iskold在著名的2.0网刊读写歪脖(Read/Write Web)上发表了一篇“语义网范式:语义技术指南”(Semantic Web Patterns: A Guide to Semantic Technologies)的博文,实在是偶数年来一直想写的一个主题。当然如果是俺写,一定不及Alex之万一。对于众多对语义网(鉴于Semantic Network一词几乎已淡出人们的视线,俺也不坚持一定要把Semantic Web翻译成语义万维网了)充满好奇的“数字图书馆人”来说,进行一下入门教育是非常必要的。就像Eric Miller在DC-2004上Keynote的:“语义网是什么?就是数字图书馆。”(他说过吗?原话在哪儿? 偶不记得了。)
语义网命中多桀。一说是自1994年在李爵士的脑中闪现(见证据),然FOAF之父DanBri却用了一个图证明与Web是同时出现的(顺便一说,DanBri的头像实在是很酷哦),这是一张SW史前的草图,可惜是电子版,没有画在餐巾纸上,无法证明什么。为尊者讳,在互联网领域说一个东西很老是不礼貌的,虽然语义网大旗一直扛得很艰难,几乎被Web2.0抢了风头,但是现在可以改一个名头,称之为Web3.0,凤凰涅磐,浴火重生。
闲话少说,言归正传。Alex开篇就说,语义网是一个百变精怪,对于不同的人可能是不同的东西。让我想起emiller对于数字图书馆瞎子摸象的比喻:对于某些人来说语义网是Web中以RDF或OWL表示的数据(OWL实际就是一种RDF,RDF又都是XML);对另一些人来说RDF干脆就是微格式;还有人认为语义网只是基于语义的Web服务,另一些人则认为是网络上的人工智能……
Alex的这篇“语义网范式(Semantic Web Pattern)”,主要把混沌一片的语义网应用和各种对语义网的认识进行了梳理,可以认为是当前的“语义网类型学”。
1、自底向上和自顶向下:从方法学上认识语义网。
2、主流标注技术:RDF, 微格式和Meta Headers(HTML文件头)。
3、用户分类:面向最终用户还是面向企业。
4、开放语义API。
5、语义搜索。
6、情境(上下文)技术。
7、语义数据库。
原文对上述每个类型都进行了简要的评述并列举了一些例子。文章发表后引来了很多讨论和争议。我们暂且不去评说这些分类和评述是否一定正确,从帮助我们学习和认识语义网的角度来说,还是十分有益的。
Popularity: 71% [?]
Tags: 知识组织, 笔记, 语义Web, 语义技术, 语义技术, 读网Related posts
学习”语义网格”
虽然在Ian Foster和Carl Kesselman的书中几乎对Jeffery等人的网格分层观点[1]持否定态度,然而认为网格可以分为数据、信息和知识三层并将这种想法付诸R&D实施的大有人在。
Ian和Carl认为这个观点有其局限性,“通常计算、数据和知识是彼此不可分割的,特别是知识不仅驻留在网格应用中,而且也渗透到网格应用和基础框架的全部有效范围内。”(作者认为一种更准确的体系结构应该是基于组件的,其中的各种宏组件协同工作)。
我 的想法也是基于这样一种分层模型进行,我认为如果把看成对象的信息、数据、知识(Semantic on the grid)与系统架构和实现所需要的“信息、数据和知识”(semantic for/in the grid)分开来讨论,这种分层架构完全是能够成立的。但是这个观点还没有进行证明,我目前还没有很好的形式化的方法能够对这一点加以证明,也还没有看到 那些采用分层观点的系统事先进行过证明。
语义网格(Semantic Grid)是目前最大的、以知识(信息的语义)为操纵/管理对象和目的的研究计划,最接近我们图书馆学研究的核心领域。前面我们探讨过,网格与Web服 务已经全面合流,前者称为后者的一种实现形式(或一种应用),可以看成以后者为环境的一组中间件构成的分布式计算平台,提供网络、硬件、软件资源共享的网 格能力。而语义网格则是语义万维网与网格发展的一个杂交,提供的是资源内容(信息)共享的能力,即信息系统的语义互操作的能力,这超越了计算机仅仅作为工 具的资源共享,而直取计算机作为其存在目的的共享――信息的语义。参见著名的图示:

解决信息语义的异构,正是数字图书馆梦寐以求的目标。网格架构的环境与数字图书馆的信息环境是完全一致的,都是分布式的广域网环境,只是数字图书馆在承认环境无序的前提下寻找一种跨语义的解决方案,而语义网格所开的药方是在Web环 境中再构建一个中间的环境,使得符合这个环境的信息体都具有语义互操作功能。两者的目的是一致的,途经不一样,数字图书馆很有借鉴语义网格、向后者寻求方 法论支持的必要。从解决问题的方案本质来看,形式化地描述信息,使其负载的语义能够为机器所解析和认识,从而利用人工智能数十年的研究成果操纵广域网信 息,是语义网格和数字图书馆的共同目标。语义网格甚至可以看成是数字图书馆语义互操作方案的一种特例。
关于语义网格立项时的“可行性报告”可参见:http://www.semanticgrid.org/v1.9/semgrid.pdf,详细介绍了语义网格的相关技术、分层模型、问题领域和技术构想,以下是“中国万维网联盟”的bbs上一位叫Whale的网友贴的一个帖子,内容的组织和翻译得都不错,就直接节选拷贝粘贴在这里了:
网格论坛组织GGF,也开了专门的板块来支持语义网格项目研究。目前已经有关于semanticgrid的国际会议和期刊目前语义网格的概念同知识网格应该相同,GCC2004上英国e_Science的首席科学家TonyHey作主题演讲时证实了这个结论。
语义网格的研究重点是用语义和知识工程的方法来解决目前网格平台建设和应用中存在的各种问题.其研究内容可以概括为以下几个方面.
1. 智能实验室(Smart Laboratories)
智能化的实验室是e-Science成功不可豁缺的,同时配置智能实验室可以充分挖掘Grid的能力.
2. 面向服务的结构(Service-Oriented Architectures)
研究语义网格设施的预备和实现,研究基于语义的服务描述语言.
3. 基于代理的方法(Agent Based Approaches)
研究Agent Based架构使用,研究交互语言以便开发\制定\维护e-Science marketplaces
4. 信任和证实(Trust and Provenance)
研究网格系统中计算信任建立的过程\方法\技术,决定内容种源和品质,这些涉及到数字权管理问题.
5. 元数据和注释(Metadata and Annotation)
元数据设施已经以RDF的形式存在,进一步工作研究支持ontology设计和运用的方法和工具,研究Annotation工具和方法.
6. 知识工具(Knowledge Technologies)
知识捕获工具和方法\动态内容连接(dynamic content linking)\基于注解搜索 (annotation basedsearch)\annotated reuse repositories\自然语言处理方法 (natural language processing methods )(for content tagging,mark-up, generation and summarisation) \数据挖掘(data mining)\机器学习(machine learning) \Internet 推理服务 ( internet reasoning services).
7. 集成媒体(Integrated Media)
把一系列的媒体合成到e-science基础设施中,包括视频\音频\各种图像方法\;研究 metadata和annotation同这些多样媒体格式的关联
8. 内容表达(Content Presentation)
研究内容的可视化技术和方法
9. 电子科研工作流和协作
理解现在和未来e-Science合作的工作流,拥护应该能够形成,维护和解散基于一定成员限制规则和操作规则的合作环境。
10. 普适电子科研(Pervasive e-Science)
不仅关注计算能力,更包括所有对所有资源的访问
面向语义的网格承诺带来语义可互操作性,智能自动化,行动指南以及灵活重用的优势,它日益被认为是网格计算演变中的一个重要阶段。我们将语义网格广泛的应用场景概括为以下几个方面的网格应用。
服务发现.
英国e-Science的领头项目myGrid寻求提供开放源代码的高层网格中间件, 用于形式化表达,管理以及共享生物信息实验中的密集数 据. MyGrid所用资源是开放网格体系结构的服务,这些服务能够静态或动态的与上下文结合.这里的上下文包括用户信息,执行代码,执行速度,可靠性和 对用户有用的适当的认证机制.能否找到正确的服务依赖于服务的知识.服务的语义描述对服务的自动发现,查找,选择,精确匹配,组合,交互操作,调用以及执行的监控都是必要的.在开放网格体系结构中, 服务规范提供了描述接口的语法, 但服务除了按照一定的参数和返回值要求执行操作,还应该按照一定的用户需 求来响应.
生物信息学家常常掌握着一些特殊的数据,他们需要找到服务来操作这些数据以便产生期望的结果,或者他们希望在这些数据之上应用一些任务. 他们必须表达他 们的需求,以便同可用的服务来匹配, 并考虑服务的功能,接收和产生的数据以及用于完成其目标的资源, 从而匹配用户的需求. 而且, 他们必须从能够完成任务的后选者中选出在请求约束下获取结果情况最佳的一个. 这种选择依赖于功能,代价,服务质量,地理位置和发布者相关的元数据.
基于提供的功能进行的这种服务分类正在被不同的组织采用,作为一种有效的查找.索引合适服务的方法.不同组织目前在服务注册的分类模式上是一致的. 比如生物信息学应用和仓库EMBOSS套件对本身所包含工具有一个粗略的分类,并且被当前众多的生物信息学集成平台使用.
MyGrid的一个假设是:第三方服务注册为可用的生物信息服务编目分类.服务描述的附加(个性化的)元数据使用RDF陈述来进行声明. 服务提供者发布 他们的服务,服务使用者通过多种机制,如名字,词语,特征,类型或本题描述来查找,匹配服务.myGrid生物信息服务本体基于DAML-S服务模型.服务描述分为两类:服务种类设计的领域名, 可调用服务实例的操作元数据(如数据质量,服务质量和代价等). DAML+OIL提供了服务描述的词汇。匹配首先对域进行匹配,然后是操作的属性。 副本服务(生物学里大量存在)之间有着同样的描述,但操作意义上的服务配置不同。在执行工作流之前,对服务类和他们的实例进行发现,匹配和选择。在执行期间,实例也可以动态的选择。
知识注释,通知和指南
Geodise试图用网格技术,设计优化技术,知识管理技术,Web服务和本体技术来构建一个具有目前最高水平的知识密集性设计工具,该工具要与OGSA 基础设施保持一致。Geodise正使用知识工程方法学来对设计知识进行建模,封装,以便航空引擎不见等新设计能够一更低的成本更快的开发出来。
Geodise首次使用的知识模式之一就是通过注释使工程设计流具有丰富的语义。Geodise希 望能够回答的一个关键问题是:以前的实际开发出什么以及怎么重用它们。一个典型的工程设计通常包括问题定义信息(几何方面);工具用于划分网格或者将集合 设计拆分成能够进行分析的单元;然后,将优化方法产生的一组行为应用上去,以不同的参数进行实验,并得一组可能的设计方案。所有这些信息――如何四用软件 包的每一步活动――都记录在日志中。为了最有效的重用日志文件中包含的知识,Geodise项目中通过使用域本体术语从语义上丰富这些日志文件。经过语义扩充的结果日志形成一个知识库,该知识库可以被查询,索引和重用。这样一个知识库使的我们能够基于以前的经验,为当前的设计问题找到合适的解决办法。
工作流合成
工作流通过系统性计划将服务连接在一起,进行协调的组合。知识可以用于约束和知道工作流组合,并验证配置是否正确。
myGrid系统用于对用户数据选择适当的操作,并用于规定哪个操作接着哪个操作是合理的。在myGrid中,任务本体对工作流过程进行模拟,并用于注释 服务的输入和输出语义(当前用Web服务工作流语言来表示)。数据的语义类型必须匹配,比如,因为酶是一种蛋白质,而BLASTp以蛋白质作为输入,因此 酶的集合可以作为
数据集成
工作流是服务集成的一种形式。另一种形式是数据和元数据的集成。通过描述公共模型中的元数据,实验的所有部分都能够相互关联,因此能够在其上进行推理。
对于语义集成,本体扮演两种角色:(1)由于数据模型是一种简单的本体,在相同的类型的数据库管理系统中的所有数据库要么使用相同的本体,要么 提供到标准本体的映射。(2)许多智能信息集成系统用本体代表一种映射原数据库的标准模型。用户根据目标本体提交请求,然后他们自动透明的转换成依据源本体的要求,也就是数据仓库模式。
协作服务
协 同会议涉及会议内容的实况交流,以及支持会议的基础设施操作信息。在最简单的情况下,信息可以是幻灯片或者远程投影仪控制。新形式的信息也可以互相交换, 如发言者队列,分布式选举,会议最新消息或者对以有文档的注释。另外,也可以进行小组讨论。这些都丰富了知识内容。共享,存储这些信息能够极大的丰富科学 活动的协作过程。
支持协作处理的一种方法是访问网格Access Grid. Access Grid主要集中于大规模分布式会议和培训的应用中。Access Grid 资源包括多媒体呈现和交互,特别是基于空间的可视化会议(组到组),以及网格中间件和虚拟环境的接口。Access Grid结点是专用设施,这些设施包括必要的高质量音频和视频技术,以及提供一种有效的用户体验。CoAKTing项目就是集中于集成智能会议空间,注释在线会议的媒体流。
语义Web技术和实时信息流两者的结合与网格计算高度相关。元数据流可以由人,设备或者服务产生,例如注释,设备配置以及实时处理的数据。会议空间不仅可以是会议室,它也可以是实验室甚至是小实验室。如在Comb-e-Chem项目中所研究的一样,会议空间配备有大量设备阵列和多媒体技术设施。当携 带一台设备到小空间时,需要发现并组合可用的服务,因为这与形成使用网格服务的虚拟组织紧密相关。
因为p2p网络目前作为一种广义的网格系统,现在技术也日益成熟,但是其中很多问题尚没有解决。目前关于semantic p2p的研究也是一项比较好的领域。
虽然现在有semantic web service研究搞得很火,但更多的关注于服务角度问题,网格架构从OGSA到WSRF也迎合这种趋势,但是网格同Web Service还是区别很大的,虽然都是面向服务的架构(SOA),但是网格更多关注资源、计算层面的问题,p2p也是如此。
[1]见《网格计算(第二版)》
Popularity: 26% [?]
Tags: Grid, Semantic Grid, 笔记, 语义Web, 语义技术, 语义网格Related posts
W3C的Simile项目(及哲学问题:-))
W3C的Simile计划似乎着力于RDF的可视化,开发RDF浏览器。其中Longwell(支持Jena模型)是一种领域浏览器,项目中还有两个类似的浏览器:Knowle和Welkin。说是浏览器,我估计将来都可能以Firefox插件的形式提供,而且服务器端需要有相应的Java应用,客户端是把RDF数据以XHTML+CSS2表达,并把一些链接关系表达为一定的(可视化)模型。
我对这种具体的项目感兴趣的原因并不是纯技术层面的,而是对其中”知识整序”模式和方法的兴趣,以及其背后的技术发展历史背景和社会心理原因,对知识认知的复杂性的简化、工具化和计算机化。这似乎又上升到哲学层次。
目前这个项目正在开发一个RDF可视化的本体:Fresnel并用之于本体表达,以及提高Longwell的性能(在普通服务器上处理GB级的RDF三元组和MB级的属性”面”),将Longwell与RDF收割集成,
看起来看似简单的RDF应用起来可真麻烦啊。这几乎能决定RDF的生死。想到RSS曾经名为RDF Site Summary并且至今1.0(支持RDF)和2.0版(不支持RDF)分属不同阵营,又搞出Atom等等,好在服务器都支持,对用户并无大碍,却苦了开发人员,也使得推广应用不如预期。
说起哲学,最近一直有个想法挥之不去,就是图书馆学的学科建设问题,从知识交流角度认识图书馆学,可以为图书馆学带来许多理论上的革新观念,然而却更使图书馆成为一种”前”科学–使其看起来还未从哲学中脱胎出来,哪位哲人说过,任何具体科学都始于哲学而终于美学。现在看来图书馆学除了操作性的、工具的、经验的内容之外,还应该有更多的哲学和科学认知(认识论)的内容,虽然看上去使其非常不成熟,但是至少能够使其更有理性,能够在信息技术主宰的世界中找到中流砥柱。甚至包括制度图书馆学,制度一定是人为”安排”的吗?在极端自由主义思潮下的西方,和受到多种社会政治文化因素纷扰的中国,任何社会事业作为一种明确的、以国家为主体的”制度安排”,都是不可能没有其深刻的、表现为莫名其妙的”经济文化环境”和”社会历史背景”的。这种”安排”是否可能是来自于一种”社会无意识”呢?如何达到(怎样的环境能够达到这种)社会无意识?在这里可能要对蒋老师说声抱歉了,没有机会仔细拜读蒋老师的制度图书馆学,在这里纯粹胡说。
关于Jena
Jena是一个由HP实验室开发的处理元数据(主要是基于RDF的管理、查询等)的Java应用程序。目前是Jena2版本,Jena1做到了支持RDF的数据表达、解析、查询(采用RDQL)和简单的推理,Jena2的目标在支持本体(包括DAML、RDFS和OWL的应用程序接口API)。
- 评论人:kevenlw
Tue May 24 08:56:52 CST 2005 
simile项目的piggy-bank工具推出了2.0版,功能大大增加,学习中…
- 评论人:keven
Tue May 10 13:06:01 CST 2005 
感谢孙馆长提供意见。我的看法好像正好相反,利益分配是制度的结果,而且制度背后更加有深刻的 社会历史原因。我们正处在转型期,治国缺乏哲学(和谐社会?以德治国?)将使所有的”制度”没有根基。
- 评论人:孙继林
Tue May 10 12:29:00 CST 2005 
关于制度我的理解是利益分配结果,比如公共财政,来自社会税收,办公共事业反馈于社会,促进社会文明和进步,推动生产力发展,增加税收,这是良性循环。
为了避免公共财政被个人侵占,或者浪费,就要制定相关的制度,财政拨款的程序,审计制度,公共事业管理人的选拔制度,公共事业的评估制度,具体到一个图书馆的馆藏建设制度、目录体系、借阅制度,都是为了保证公众的税收能够有效地使用,公平地使用,保证每个公民的利益。
如果制度缺陷,公共财政被个人侵占或者浪费了,就无益于社会文明和进步,乃至引起公众的不满,社会就要追加成本去纠正错误,就是恶性循环。我以为,图书馆的制度讨论要放到公共事业管理的框架里去讨论,就像大家讨论各地旅游景观门票涨价,不单纯讨论涨价后多收了几个钱,如何分配这些钱,而是要考虑自然和文化遗产保护,旅游大环境的发展,要从更多人利益角度考虑。
Popularity: 30% [?]
Tags: Simile, 专业评论, 哲学, 知识组织, 语义Web, 语义技术Related posts
"语义万维网服务(SWSI)"- -
“语义万维网服务” Semantic Web Services Initiative (SWSI) 的目标是使目前的万维网技术结合相关的最新进展,得以发挥其最大潜能。
语义万维网技术
万维网协会主席 Tim Berners-Lee 认为万维网的未来是”语义万维网”–万维网向机读信息和自动服务的延伸而远远超出目前的能力。在数据、程序、网页以及其他万维网资源之上的语义呈现,将使万维网成为基于知识的万维网,使目前的服务提升到一个新的水平。通过”理解”万维网上的内容,达到更精确的过滤、分类以及检索信息资源,自动服务将在更大的范围上帮助人类实现目标。这个过程将最终实现极端丰富的知识系统以及在此基础上的特别的推理服务。这些服务将有助于我们日常生活的方方面面,像今天人们对于电力一样普遍而不可或缺。
目前的万维网只是信息的堆积而不提供信息的处理,也就是说并没有把计算机当作一种计算设备。最近围绕 UDDI, WSDL, 和 SOAP 等发展起来的新技术正在把 Web 变成一种新的水平层次上的服务。应用软件课题通过万维网而获得和执行,这个技术叫做 Web 服务。 Web 服务通过提供一种程序自动交流、发现服务的机制,从而可以大大提高万维网体系结构的潜能。因而得到众多软件开发公司的关注。 Web 服务使电脑设备连接在一起,以一种新的方式使用因特网交换和联合数据。 Web 服务技术的关键在于使用松散耦合的”随时”组合可重用软件组件的方式提供服务。这从技术和业务两方面都产生深远的影响。
Semantic Web Service 似乎又多了一个兄弟: Semantic Web enabled Web Services ,欧洲 IST 的一个项目。
相关的项目、组织或网站:
http://swws.semanticweb.org/
http://swsi.semanticweb.org/
Software can be delivered and paid for as fluid streams of services as opposed to packaged products. It is possible to achieve automatic, ad hoc interoperability between systems to accomplish organizational tasks. Examples include business application, such as automated procurement and supply chain management, but also non-commercial applications as well as military applications. Web services can be completely decentralized and distributed over the Internet and accessed by a wide variety of communications devices. Organizations can be released from the burden of complex, slow and expensive software integration and focus instead on the value of their offerings and mission critical tasks. The dynamic enterprise and dynamic value chains would become achievable and may be even mandatory for competitive advantage.
Popularity: 26% [?]
Tags: web服务, 语义Web, 语义技术Related posts
火狐狸的新玩具:Piggy Bank- -
FireFox已经装了不少时日了,除了速度快一些,稳定性似乎好一些之外,没有感觉到特别的好处,有时还有一些网页好像支持得不太好。然而最近装了两个东东要改变这个看法了。
Wizz RSS 是一个博客浏览器。看天下用了一阵总会有一些问题,而且同时要用浏览器,感到不方便,这个Wizz作为一个SideBar放在浏览器边上,用起来方便多了,只是功能还不多,比如没有更新通知等等。
Piggy Bank是一个很厉害的东东,可以看成是通用的语义万维网的浏览器(哈哈,终于有了),以前只有一些专用的,例如FOAF浏览器等。知识目前语义网应用的实用系统还不多,但是试了项目(http://simile.mit.edu/piggy-bank/guide.html)提供的的一个应用,感觉非常不错:http://citeseer.csail.mit.edu/。这是个查询计算机研究论文全文的网站,Piggy Bank支持元数据下载存储、全文链接以及加注释的功能。非常好!!!
关于这个应用,Simile项目讨论组(general@simile.mit.edu)上很热闹,可以去看看。
下面转一篇别人的网志,关于这个软件的,我就不多废话了,供参考。
地址见:
http://lylejohnson.name/blog/2005/01/browsing-semantic-web-with-piggy-bank.html
Browsing the Semantic Web with Piggy-Bank
Piggy-Bank is a new extension for the Mozilla Firefox browser that allows you to easily browse the semantic data linked to from regular web pages. I've seen some other projects along these lines, but they tend to be focused on a particular flavor of RDF data (such as Joel's FOAFer extension, or Christopher Schmidt's DOAP Viewer extension ).
I'm still not quite sure how Piggy-Bank works, but at the least it's scraping web pages for any embedded links that have well-recognized types in the Semantic Web, such as “application/rss+xml” (for RSS feeds) and “application/xml+rdf”. It then follows those links and parses out the “information tidbits” from those sources, and presents that information to you in a sidebar. Piggy-Bank attempts to categorize the tidbits into high-level categories, such as “News” for RSS Channel and Item resources, or “Contacts” for FOAF's “Person” resources. You can save the tidbits of interest in a local database (”My Piggy Bank”) and search through them later; Piggy-Bank remembers the original source of the data and allows you to annotate them with comments as you desire.
In response to the question, “Why was [Piggy-Bank] built?” the developers offer the simple answer:
Popularity: 25% [?]
Tags: Piggybank, Uncategorized, 语义WebRelated posts
语义万维网会成为什么样子- -
一直没有很好地看看 w3c 和 SW 的坛子( semanticweb@yahoogroups.com ),虽然内容局限了一点,但很多讨论对于我的论文还是有帮助的。我比较关注一些较为系统的长帖,尤其是比较宏观一些的问题。
关于语义网络会成为什么样子( How is Semantic Web going to look )最近有一些讨论蛮有意思:
首先一个叫 Rohan Abraham 的人问了一个很菜的问题( Sent: Friday, January 14, 2005 8:02 AM ),但是很菜的问题往往很本质,也是我们经常会被别人袭击的问题:
Can anyone tell me how semantic web is going to look in future?? Is all the HTML going to be taken away?? Or is RDF going to be along side with HTML.. Can any one answer the question and give me a link to the architecture of the Semantic Web. …
我很有兴趣看看 w3c 的大牛们怎么回答,我甚至以为可能牛人们不屑回答此类问题。很多此类问题在坛子里都悄无声息地沉了下去。
很快我们有个中国人有了第一反应,(当然属于在外国的假洋鬼子):”嗨,老李爵士的文章可以回答你的这个问题哦!” ( Hi, TB Lee's vision answers all.) 充分显示了我们中国人的见多识广和心地善良。
From: Jun Shen
Sent: Friday, January 14, 2005 8:07 AM
Hi, TB Lee's vision answers all.
接着有个据说跟随李爵士多年的查尔斯给出了他的看法。并告知关于此类问题李爵士也写过相当多的文章,还有许多聪明人补充他们的看法,并非常努力地工作试图证明给大家看,但是事情仍然是 ing 状态,所以 …
他的回答要点不外是:
下一代万维网并不取代现在的万维网,置标工具也是在进化、版本更新( HTML4 到 XHTML1 到 XHTML2 ,内置 RDF ),并不废除旧的。
当然他的举例让初入门者更加摸不着头脑:
From: Charles McCathieNevile
Sent: Friday, January 14, 2005 4:43 PM
Along with other kinds of XML already on the Web (SVG, MathML, VoiceXML starting to appear more, SMIL, etc – all W3C XML languages for purposes that HTML is no good for, and capable of including RDF) this is already appearing all over the place.
But it isn't something you see, except in the functionality. It is something meant to be read by the machines, so they they can present things that are more like we want them to look (cool documents with little floating asterisks and aliens, or browsers that can tell you HOW they figured out why a particular flight seems like a good deal, or images that can explain themselves through a voice system to a blind child, or whatever you want the web to do)
接着一个 MIT 的李爵士的学生,听说这个查尔斯跟随李爵士多年,希望商榷一个关于本体的问题,把这个帖子的主题带偏了。
李爵士认为本体应该通过一群人达成共识的过程来建立,而他的想法正好相反。他从人性论的角度认为达成共识是不可能的。有意思。
From: Shashi Kant
Sent: Monday, January 17, 2005 11:50 PM
I notice that you mention your involvement with TimBL… I am a grad student at MIT under Tim's supervision and we have regular debates about Ontology creation. As you are probably aware, Tim's view is that Ontologies should be created through a consensus approach- an “Ontology-by-committee” approach.
My view is exactly the opposite – I am a firm believer that such a consensual approach is a utopian pipedream. After all consensuses is, at the best of times, a very fickle entity. In fact I remember reading somewhere that when they got 3 domain experts in a single domain to create Ontologies, they only found about 30% commonality. And that is not even considering other typically human factors – egos (”is he really an expert?”), politics, and whatnots…
Plus it is impractical to assume that a corpus of Ontologies could be generated to accommodate the breathtaking rate at which information is being generated. I think it is just humanly impossible!
IMHO Ontologies are best generated using accepted machine learning approaches – sure they may turn out be at best 50% accurate, as compared to say a committee that takes 1 year to come up with an Ontology and spends millions of dollars to come up with an Ontology that is obsolete the moment even before it is created.
What are your thoughts on this subject? As a regular member of this board I would love to hear your thoughts on this matter.
接着有人建议他们私下里讨论吧,这个偏了的主题不具有普遍性。
一个莱比锡的德国人 Sören 却把这个问题深入下去。他首先赞同李爵士的”共识”论,认为人总是倾向于偷换概念,而绝对不能允许机器这么做(那天机器懂得这么做了就是人类的灾难了–科幻小说中的故事就是这么发生的),进一步他论述了一、二阶谓词逻辑和应用数学描述领域知识的重要性,并认为目前的一些进展值得夸耀。看来这也是个大师级的人物(至少也是跟李爵士多年的师叔级人物吧)
From: Sören Auer
Sent: Tuesday, January 18, 2005 12:25 AM
Seems reasonable to me too. People are only able to communicate since there is a consensus about what distinct words mean. Unfortunately people (sometimes) tend to have (slightly) different concepts in mind when communicating – that seems from time to time the reason for problems like divorce till even war.
When machines are communicating we can't tolerate such misunderstandings. That's why I think there is strong need for a terminological knowledge representation like the one provided by SemWeb standards like OWL, which base on description logic and thus may support ensuring consistency and the other DL services.
To represent the whole (not only terminological) knowledge of a domain you have to use a knowledge representation at least as expressive as first order logic. Probably even second, since mathematics needs SO and which serious domain may live without maths? Unfortunately already FO logic has terrible computational caracteristics. AI communities try (more or less successful) to develop more efficient knowledge representation strategies here such as nonmonotonic resoning.
I think ontologies are not for representing all knowledge now lying around on webpages, but rather shall provide a grid to classify and maybe rearrange this knowledge, further to build common vocabularies for application systems to communicate (see WSMO, OWL-S). I think already this would be I gigantic achievement!
John Flynn 举了很多罗嗦的例子进行了一番类比:把本体的创建与网页的创建进行类比,认为本体是个多样性的世界,将会有好的本体和不好的本体,今后应该有”权威”本体,等等。
From: John Flynn
Sent: Tuesday, January 18, 2005 6:30 AM
I believe it is likely that ontologies will emerge much in the same way that html web sites and xml schema have evolved. Almost anyone can create an html web site but some become better accepted than others. Communities of interest evolve around almost every subject and out of those communities a few “authoritative” web sites emerge. For example, if you are interested in the subject of human resources there are many web sites that focus on that subject. The HR-XML Consortium provides a reliable set of xml schemas on various aspects of human resources that have been vetted by their large corporate membership. If you are interested in news you might naturally go to CNN, Google News, or one of the other widely recognized news web sites. If you are more adventurous you might try some of the news blogs as your news source. Over time selected web sites become known and accepted as providing mostly reliable information. This process will probably hold true for ontologies as well. Some ontologies will emerge as quasi standards, such as Dublin Core, and people will incorporate, modify and/or extend those ontologies as required to meet their needs. But, just as on today's public html web, there will be lots of junk ontologies posted and some ontologies created to intentionally mislead people. We will learn to deal with these just as we do with such html sites today. There will also be ontologies that are created and maintained by educational, commercial and government organizations on intranets. Basically, I don't see the growth and availability of ontologies as anything much different that what has been happening with html sites and xml schema.
又一个希望与李爵士有某种瓜葛的 Neil 先生感到这个主题非常有趣,就加入进来。他认为本体的创建确实如 Flynn 所言,不是绝对的,受市场驱动,介于完全形式化和非形式化之间,而且要做到纯学术的形式化是非常困难的。他提出一个”市场导向论”,认为经济性和迅速普及是本体是否能够生存下去的评判标准。复杂性和功能满足可以作为进一步完善的目标。
From: neil.mcevoy@ondemand-network.com
Sent: Tuesday, January 18, 2005 2:11 PM
I thought I'd join in at this point as its very interesting thread. I'd like to say I work with TimBL in some way, but I don't, in any way…
I'm inputting from a business point of view, which I think like in many technical projects does feel to be missing from the semantic web discussions, and suggest it offers a few points and ideas. Prompted by agreement with John Flynn, in that I'm working on the basis that in general the production of ontologies will be a dynamic balance of formal and informal processes, mainly driven my market demand.
One would imagine that within a purely academic context, consensual methods would be more difficult because let's just say there is more appetite for absolute technical correctness and authority with more likelihood of egos and ivory towers etc. I'm quite sure if they wanted to they could stretch out the process for years!
What business adds is the imperative to get something working quickly, and the understanding that it doesn't need to be perfect to be useful. Hence why I see the balance of the two; in the early days of domain development there will be much greater freedom to define and implement with less formal controls, enabling small domain teams to drive the first chunk and make it available. The point at which you need a committee approach is to enable it to scale and become universal. Quite simply for example, if you want all the big media companies to adopt a single framework, they will all need some form of equalised involvement in its development, or they won't play ball. Once you have a large cross-company team working from all over the world together, the only way to facilitate it will be via committee processes. The general idea that a committee doesn't work is not correct because we can see it can; check out VISA for example.
I'd also suggest that what business will offer is the simplicity to get things moving along. Although I'm sure it will get much more complex, all you need to start creating business value is the simple bits. For example, a tag for [Graphic designers] so that you can search the semantic web for [Graphic designers] in [London]. Hardly a massive ontology, but would actually enable lots of flow of commerce.
So it seems it's less so about the complexities of ontologies at this stage, and more about universal adoption and basic foundations, such as the DNS equivalent for registries etc. ie everyone agreeing that [Graphic designers] is the common method, so that we can move on to defining more complex elements.
一个意大利人 Dario 跳出来说了一个悖论:任何机器是无法达成共识的,必须翻译成人的语言。那么机器怎么知道是否翻译成人的概念体系了呢?
From: Dario Bonino
Sent: Tuesday, January 18, 2005 6:41 PM
I thought I'd join in at this point as its very interesting thread. I perfectly agree with Sashi about the process of ontology creation, however there is a point that it is not clear, wheter or not human knowledge and machine knowledge should have a contact point. In the last case I think that, at this moment, we are committed to the human classification. In other words, we could extract many clusters (or other, I don't know which is the exact term, sorry for my english) using LSI, or similar techniques but we also need a group of humans saying “ok, for a human being this cluster means that concept” at least with a certain degree of confidence… This is the biggest problem I think, the join point between human and machines. In my opininion, it doesn't matter where the join point is,
on the ontology rather than on mapping automatic extracted knowledge to human knowledge.
The problem is in that, if we want to deal with human beings we need humans to tell about what resources are… I don't know any machine thinking like humans, until now….
那个 MIT 的学生可能对于他的帖子中的文法错误感到不好意思,出来对着个话题作了一个很好的总结。看得出来这个后生还是有不少研究的,在这个领域。
1 他认为本体创建中机器、人工的参与比例应该为 8 : 2 ;
2 顶层本体可以为人创造,但领域本体可以完全由机器创建,并与顶层本体合并;
3 出于他的直觉,感到人创造的本体会给机器处理带来复杂性,于是他建议最大程度地利用机器创建本体,把人放在创建本体的流程中很不合理(按:这是一个被计算机科学毒害了的青年);
4 自动创建的本体即使只有 10% 可用,也比人工创建的好;
5 语义网之所以没有得到大的发展,都是因为本体创建太慢造成!!!
然后举了一大堆例子( MIT 数据中心的人怎么说 … ,这些人多么牛逼 … ,如果他们以及沃尔玛 / 戴尔等能够应用 S/W ,将使 S/W 成为 Kill App… ),强调说明他的第 5 点。
From: Shashi Kant
Sent: Tuesday, January 18, 2005 8:09 PM
Hello Charles and everyone for responding and making this an interesting discussion. IIRC this thread has turned out to be one of the most interesting on this forum for a very long time. First off, let me apologize for the poor grammar and typos in my last post …I was very sleep-deprived and tired..take pity on me I am @MIT
1. I largely agree with the positions that Charles, Dario et al have taken, that ultimately we may end up with a hybrid approach to Ontology creation – a combination of machine-generated with human-generated. If I were to hazard a guess… perhaps in 80/20 proportion.
2. I would take another guess at this and say that the majority of top-level Ontologies would likely be human-generated, and most domain-specific ontologies would be machine generated. Perhaps Aligned and/or merged with the top-level ones.
3. Another thing counter-intuitive about the idea of human-generated Ontologies is …after all the semantic web is about making the web machine-comprehensible, so why not automate the Ontology generation process to the extent possible? It just does not make sense to place humans in the middle of this process.
4. I would further argue that if someone were to come up with a good IR algorithm and feed the encyclopedia Britannica to it. The resultant Ontologies may be contain..say only 10% of the concepts/relations in that domain. But that's 10% (some might say 10^n %) better than nothing! Take Charles' example – “medieval European Recipes”. Unless someone really has a vested interest in creating a domain Ontology for medieval culinary art I would doubt anyone would ever bother creating one. I would be very surprised if DARPA or MIT or Stanford would fund a medieval cooking ontology creation committee.
5. The semantic web idea has been out there for quite a while now, but we don't really have very many Ontologies that can claim to be acceptably complete. Ontology availability is, IMHO (以愚之见) , the single biggest challenge of the semantic web and what's really holding the semantic web back. Unless you provide “real-world” applications (no hand-waving) for people to create Ontologies, they just cannot be bothered to do so. It's that simple.
Bottomline: One doesn't get more chicken-and-egg than this!
“It is unrealistic to believe that any independent body of academics or practitioners could formulate an all-inclusive canon that would stand the test of time. The ontology approach is a throwback to the philosophy of Scholasticism that dominated Western thought during the high middle ages. History has proven that canonical structures, meant to organize and communicate knowledge, often have the unintended outcome of restricting the adoption of further innovations that exist outside the bounds of the canon.”
That is how an MIT Data Center paper (www.mitdatacenter.org) puts it. While this opinion may be the other extreme of the spectrum, I think it sums up how the Walmarts, and the Dells of the world see the semantic web today. This is very unfortunate, because the semantic web badly needs the ballyhooed “killer app”, and the coming “data tsunami” because of RFID systems, sensor networks
etc. would have been a good, good one.
BTW MIT Data Center is an offshoot of the former MIT Auto ID center – the people who came with the EPC standards for RFID etc. So their buy-in would have been a huge boost for the S/web. It now looks they are going their separate ways – in fact they are even proposing a new modeling language called “M” (counterpart of OWL).
If you are interested I recommend reading up on their website – their contrarian viewpoint is fascinating.
Sören 又回过头来澄清一些问题,并给出了几个例子,看法比那些纯”计算机”头脑要现实、全面、理性得多,但是不知道是否能够说服那些机器脑子。国外著名大学的研究生们对于许多问题的理解好像也并不一定都很准确。
From: Sören Auer
Sent: Tuesday, January 18, 2005 9:45 PM
I'm a bit confused since all of you seem to understand Ontologies as a tool for arbitrary knowledge representation. As I mentioned in my last posting I don't think they are prepared to solve this task (especially if based on Description Logic as OWL).
Textual knowledge on websites contains so many vaguenesses, contradictions and exceptions. Humans can cope with them and sometimes it's even easier (for us synapse based reasoners) to get the spirit of an idea if it is described from contradictory viewpoints. But I'm quite sure machines won't be able to do the same at least within next 20 years or so.
Artificial intelligence research developed a variety of theories to make machines more intelligent in the human way. I'm not an expert in default reasoning, nonmonotinicity or horn logic, but my impression is that they are still far from being efficiently applicable. Description Logics and ontologies probably are a bit more mature but still there are many open problems (such as perspective reasoning, linking, merging, reconciliation, versioning). Even if all those problems are solved and if you manage to automatically generate ontologies from textual documents the benefit won't be much better than todays elaborated full-text searches, since DL can't (and is not intended) to cope with vaguenesses, contradictions and exceptions at all. And already one contradiction makes any further DL reasoning more or less senseless.
Already today quite much of the current web content is structured in proprietary database schema, xml-dialects. Here I think is the real impact of a terminological knowledge representation like OWL – defining globally shared, common vocabularies for distributed searching, view generation, querying, syndication of such structured data.
Projects in this context like – OWL-S/WSMO (description for automatic selection/composition of web-services),
- D2RQ (Treating non-RDF Databases as Virtual RDF Graphs)
- future (Semantic) WebApplications (you can have a look at my Powl
project for this – http://powl.sf.net) seem very promising to me.
For applications intended by the W3C you can have a look at the “OWL Web Ontology Language Use Cases and Requirements” document ( http://www.w3.org/TR/webont-req/).
Of course enriching arbitrary web pages with terminological classifications may be an application as well. But I think even this won't be possible automatically in a quality that gives us an real impact. But I'm open to conviction.
Alex 又对解决文本知识的模糊性进行了展望,似乎技术还是可以解决这些问题的。看来这个话题还没有结束,让我们拭目以待。
From: Alex Abramovich
Sent: Thursday, January 20, 2005 6:10 PM
Yes, textual knowledge vagueness is a stumbling block of SW investigations. But it has an own nature that one can to make clear. What just is vague? A current operational context is uncertain. Nothing shall prevent us from building a library of operational contexts today!
An analysis of a sentence (based on this library) will derives a set of expectations of operational contexts. An analysis of subsequent sentences will confirm one of them.
It seems to me that something similar to this approach suggested Roger Schank (”Conceptual Dependency”).
Popularity: 15% [?]
Tags: 语义Web, 语义技术