精彩视频:关于语义搜索

什么是语义搜索?这段很久以前(08年)的视频可以告诉你。

Popularity: 3% [?]

Tags: RDFa, search monkey, 语义技术, 语义搜索

Related posts

关于中国历史朝代本体的rdf描述

书社会的Caveman在做一项很实用的研究,问了一个很好的问题(一般而言,回答不上来的问题都是好问题)。我在这里做一些讨论,希望抛砖引玉,批评指正。
在这里把问题归纳为:如何用RDF(及其家族)描述中国朝代的公元纪年。他的朝代与公元纪年对照表在这里:http://tinyurl.com/timeReignChinese
直感转换方法有很多种,可以用RDF,也可以用SKOS和OWL,甚至其它,包括直接用XML自定义也可以。
编码原则应该是:能复用就复用,看看前人的成果。
而如何编码,哪种方式合用,关键还要看需求。
网络上已经有一些供人使用的转换工具了,但如果要通用性,应该基于RDF进行编码,并开发一个工具,甚至变成语义网络的一种服务,就能够直接为机器理解、获取和使用,能够被其它应用任意调用,就能体现语义技术最大的优越性了。

想到目前国内有些分类法主题词表分别都有了网络版,但那是给人看的,无法通过服务器直接获取术语和术语关系,进行匹配和关系运算,这实际上发挥不了多大的作用。只有用RDF(SKOS或OWL)编码之后,提供一定的语义Web服务(例如用关联数据方式发布),才能真正发挥词表的作用。
这里的核心需求可以整理为:
1、某个朝代有哪些年号,这些年号的起讫日期(即这个对照表:http://tinyurl.com/timeReignChinese
2、某个公元年号落在哪个朝代的哪个年号。
3、模糊年号(如不同朝代相同年号)和模糊日期(如起讫年精确到年还是月还是日)的处理。
4a、是否需要提供网络服务接口,实现双向转换;
4b、还是提供代码,嵌入任何应用;
4c、还是仅仅用RDF来描述这个对照表。
5、进一步的,不同朝代的国家情况(地理疆域、并行的国号等)。
就这个对照表的转换而言,可以认为只需满足1、2和4c即可。

简单的解决方案可以这样:
定义朝代(dynasty)类和年号(reign)子类,都属于event类,复用event本体(http://motools.sourceforge.net/event/event.html)和timeline本体(http://motools.sourceforge.net/timeline/timeline.html)中的元素,建立“朝代-年号”和“年号-公元纪年(date interval类型)”的rdf描述即可。
将来可以扩展(复用)event的其它属性,例如皇帝,都城,等等。

Popularity: 5% [?]

Tags: RDF, 朝代, 本体, 知识组织, 语义技术

Related posts

DC-2010征文通知

DC-2010征文通知

庆祝都柏林核心元数据诞生15周年:让元数据工作得更努力些吧!

2010 都柏林核心元数据应用国际会议(2010年10月20日-22日)暨ASIS&T年会(10月24日-27日)
美国 宾夕法尼亚州 匹兹堡

重要日期:

  • 论文、报告或挂图(Poster)提交:2010年4月2日
  • 录用通知:2010年5月14日
  • 定稿提交:2010年6月11日

2010年是都柏林核心元数据提出的第15个年头,DC-2010大会将联袂召开第十届ASIS&T年会。为了更好地总结DC元数据的过去,并展望未来,届时将与往年一样,探讨元数据应用于资源发现的理论和实践问题,并交流新的进展,交换“让元数据工作得更努力”的心得。不仅如此,会议还将回顾近年来元数据领域的最新成果:以“DCMI抽象模型”、已趋完善的“应用纲要”概念和初步成型的“描述集纲要”规 范这三者为代表,标志了元数据对于满足人类信息需求的作用正走向一个转折点。但是现实是不完美的,我们还需要从别人的经验中更多地分享和学习。DC- 2010将总结现状,并着眼未来,进一步拓宽研究和应用的领域,使元数据能够更努力地为满足人类的信息需求而自动地工作。

除了大会的主题外,我们还欢迎就以下元数据专题进行投稿(包括论文,报告和挂图):

  • 元数据制定原则,指南和最佳实践
  • 元数据质量、规范化、改进和映射
  • 概念模型和框架(例如RDF、DCAM、OAIS)
  • 元数据应用纲要
  • 跨领域、语言、时间、结构、规模之间的元数据互操作
  • 跨领域元数据的应用(例如记录留存、永久保存、保管(curation)、机构库、出版)
  • 领域元数据(例如企业、文化记忆机构、教育、政府及科研领域等)
  • 作为语义万维网词汇的书目标准(例如RDA、FRBR、主题词表)
  • 可获得性元数据
  • 科学数据、e-Science和网格应用方面的元数据
  • 社会化标注和元数据构建中的用户参与
  • 知识组织系统例(如本体、分类法、规范档、大众分类法、叙词表)和SKOS(简单知识组织体系)
  • 本体的设计和开发
  • 元数据和本体的整合
  • 元数据生成(方法、工具和实践)
  • 搜索引擎和元数据
  • 语义万维网元数据及应用
  • 词汇表注册及注册服务

提交:

论文,报告或者挂图的投稿可通过DCMI同行评议系统提交,网址为:http://dcpapers.dublincore.org/index.php/pubs/。网页设有会议注册及论文提交流程指南(可点击“Information for Authors”链接),以及论文、项目报告或挂图/演示的作者指南。DC-2010的所有投稿都将由大会的国际学术委员会进行专家评审。所有稿件都必须 用英文撰写。被录用的稿件将正式发表于电子版的会议录。若无特殊安排,被录用的论文、项目报告和挂图应该至少由其中一位作者在匹兹堡会议上宣读。

为了稿件能够顺利接收与出版,所有的投稿者需提供自己的基本资料,包括目前的专业职务和联系方式等。

论文(8-10页)

论文既可以详细描述创新性的工作,也可以对前述的一些领域性重要进展或者最佳实践进行介绍评议。论文评判标准如下:

  • 实现方法的创新性
  • 所做贡献的质量
  • 呈现结果的重要性
  • 表达的明确性

项目报告(4-5页)

项目报告应该简明扼要地介绍一个特定的模型、应用或者活动。项目报告的评判标准如下:

  • 技术描述的精确性和完整性
  • 对其他潜在用户技术指导的可用性
  • 表达的明确性

挂图及演示(1-2页)

挂图是关于正在进行中的项目或课题研究的展示,或者已完成项目、课题研究的最新结果的展示。挂图建议应当包括一个长为一到两页的摘要。挂图的评判标准如下:

  • 精确陈述研究项目的目标和里程碑事件
  • 研究课题或者项目的重要性
  • 陈述主要的难点和进一步的研究
  • 陈述结果和取得的主要成果
  • 表达的明确性

被录用的挂图将会发表在会议论文集并在会议现场展示。除非另有安排,录用的挂图必须至少由一位作者在匹兹堡会议上宣读,并收录到论文集中,并可以进行4-10分钟的视频展示(上传至YouTube中)。会议将会为参会者和作者之间的沟通提供便利。

大会筹备委员会主席:

  • Stuart A. Sutton,美国华盛顿大学信息学院,sasutton@uw.edu

学术委员会共同主席:

  • Diane I. Hillmann,美国雪城大学信息学院,metadata.maven@gmail.com
  • Michael Lauruhn,美国Taxonomy Strategies公司,mlauruhn@taxonomystrategies.com

工作小组委员会主席:

  • Liddy Nevile,澳大利亚拉筹伯大学,liddy@sunriseresearch.org

培训委员会主席:

  • Marcia Zeng,美国肯特州立大学,mzeng@kent.edu

Popularity: 5% [?]

Tags: DC, DC2010, 元数据

Related posts

SKOS不是KOS,Linked Data不是Data

有些缩略语不能只看其表面用词,还需了解具体内容。有两个手边的例子:

  1. SKOS(Simple Knowledge Organization System)与NKOS(Networked Knowledge Organization System)长得很像,但他们全然不是一个东西。前者是用以编码KOS的一套基于RDF的扩展模式(RDF Schema),似乎称之为Simple Knowledge Organization Schema更确切些。而后者是指各类知识组织体系(分类法、叙词表等)在网络上的形态,可以用SKOS来编码NKOS。因此SKOS实际上不是知识组织 体系,只是一种编码方式而已。
  2. 关联数据Linked Data是发布RDF数据的一种简捷开放高效的方法(机制),是语义Web的一种实现,可以看成是Web上发布数据的一种标准的API(对于HTTP进行进一步的规定和扩展),而不是一种特殊的数据。

Popularity: 5% [?]

Tags: linked data, SKOS, 知识组织

Related posts

互操作层次

图片来自http://en.wikipedia.org/wiki/Levels_of_conceptual_interoperability

简单说明:

  • 第0层:没有(不考虑)互操作性(封闭如C/S系统)
  • 第1层:技术互操作,可利用至少一种协议,能够在一个平台上使其它系统获得比特或字节信息。
  • 第2层:语法互操作,支持进行一定格式的数据交换。
  • 第3层:语义互操作,在数据交换的基础上,依靠共有互通的解释机制,达到语义的交换和共享(互操作)。语义Web就提供了一套协议机制,支持整个Web范围内的语义交换与共享。
  • 第4层:程序互操作,支持协同语境。在语义理解的基础上,共同实现一定的功能。
  • 第5层:动态互操作,系统的变化和迁移被记录和控制,变化不影响数据的交换和功能的实现。
  • 第6层:概念互操作,具有一定智能的系统,不同系统间的互操作能够自动地实现。

Popularity: 5% [?]

Tags: 互操作, 语义技术

Related posts

几个概念:开放数据,关联数据,语义Web和Web3.0

针对童鞋们经常提问,以及本人根据网络资源和自己的理解整理如下:

开放数据(Open Data):
在网络上可以公开得到的数据,没有任何控制访问的措施(无需登录,否则只能是免费数据或其它名称)。
为了促进开放数据应用,模仿“创作共用”协议,好事者也提出了“开放数据共用协议”。
开放元数据是其中的一类。
项目举例:

关联数据(Linked Data):
一种数据访问(整合)技术,基本上都是以RDF方式表达,对于Http协议进行少量扩展(规定)而成。低成本,高可用性,整合简单。
开放链接数据(Linked Open Data)是关联数据的一项运动。

Web3.0:
Web2.0的热衷者或者搅局者提出的一个概念,作为下一代Web的一种趋势探讨,有人说就是语义Web,有人在语义Web基础上添加了P2P、各类无线应用甚至云计算等内容。

语义Web:
现有Web之上的、以数据资源为基本组成单位的Web,这些资源(数据)都标注有元数据描述,从而能够进行语义查询,以及数据整合,提供了互联网上实现语义互操作的技术平台。关联数据可以理解为语义Web的一种实现。
Web of Data是其另一别称。

Popularity: 8% [?]

Tags: linked data, Open Data, Web3.0, 关联数据, 语义Web, 语义技术

Related posts

KISS测试

Web时代东西太复杂就自然被淘汰,有一个著名的KISS原则(大智若愚原则),即Keep It Simple and Stupid,似乎目前Web上的很多东西都符合这个原则,不符合这个原则的东西都死翘翘了。因此联想到DC元数据现在整出三大法宝:抽象模型、应用纲要 (包括互操作级别)和DSP(描述集纲要)未免感到有点前景堪忧。

关于KISS,曾看到一项测试,可以用来作为便捷的衡量方法:

  1. 记事本测试:你能否用记事本(notepad)手工创建一条符合规范的记录,大小不超过4k?
  2. 阅读测试:你能否在一小时内基本读懂规范文本?
  3. 编码测试:你能否在一天内编制一个简单的客户端或服务器软件,实现简单的功能?

根据这个标准,传统图书馆自动化系统的很多东西,包括图书馆员的很多思路,都要更新换代了!

Popularity: 7% [?]

Tags: KISS, 元数据, 元数据方案

Related posts

语义表达是不是一定要用RDF?

昨天参加了一场博士论文答辩,内容有关语义Web应用,论文架构很庞大,从基本概念、标准规范到元数据和本体的构建,到特定领域应用的实现和查询效果的比较等,感觉该童鞋很不容易。
答辩期间问了两个问题:

1、对于“语义”是如何理解的?机器如何理解语义?是不是Web加了元数据之后就是语义Web了?
2、如何对语义进行编码和查询?为什么没有试验用SAPRQLSPARQL进行查询?

第一个问题是因为论文中罗列了很多语义Web的定义而没有对语义进行定义,更没有说明语义是如何能被机器“理解”,保证机器理解的机制到底是什么?整篇文章给人的感觉好像是对于Web进行了元数据(语义)标注之后就是语义网了。
第二个问题是针对论文认为语义标注必须首先用XML进行结构化,RDF以及KOS转换的本体(OWL)起什么作用都没有明确说明,有点知其然不知其所以然的味道,后面更是没有提到语义Web查询语言SPARQL的独特作用,而是用SQL实现对语义数据的查询。
该 童鞋对于这两个问题的回答还是基本到位的,第一个问题她说到了语义就是所表达内容的含义,需要通过形式化编码才能被机器理解;第二个问题说需要用基于 XML的语义描述语言进行编码,因为在实验系统实现的过程中没有直接支持RDF的数据库系统,所以无法用SPARQL进行语义查询,等等。
这里想补充一些我的认识,有些认识可能比较绝对,对与不对大家可以批评指正。

1、 对于语义Web而言,RDF是基本的编码方式,是不是用了RDF可以作为具不具有明确外在的语义编码的判定标准。就是说,用了RDF,才能说是有语义的, 就像用了ASCII等字符编码标准才能进行文本编码一样。元数据可以不用RDF来表示,但是RDF是专门为了表达元数据而发明的语言(或者说框架或结 构),因为元数据就是“关于数据(主体)的数据(客体)”,主客体通过某种方式(谓词)相联系。这个问题在计算机界一直有争论,但是我这里对RDF的定义 是三元组方式,不一定是XML表达的三元组,也可以是其它方式(如N3等)表达的三元组,或者通过数据库方式能够输出三元组。本体OWL和SKOS都是基 于RDF的,因此它们肯定是表达语义的,而用XML自定义的任何表达方式,可以认为是系统内部局部的语义表达方式,到Web上就不具有可交换性了。因此它 虽然是结构化的,但不是表达全局语义的。
2、RDF是表达机器语义的必要条件,但并不充分。在语义Web中,必须结合URI机制,才能赋予任何一 个表达(资源)的全局语义,当然这个全局也仅仅是对于开放的Web来说的,这也就是URI能够解析的范围。任何一个局域网,无论其规模再大,都可能屏蔽这 种机器语义,而具有其独特的、更丰富的语义。因此,元数据和本体可以适用于比语义Web更广泛的领域,但到了Web上,这些内部语义如果要进行分享、重 用、交换,都有互操作问题。现有的技术架构、模型方案等,都是为了规范和减少这些互操作问题而提出。
3、采用了语义技术,语义Web就可能借助于SKOS或OWL等编码表达的概念体系,进行基于概念的检索,并可能进行知识挖掘和简单推理。SPARQL提供了强大的知识查询能力。

从理解XML到理解RDF,似乎在“思考范式”上要有一个转型。许多搞计算机的人都无法理解,对语义Web认识一直有一个障碍,就是“管它语义不语义,机器懂什么语义?系统只要能满足用户的需求,什么技术不能表达语义?”希望上述解释能够回答这个问题。

Popularity: 12% [?]

Tags: OWL, RDF, 元数据, 语义技术

Related posts

新年大放送:2009发表论文OA

首先祝大家新年快乐,身体健康!

注:本文中的链接需加入“书社会SNS并加我为好友才能下载,如有意加入请点击这里

那边山人常公开了本人的“科研产出报告”,错误不少(重复、遗漏、著作方式不准确等),看来万方的数据库与实际情况还是有点距离。这里全文公开本人今年写的一些东西,算是向朋友们恭贺新年吧!也供大家批评指正(需加我好友才能下载,希谅!)

  1. 数字新秩序前夜的星光:点评2008年图书馆信息技术进展;刘炜 中国图书馆学报 2009,035(003) (发表时内容有所修改)
  2. 图书馆需要一朵怎样的云;刘炜 大学图书馆学报 2009.4.2-6
  3. 未来的图书馆 刘炜 数字图书馆论坛 2009.9.40-45
  4. 政府信息组织中的元数据方案设计;刘炜 信息化建设 2009(003) (这是《三人谈》中的一部分)
  5. 元数据与语义技术和社会性应用”专辑:都柏林核心元数据2008年会论文选译;刘炜 现代图书情报技术 2009(003)(该专辑包括以下六篇论文的译文,主要由华东师范大学信息学系研究生翻译,本人参与了部分论文的翻译或审校工作,并对翻译质量总负责)
  6. 数字图书馆的技术服务及其相关规范 刘炜 《图书馆服务标准论丛》上海科技文献出版社 2009.12
  7. 数字阅读:开启全民阅读新时代;刘炜(在中图学会南宁年会上的发言稿,尚未正式发表)
  8. 图书馆员作为一种职业:刘炜(在上海图书馆五四青年节座谈会上的发言稿,尚未正式发表)
  9. 知识组织:图书馆职业的核心能力;刘炜 (在上海图书馆学会年会上的发言)《国家图书馆学刊》2010年(因尚未发表,暂不提供下载)
  10. DC元数据年度进展(2009);黄田青 刘炜;《数字图书馆论坛》2010(本文请牛排OA吧)。

Popularity: 12% [?]

Tags: 2009, 下载, 论文, 链接

Related posts

关于后现代,呼应雨僧

关注图林后现代讨论多时了(是不是有好事者可以做一个索引,图谋最合适了,只是他太不后现代,恐怕不会感兴趣),驴唇马嘴,一地鸡毛,没看出游园在说什么,倒是雨僧给出点道道。仔细咂摸咂摸还有那么点异味,只是被时不时的禁用词禁用词给污染了,以至于很多人还没有尝到回味,就弃之如敝屣了。

图书馆学研究的诸多现象,有没有后现代性?其实比比皆是,只不过流于一种“无意识”而已,是一种现代性他爸和后现代他表姐乱伦的产物,偶尔还有传统他爷爷 (例如目录学)客串一把3P。这其实可以归结为一种现代中国普遍存在的历史现象,充斥在形而上的文化、艺术、媒体、科学的各个领域,压抑得不到伸张的同 时,魔与道又同时消长。

闻革是贵国现代性最大的策源地,老毛亲手打开潘多拉魔盒,魑魅魍魉在中国上演人类历史上最大规模的先锋派行为艺术表演,后 闻革的三十年则充斥了否定、挣扎、抵赖、回归、超越、反省、抽象、摧毁……,只是因为主体思想的控制而得不到释放,这个跳空缺口必须得到弥补,否 则将一如眼下的振荡下去。

反映在学术领域则是混乱、迷茫、游移、价值崩溃,现代性反叛传统,后现代则一锅端!但是如同附体的鬼混,皮之不存,毛将安 在?后现代永远也不可能成大势。雨僧说得对极:我们向后现代学什么?学怀疑一切,粪土一切,破除一切,没有一切!这的确是认识论上的意义,而不是任何有价 值的学问。在这一点上,比雨僧更盲流的,是竹帛斋,而游园则差太多,特别是读了博士之后。就像Lowie读了OA,就有了英式贵族般的气质,让人高山仰止、恨 不同志,读什么就要像什么,所以基于这一点,衷心诚挚地奉劝游园还是不要趟后现代这个混水罢。

图书馆学当然不可能是后现代的桃花源,但它也决不是后现代的独岛,不可能有独特的后现代问题,所以游园如果一定要献身污泥,妖涤清莲的唯一希望,要么是逃离图书馆学,要么就是成为垃圾。

Popularity: 16% [?]

Tags: 专业评论, 后现代, 游园, 雨僧

Related posts