关于中国历史朝代本体的rdf描述
书社会的Caveman在做一项很实用的研究,问了一个很好的问题(一般而言,回答不上来的问题都是好问题)。我在这里做一些讨论,希望抛砖引玉,批评指正。
在这里把问题归纳为:如何用RDF(及其家族)描述中国朝代的公元纪年。他的朝代与公元纪年对照表在这里:http://tinyurl.com/timeReignChinese。
直感转换方法有很多种,可以用RDF,也可以用SKOS和OWL,甚至其它,包括直接用XML自定义也可以。
编码原则应该是:能复用就复用,看看前人的成果。
而如何编码,哪种方式合用,关键还要看需求。
网络上已经有一些供人使用的转换工具了,但如果要通用性,应该基于RDF进行编码,并开发一个工具,甚至变成语义网络的一种服务,就能够直接为机器理解、获取和使用,能够被其它应用任意调用,就能体现语义技术最大的优越性了。
想到目前国内有些分类法主题词表分别都有了网络版,但那是给人看的,无法通过服务器直接获取术语和术语关系,进行匹配和关系运算,这实际上发挥不了多大的作用。只有用RDF(SKOS或OWL)编码之后,提供一定的语义Web服务(例如用关联数据方式发布),才能真正发挥词表的作用。
这里的核心需求可以整理为:
1、某个朝代有哪些年号,这些年号的起讫日期(即这个对照表:http://tinyurl.com/timeReignChinese)。
2、某个公元年号落在哪个朝代的哪个年号。
3、模糊年号(如不同朝代相同年号)和模糊日期(如起讫年精确到年还是月还是日)的处理。
4a、是否需要提供网络服务接口,实现双向转换;
4b、还是提供代码,嵌入任何应用;
4c、还是仅仅用RDF来描述这个对照表。
5、进一步的,不同朝代的国家情况(地理疆域、并行的国号等)。
就这个对照表的转换而言,可以认为只需满足1、2和4c即可。
简单的解决方案可以这样:
定义朝代(dynasty)类和年号(reign)子类,都属于event类,复用event本体(http://motools.sourceforge.net/event/event.html)和timeline本体(http://motools.sourceforge.net/timeline/timeline.html)中的元素,建立“朝代-年号”和“年号-公元纪年(date interval类型)”的rdf描述即可。
将来可以扩展(复用)event的其它属性,例如皇帝,都城,等等。
Popularity: 5% [?]
Tags: RDF, 朝代, 本体, 知识组织, 语义技术Related posts
DC-2010征文通知
DC-2010征文通知
“庆祝都柏林核心元数据诞生15周年:让元数据工作得更努力些吧!”
2010 都柏林核心元数据应用国际会议(2010年10月20日-22日)暨ASIS&T年会(10月24日-27日)
美国 宾夕法尼亚州 匹兹堡
重要日期:
- 论文、报告或挂图(Poster)提交:2010年4月2日
- 录用通知:2010年5月14日
- 定稿提交:2010年6月11日
2010年是都柏林核心元数据提出的第15个年头,DC-2010大会将联袂召开第十届ASIS&T年会。为了更好地总结DC元数据的过去,并展望未来,届时将与往年一样,探讨元数据应用于资源发现的理论和实践问题,并交流新的进展,交换“让元数据工作得更努力”的心得。不仅如此,会议还将回顾近年来元数据领域的最新成果:以“DCMI抽象模型”、已趋完善的“应用纲要”概念和初步成型的“描述集纲要”规 范这三者为代表,标志了元数据对于满足人类信息需求的作用正走向一个转折点。但是现实是不完美的,我们还需要从别人的经验中更多地分享和学习。DC- 2010将总结现状,并着眼未来,进一步拓宽研究和应用的领域,使元数据能够更努力地为满足人类的信息需求而自动地工作。
除了大会的主题外,我们还欢迎就以下元数据专题进行投稿(包括论文,报告和挂图):
- 元数据制定原则,指南和最佳实践
- 元数据质量、规范化、改进和映射
- 概念模型和框架(例如RDF、DCAM、OAIS)
- 元数据应用纲要
- 跨领域、语言、时间、结构、规模之间的元数据互操作
- 跨领域元数据的应用(例如记录留存、永久保存、保管(curation)、机构库、出版)
- 领域元数据(例如企业、文化记忆机构、教育、政府及科研领域等)
- 作为语义万维网词汇的书目标准(例如RDA、FRBR、主题词表)
- 可获得性元数据
- 科学数据、e-Science和网格应用方面的元数据
- 社会化标注和元数据构建中的用户参与
- 知识组织系统例(如本体、分类法、规范档、大众分类法、叙词表)和SKOS(简单知识组织体系)
- 本体的设计和开发
- 元数据和本体的整合
- 元数据生成(方法、工具和实践)
- 搜索引擎和元数据
- 语义万维网元数据及应用
- 词汇表注册及注册服务
提交:
论文,报告或者挂图的投稿可通过DCMI同行评议系统提交,网址为:http://dcpapers.dublincore.org/index.php/pubs/。网页设有会议注册及论文提交流程指南(可点击“Information for Authors”链接),以及论文、项目报告或挂图/演示的作者指南。DC-2010的所有投稿都将由大会的国际学术委员会进行专家评审。所有稿件都必须 用英文撰写。被录用的稿件将正式发表于电子版的会议录。若无特殊安排,被录用的论文、项目报告和挂图应该至少由其中一位作者在匹兹堡会议上宣读。
为了稿件能够顺利接收与出版,所有的投稿者需提供自己的基本资料,包括目前的专业职务和联系方式等。
论文(8-10页)
论文既可以详细描述创新性的工作,也可以对前述的一些领域性重要进展或者最佳实践进行介绍评议。论文评判标准如下:
- 实现方法的创新性
- 所做贡献的质量
- 呈现结果的重要性
- 表达的明确性
项目报告(4-5页)
项目报告应该简明扼要地介绍一个特定的模型、应用或者活动。项目报告的评判标准如下:
- 技术描述的精确性和完整性
- 对其他潜在用户技术指导的可用性
- 表达的明确性
挂图及演示(1-2页)
挂图是关于正在进行中的项目或课题研究的展示,或者已完成项目、课题研究的最新结果的展示。挂图建议应当包括一个长为一到两页的摘要。挂图的评判标准如下:
- 精确陈述研究项目的目标和里程碑事件
- 研究课题或者项目的重要性
- 陈述主要的难点和进一步的研究
- 陈述结果和取得的主要成果
- 表达的明确性
被录用的挂图将会发表在会议论文集并在会议现场展示。除非另有安排,录用的挂图必须至少由一位作者在匹兹堡会议上宣读,并收录到论文集中,并可以进行4-10分钟的视频展示(上传至YouTube中)。会议将会为参会者和作者之间的沟通提供便利。
大会筹备委员会主席:
- Stuart A. Sutton,美国华盛顿大学信息学院,sasutton@uw.edu
学术委员会共同主席:
- Diane I. Hillmann,美国雪城大学信息学院,metadata.maven@gmail.com
- Michael Lauruhn,美国Taxonomy Strategies公司,mlauruhn@taxonomystrategies.com
工作小组委员会主席:
- Liddy Nevile,澳大利亚拉筹伯大学,liddy@sunriseresearch.org
培训委员会主席:
- Marcia Zeng,美国肯特州立大学,mzeng@kent.edu
Popularity: 5% [?]
Tags: DC, DC2010, 元数据Related posts
SKOS不是KOS,Linked Data不是Data
有些缩略语不能只看其表面用词,还需了解具体内容。有两个手边的例子:
- SKOS(Simple Knowledge Organization System)与NKOS(Networked Knowledge Organization System)长得很像,但他们全然不是一个东西。前者是用以编码KOS的一套基于RDF的扩展模式(RDF Schema),似乎称之为Simple Knowledge Organization Schema更确切些。而后者是指各类知识组织体系(分类法、叙词表等)在网络上的形态,可以用SKOS来编码NKOS。因此SKOS实际上不是知识组织 体系,只是一种编码方式而已。
- 关联数据Linked Data是发布RDF数据的一种简捷开放高效的方法(机制),是语义Web的一种实现,可以看成是Web上发布数据的一种标准的API(对于HTTP进行进一步的规定和扩展),而不是一种特殊的数据。
Popularity: 5% [?]
Tags: linked data, SKOS, 知识组织Related posts
互操作层次

图片来自http://en.wikipedia.org/wiki/Levels_of_conceptual_interoperability
简单说明:
- 第0层:没有(不考虑)互操作性(封闭如C/S系统)
- 第1层:技术互操作,可利用至少一种协议,能够在一个平台上使其它系统获得比特或字节信息。
- 第2层:语法互操作,支持进行一定格式的数据交换。
- 第3层:语义互操作,在数据交换的基础上,依靠共有互通的解释机制,达到语义的交换和共享(互操作)。语义Web就提供了一套协议机制,支持整个Web范围内的语义交换与共享。
- 第4层:程序互操作,支持协同语境。在语义理解的基础上,共同实现一定的功能。
- 第5层:动态互操作,系统的变化和迁移被记录和控制,变化不影响数据的交换和功能的实现。
- 第6层:概念互操作,具有一定智能的系统,不同系统间的互操作能够自动地实现。
Popularity: 5% [?]
Tags: 互操作, 语义技术Related posts
几个概念:开放数据,关联数据,语义Web和Web3.0
针对童鞋们经常提问,以及本人根据网络资源和自己的理解整理如下:
开放数据(Open Data):
在网络上可以公开得到的数据,没有任何控制访问的措施(无需登录,否则只能是免费数据或其它名称)。
为了促进开放数据应用,模仿“创作共用”协议,好事者也提出了“开放数据共用协议”。
开放元数据是其中的一类。
项目举例:
- data.gov(美国)
- Open Data Network(德国)
- making public data public(英国)
关联数据(Linked Data):
一种数据访问(整合)技术,基本上都是以RDF方式表达,对于Http协议进行少量扩展(规定)而成。低成本,高可用性,整合简单。
开放链接数据(Linked Open Data)是关联数据的一项运动。
- 美国纽约时报项目,目前已经上载了5000个人物的主题表目,可以按照cc by协议开放使用。
- Linked Data Research Center
- GoodRelations:关于产品、价格和企业数据的规范词表
- oeGOV:应用于政府信息管理的本体词表
Web3.0:
Web2.0的热衷者或者搅局者提出的一个概念,作为下一代Web的一种趋势探讨,有人说就是语义Web,有人在语义Web基础上添加了P2P、各类无线应用甚至云计算等内容。
语义Web:
现有Web之上的、以数据资源为基本组成单位的Web,这些资源(数据)都标注有元数据描述,从而能够进行语义查询,以及数据整合,提供了互联网上实现语义互操作的技术平台。关联数据可以理解为语义Web的一种实现。
Web of Data是其另一别称。
Popularity: 8% [?]
Tags: linked data, Open Data, Web3.0, 关联数据, 语义Web, 语义技术Related posts
KISS测试
Web时代东西太复杂就自然被淘汰,有一个著名的KISS原则(大智若愚原则),即Keep It Simple and Stupid,似乎目前Web上的很多东西都符合这个原则,不符合这个原则的东西都死翘翘了。因此联想到DC元数据现在整出三大法宝:抽象模型、应用纲要 (包括互操作级别)和DSP(描述集纲要)未免感到有点前景堪忧。
关于KISS,曾看到一项测试,可以用来作为便捷的衡量方法:
- 记事本测试:你能否用记事本(notepad)手工创建一条符合规范的记录,大小不超过4k?
- 阅读测试:你能否在一小时内基本读懂规范文本?
- 编码测试:你能否在一天内编制一个简单的客户端或服务器软件,实现简单的功能?
根据这个标准,传统图书馆自动化系统的很多东西,包括图书馆员的很多思路,都要更新换代了!
Popularity: 7% [?]
Tags: KISS, 元数据, 元数据方案Related posts
语义表达是不是一定要用RDF?
昨天参加了一场博士论文答辩,内容有关语义Web应用,论文架构很庞大,从基本概念、标准规范到元数据和本体的构建,到特定领域应用的实现和查询效果的比较等,感觉该童鞋很不容易。
答辩期间问了两个问题:
1、对于“语义”是如何理解的?机器如何理解语义?是不是Web加了元数据之后就是语义Web了?
2、如何对语义进行编码和查询?为什么没有试验用SAPRQLSPARQL进行查询?
第一个问题是因为论文中罗列了很多语义Web的定义而没有对语义进行定义,更没有说明语义是如何能被机器“理解”,保证机器理解的机制到底是什么?整篇文章给人的感觉好像是对于Web进行了元数据(语义)标注之后就是语义网了。
第二个问题是针对论文认为语义标注必须首先用XML进行结构化,RDF以及KOS转换的本体(OWL)起什么作用都没有明确说明,有点知其然不知其所以然的味道,后面更是没有提到语义Web查询语言SPARQL的独特作用,而是用SQL实现对语义数据的查询。
该 童鞋对于这两个问题的回答还是基本到位的,第一个问题她说到了语义就是所表达内容的含义,需要通过形式化编码才能被机器理解;第二个问题说需要用基于 XML的语义描述语言进行编码,因为在实验系统实现的过程中没有直接支持RDF的数据库系统,所以无法用SPARQL进行语义查询,等等。
这里想补充一些我的认识,有些认识可能比较绝对,对与不对大家可以批评指正。
1、 对于语义Web而言,RDF是基本的编码方式,是不是用了RDF可以作为具不具有明确外在的语义编码的判定标准。就是说,用了RDF,才能说是有语义的, 就像用了ASCII等字符编码标准才能进行文本编码一样。元数据可以不用RDF来表示,但是RDF是专门为了表达元数据而发明的语言(或者说框架或结 构),因为元数据就是“关于数据(主体)的数据(客体)”,主客体通过某种方式(谓词)相联系。这个问题在计算机界一直有争论,但是我这里对RDF的定义 是三元组方式,不一定是XML表达的三元组,也可以是其它方式(如N3等)表达的三元组,或者通过数据库方式能够输出三元组。本体OWL和SKOS都是基 于RDF的,因此它们肯定是表达语义的,而用XML自定义的任何表达方式,可以认为是系统内部局部的语义表达方式,到Web上就不具有可交换性了。因此它 虽然是结构化的,但不是表达全局语义的。
2、RDF是表达机器语义的必要条件,但并不充分。在语义Web中,必须结合URI机制,才能赋予任何一 个表达(资源)的全局语义,当然这个全局也仅仅是对于开放的Web来说的,这也就是URI能够解析的范围。任何一个局域网,无论其规模再大,都可能屏蔽这 种机器语义,而具有其独特的、更丰富的语义。因此,元数据和本体可以适用于比语义Web更广泛的领域,但到了Web上,这些内部语义如果要进行分享、重 用、交换,都有互操作问题。现有的技术架构、模型方案等,都是为了规范和减少这些互操作问题而提出。
3、采用了语义技术,语义Web就可能借助于SKOS或OWL等编码表达的概念体系,进行基于概念的检索,并可能进行知识挖掘和简单推理。SPARQL提供了强大的知识查询能力。
从理解XML到理解RDF,似乎在“思考范式”上要有一个转型。许多搞计算机的人都无法理解,对语义Web认识一直有一个障碍,就是“管它语义不语义,机器懂什么语义?系统只要能满足用户的需求,什么技术不能表达语义?”希望上述解释能够回答这个问题。
Popularity: 12% [?]
Tags: OWL, RDF, 元数据, 语义技术Related posts
新年大放送:2009发表论文OA
首先祝大家新年快乐,身体健康!
注:本文中的链接需加入“书社会SNS”并加我为好友才能下载,如有意加入请点击这里。
那边山人常公开了本人的“科研产出报告”,错误不少(重复、遗漏、著作方式不准确等),看来万方的数据库与实际情况还是有点距离。这里全文公开本人今年写的一些东西,算是向朋友们恭贺新年吧!也供大家批评指正(需加我好友才能下载,希谅!)
- 数字新秩序前夜的星光:点评2008年图书馆信息技术进展;刘炜 中国图书馆学报 2009,035(003) (发表时内容有所修改)
- 图书馆需要一朵怎样的云;刘炜 大学图书馆学报 2009.4.2-6
- 未来的图书馆 刘炜 数字图书馆论坛 2009.9.40-45
- 政府信息组织中的元数据方案设计;刘炜 信息化建设 2009(003) (这是《三人谈》中的一部分)
- “元数据与语义技术和社会性应用”专辑:都柏林核心元数据2008年会论文选译;刘炜 现代图书情报技术 2009(003)(该专辑包括以下六篇论文的译文,主要由华东师范大学信息学系研究生翻译,本人参与了部分论文的翻译或审校工作,并对翻译质量总负责)
- 将图书馆目录纳入语义万维网;Martin Malmsten 著,李雯静译 现代图书情报技术 2009(003)
- LCSH,SKOS和关联数据;Ed Summers、Antoine Isaac、Clay Redding、Dan Krech、姚小乐译 现代图书情报技术 2009(003)
- 资源集合/个体资源元数据关系描述及实现;Allen H.Renear、Karen M.Wickett、Richard J.Urban、David Dubin、Sarah L.Shreeves、张海霞译 现代图书情报技术 2009(003)
- 最新标签本体:标签和民俗分类法语义模型;Hak Lae Kim、Simon Scerri、John G.Breslin、Stefan Decker、Hong Gee Kim、丁鹏宇译 现代图书情报技术 2009(003)
- 基于一种映射计算模型的应用纲要编码方式;Carol Jean Godby、Devon Smith、Eric Childress著 娄秀明译 现代图书情报技术 2009(003)
- 从社会性标签中进行语义关系抽取——元数据时代的一种方法;Miao Chen1 Xiaozhong Liu1 Jian Qin1著 崔晓莉 译 现代图书情报技术 2009(003)
- 数字图书馆的技术服务及其相关规范 刘炜 《图书馆服务标准论丛》上海科技文献出版社 2009.12
- 数字阅读:开启全民阅读新时代;刘炜(在中图学会南宁年会上的发言稿,尚未正式发表)
- 图书馆员作为一种职业:刘炜(在上海图书馆五四青年节座谈会上的发言稿,尚未正式发表)
- 知识组织:图书馆职业的核心能力;刘炜 (在上海图书馆学会年会上的发言)《国家图书馆学刊》2010年(因尚未发表,暂不提供下载)
- DC元数据年度进展(2009);黄田青 刘炜;《数字图书馆论坛》2010(本文请牛排OA吧)。
Popularity: 12% [?]
Tags: 2009, 下载, 论文, 链接Related posts
关于后现代,呼应雨僧
关注图林后现代讨论多时了(是不是有好事者可以做一个索引,图谋最合适了,只是他太不后现代,恐怕不会感兴趣),驴唇马嘴,一地鸡毛,没看出游园在说什么,倒是雨僧给出点道道。仔细咂摸咂摸还有那么点异味,只是被时不时的禁用词禁用词给污染了,以至于很多人还没有尝到回味,就弃之如敝屣了。
图书馆学研究的诸多现象,有没有后现代性?其实比比皆是,只不过流于一种“无意识”而已,是一种现代性他爸和后现代他表姐乱伦的产物,偶尔还有传统他爷爷 (例如目录学)客串一把3P。这其实可以归结为一种现代中国普遍存在的历史现象,充斥在形而上的文化、艺术、媒体、科学的各个领域,压抑得不到伸张的同 时,魔与道又同时消长。
闻革是贵国现代性最大的策源地,老毛亲手打开潘多拉魔盒,魑魅魍魉在中国上演人类历史上最大规模的先锋派行为艺术表演,后 闻革的三十年则充斥了否定、挣扎、抵赖、回归、超越、反省、抽象、摧毁……,只是因为主体思想的控制而得不到释放,这个跳空缺口必须得到弥补,否 则将一如眼下的振荡下去。
反映在学术领域则是混乱、迷茫、游移、价值崩溃,现代性反叛传统,后现代则一锅端!但是如同附体的鬼混,皮之不存,毛将安 在?后现代永远也不可能成大势。雨僧说得对极:我们向后现代学什么?学怀疑一切,粪土一切,破除一切,没有一切!这的确是认识论上的意义,而不是任何有价 值的学问。在这一点上,比雨僧更盲流的,是竹帛斋,而游园则差太多,特别是读了博士之后。就像Lowie读了OA,就有了英式贵族般的气质,让人高山仰止、恨 不同志,读什么就要像什么,所以基于这一点,衷心诚挚地奉劝游园还是不要趟后现代这个混水罢。
图书馆学当然不可能是后现代的桃花源,但它也决不是后现代的独岛,不可能有独特的后现代问题,所以游园如果一定要献身污泥,妖涤清莲的唯一希望,要么是逃离图书馆学,要么就是成为垃圾。
Popularity: 16% [?]
Tags: 专业评论, 后现代, 游园, 雨僧