Archive for the '知识组织' Category
关于中国历史朝代本体的rdf描述
书社会的Caveman在做一项很实用的研究,问了一个很好的问题(一般而言,回答不上来的问题都是好问题)。我在这里做一些讨论,希望抛砖引玉,批评指正。
在这里把问题归纳为:如何用RDF(及其家族)描述中国朝代的公元纪年。他的朝代与公元纪年对照表在这里:http://tinyurl.com/timeReignChinese。
直感转换方法有很多种,可以用RDF,也可以用SKOS和OWL,甚至其它,包括直接用XML自定义也可以。
编码原则应该是:能复用就复用,看看前人的成果。
而如何编码,哪种方式合用,关键还要看需求。
网络上已经有一些供人使用的转换工具了,但如果要通用性,应该基于RDF进行编码,并开发一个工具,甚至变成语义网络的一种服务,就能够直接为机器理解、获取和使用,能够被其它应用任意调用,就能体现语义技术最大的优越性了。
想到目前国内有些分类法主题词表分别都有了网络版,但那是给人看的,无法通过服务器直接获取术语和术语关系,进行匹配和关系运算,这实际上发挥不了多大的作用。只有用RDF(SKOS或OWL)编码之后,提供一定的语义Web服务(例如用关联数据方式发布),才能真正发挥词表的作用。
这里的核心需求可以整理为:
1、某个朝代有哪些年号,这些年号的起讫日期(即这个对照表:http://tinyurl.com/timeReignChinese)。
2、某个公元年号落在哪个朝代的哪个年号。
3、模糊年号(如不同朝代相同年号)和模糊日期(如起讫年精确到年还是月还是日)的处理。
4a、是否需要提供网络服务接口,实现双向转换;
4b、还是提供代码,嵌入任何应用;
4c、还是仅仅用RDF来描述这个对照表。
5、进一步的,不同朝代的国家情况(地理疆域、并行的国号等)。
就这个对照表的转换而言,可以认为只需满足1、2和4c即可。
简单的解决方案可以这样:
定义朝代(dynasty)类和年号(reign)子类,都属于event类,复用event本体(http://motools.sourceforge.net/event/event.html)和timeline本体(http://motools.sourceforge.net/timeline/timeline.html)中的元素,建立“朝代-年号”和“年号-公元纪年(date interval类型)”的rdf描述即可。
将来可以扩展(复用)event的其它属性,例如皇帝,都城,等等。
DC-2010征文通知
DC-2010征文通知
“庆祝都柏林核心元数据诞生15周年:让元数据工作得更努力些吧!”
2010 都柏林核心元数据应用国际会议(2010年10月20日-22日)暨ASIS&T年会(10月24日-27日)
美国 宾夕法尼亚州 匹兹堡
重要日期:
- 论文、报告或挂图(Poster)提交:2010年4月2日
- 录用通知:2010年5月14日
- 定稿提交:2010年6月11日
2010年是都柏林核心元数据提出的第15个年头,DC-2010大会将联袂召开第十届ASIS&T年会。为了更好地总结DC元数据的过去,并展望未来,届时将与往年一样,探讨元数据应用于资源发现的理论和实践问题,并交流新的进展,交换“让元数据工作得更努力”的心得。不仅如此,会议还将回顾近年来元数据领域的最新成果:以“DCMI抽象模型”、已趋完善的“应用纲要”概念和初步成型的“描述集纲要”规 范这三者为代表,标志了元数据对于满足人类信息需求的作用正走向一个转折点。但是现实是不完美的,我们还需要从别人的经验中更多地分享和学习。DC- 2010将总结现状,并着眼未来,进一步拓宽研究和应用的领域,使元数据能够更努力地为满足人类的信息需求而自动地工作。
除了大会的主题外,我们还欢迎就以下元数据专题进行投稿(包括论文,报告和挂图):
- 元数据制定原则,指南和最佳实践
- 元数据质量、规范化、改进和映射
- 概念模型和框架(例如RDF、DCAM、OAIS)
- 元数据应用纲要
- 跨领域、语言、时间、结构、规模之间的元数据互操作
- 跨领域元数据的应用(例如记录留存、永久保存、保管(curation)、机构库、出版)
- 领域元数据(例如企业、文化记忆机构、教育、政府及科研领域等)
- 作为语义万维网词汇的书目标准(例如RDA、FRBR、主题词表)
- 可获得性元数据
- 科学数据、e-Science和网格应用方面的元数据
- 社会化标注和元数据构建中的用户参与
- 知识组织系统例(如本体、分类法、规范档、大众分类法、叙词表)和SKOS(简单知识组织体系)
- 本体的设计和开发
- 元数据和本体的整合
- 元数据生成(方法、工具和实践)
- 搜索引擎和元数据
- 语义万维网元数据及应用
- 词汇表注册及注册服务
提交:
论文,报告或者挂图的投稿可通过DCMI同行评议系统提交,网址为:http://dcpapers.dublincore.org/index.php/pubs/。网页设有会议注册及论文提交流程指南(可点击“Information for Authors”链接),以及论文、项目报告或挂图/演示的作者指南。DC-2010的所有投稿都将由大会的国际学术委员会进行专家评审。所有稿件都必须 用英文撰写。被录用的稿件将正式发表于电子版的会议录。若无特殊安排,被录用的论文、项目报告和挂图应该至少由其中一位作者在匹兹堡会议上宣读。
为了稿件能够顺利接收与出版,所有的投稿者需提供自己的基本资料,包括目前的专业职务和联系方式等。
论文(8-10页)
论文既可以详细描述创新性的工作,也可以对前述的一些领域性重要进展或者最佳实践进行介绍评议。论文评判标准如下:
- 实现方法的创新性
- 所做贡献的质量
- 呈现结果的重要性
- 表达的明确性
项目报告(4-5页)
项目报告应该简明扼要地介绍一个特定的模型、应用或者活动。项目报告的评判标准如下:
- 技术描述的精确性和完整性
- 对其他潜在用户技术指导的可用性
- 表达的明确性
挂图及演示(1-2页)
挂图是关于正在进行中的项目或课题研究的展示,或者已完成项目、课题研究的最新结果的展示。挂图建议应当包括一个长为一到两页的摘要。挂图的评判标准如下:
- 精确陈述研究项目的目标和里程碑事件
- 研究课题或者项目的重要性
- 陈述主要的难点和进一步的研究
- 陈述结果和取得的主要成果
- 表达的明确性
被录用的挂图将会发表在会议论文集并在会议现场展示。除非另有安排,录用的挂图必须至少由一位作者在匹兹堡会议上宣读,并收录到论文集中,并可以进行4-10分钟的视频展示(上传至YouTube中)。会议将会为参会者和作者之间的沟通提供便利。
大会筹备委员会主席:
- Stuart A. Sutton,美国华盛顿大学信息学院,sasutton@uw.edu
学术委员会共同主席:
- Diane I. Hillmann,美国雪城大学信息学院,metadata.maven@gmail.com
- Michael Lauruhn,美国Taxonomy Strategies公司,mlauruhn@taxonomystrategies.com
工作小组委员会主席:
- Liddy Nevile,澳大利亚拉筹伯大学,liddy@sunriseresearch.org
培训委员会主席:
- Marcia Zeng,美国肯特州立大学,mzeng@kent.edu
SKOS不是KOS,Linked Data不是Data
有些缩略语不能只看其表面用词,还需了解具体内容。有两个手边的例子:
- SKOS(Simple Knowledge Organization System)与NKOS(Networked Knowledge Organization System)长得很像,但他们全然不是一个东西。前者是用以编码KOS的一套基于RDF的扩展模式(RDF Schema),似乎称之为Simple Knowledge Organization Schema更确切些。而后者是指各类知识组织体系(分类法、叙词表等)在网络上的形态,可以用SKOS来编码NKOS。因此SKOS实际上不是知识组织 体系,只是一种编码方式而已。
- 关联数据Linked Data是发布RDF数据的一种简捷开放高效的方法(机制),是语义Web的一种实现,可以看成是Web上发布数据的一种标准的API(对于HTTP进行进一步的规定和扩展),而不是一种特殊的数据。
KISS测试
Web时代东西太复杂就自然被淘汰,有一个著名的KISS原则(大智若愚原则),即Keep It Simple and Stupid,似乎目前Web上的很多东西都符合这个原则,不符合这个原则的东西都死翘翘了。因此联想到DC元数据现在整出三大法宝:抽象模型、应用纲要 (包括互操作级别)和DSP(描述集纲要)未免感到有点前景堪忧。
关于KISS,曾看到一项测试,可以用来作为便捷的衡量方法:
- 记事本测试:你能否用记事本(notepad)手工创建一条符合规范的记录,大小不超过4k?
- 阅读测试:你能否在一小时内基本读懂规范文本?
- 编码测试:你能否在一天内编制一个简单的客户端或服务器软件,实现简单的功能?
根据这个标准,传统图书馆自动化系统的很多东西,包括图书馆员的很多思路,都要更新换代了!
讲座预告:关于元数据的最新进展
Update:讲座时间:10月30日上午9:30-11:30。地点:上海图书馆系统网络中心3508会议室。
感谢王松林老师,让我就元数据的最新发展和对语义互操作的理解,给他的研究生介绍一下。我最近将花些时间,系统地进行一些梳理,打算于10月30日和11月20日上午进行介绍,届时也欢迎我的同事以及华师大的研究生一同参与交流(时间可能会有变动,地点也未定,如您感兴趣,请关注本博客的更新)。
10月30日的讲座大纲目前考虑包括如下十二部分内容(这是个雄心勃勃的计划,如介绍不完,将顺延至下次):
1、DCMI组织机构的变化
自从写完那篇《DC元数据的历史、现状和发展》一文之后发生了哪些变化,为什么。
2、DC元数据应用纲要(DCAP)方面的进展
主要是两个AP的规范文档以及两个三个AP实例(其中一个是草案)。
3、DC元数据抽象模型(DCAM)
为什么及是什么
4、元数据描述的新加坡框架
为应用纲要提供理论基础,回答“一个实用的元数据方案应该包含哪些内容?各类内容的关系是什么?”的问题。
5、元数据描述集的定义(DSP:Description Set Profile)
为什么需要DSP?与应用纲要什么关系?
6、DC元数据编码
包括XHTML、XML、Text、RDF四个编码规范。
7、语义互操作层次
同一组属性集在编码和约束上的不同规定决定了互操作程度的不同,据此区分语义互操作层次。
8、部分元数据应用项目简介
主要是这两年DC年会的案例以及应用了DC元数据的项目汇总。其它不用DC元数据的项目也需要做些介绍。
9、元数据应用相关工具
包括生成工具、转换工具、映射工具、抽取工具、质量控制工具等。
10、关联数据是一种元数据
图书馆有哪些数据值得做关联数据?
11、元数据与规范控制
元数据与本体术语体系,规范控制如何实现?
12、RDA作为一种元数据方案(规范但不是格式)
哪些地方用到了/借鉴了DCMI的元数据方法论?比AACR2有什么大的变化?