W3C LLD(关联数据孵化小组)近期进展
感谢曾蕾老师邀请,28日中午参加了一场关联数据的网络会议(Agenda在此http://lists.w3.org/Archives/Public/public-xg-lld/2011Apr/0066.html),会议采用的工具以及整个过程挺有趣,此记录之。
网络采用的平台是W3C的IRC实时文本+电话会议方式,平台有两个机器人(Zakim和RRSAgent)可以掌控发言角色,安排顺序,最重要的是能自动生成会议记录,并发布在W3C的网站上。比如这次会议的记录会后马上就经过整理,发布在此:http://www.w3.org/2011/04/28-lld-minutes.html (IRC的记录:http://www.w3.org/2011/04/28-lld-irc)。
因为不舍得拨打国际长途,我通过曾老师用Skype转播参与了会议全过程,通过IRC的文字交谈功能算是参加了讨论和互动。会议时间控制得很好,原计划一个小时,基本上到点就结束了。参加会议的成员来自世界各地,美洲的正值午夜,亚洲的正午,欧洲的还在凌晨。会前大家都必须做好准备,用这种形式推动课题进展,效率极高。
Tom Baker作为DCMI技术应用方向的实际领路人,一直很看重W3C,很有W3C情结。近十年来DCMI的元数据运动离图书馆行业越走越远,随着万维网由技术导向向内容导向的转变,DCMI越来越走向万维网,成为Web语义化和知识化的核心内容之一。这个方向我认为是完全正确的,也是图书馆界的专业知识贡献于网络社会,在万维网上寻求类似定位的必由之路。老Tom在W3C中仍然要扛起图书馆大旗,于去年5月21日牵头成立图书馆关联数据应用的孵化小组(LLD:http://www.w3.org/2005/Incubator/lld/),联合图书馆、博物馆、档案馆等相关领域的关联数据先锋,共同探讨关联数据应用的可能性和巨大潜力,并努力为人们指明方向。。
这个小组凝聚了相关业界(图情博档)的技术精英,然而大家其实都是志愿者,每人都有自己的工作,平时相隔万里,托信息技术和网络社会的恩赐,把大家紧密联系在一起。据曾蕾老师说,基本上每周都召开课题组会议,所有计划、过程、进展、内容、成果都以一定方式在网上公布,其采用的技术工具也并非十分先进,甚至可以看成是网络应用的古董,不外是邮件列表、IRC、电话会议、wiki之类,我们上次召开上图学会第二届图书馆前沿技术论坛(关联数据)还用了非常先进的Cisco公司的WebEx会议系统,这类人士通常只把注意力集中在要做的事情上,对工具的选择有一些基本原则,例如一定要是开源(免得有知识产权等相关法律问题)、足够简单(方便绝大多数人使用)、功能够用并以提高效率为主要目的(额外工作例如后续加工工作尽可能用程序来完成)等等,对于花拳绣腿的功能一般都很漠视。
看起来这个小组的各项研究任务正按计划进行,已经取得了不少进展,然而距离其雄心勃勃的目标,看来还是有相当的挑战。根据其目前的研究框架(下述),点到为止是基本上没有问题的,但是能不能非常准确地拿捏到位,深浅适度且带来共识,还要看最后的结果。但是无论如何,这应该是图书馆相关领域技术应用前沿近年来最重要的进展了,希望不久的将来能够看到其成果集成应用到相应的解决方案中去。
目前的研究框架大致如下:
- 界定本课题的涉猎范围和主要内容,主要对一些基本概念进行界定,例如什么是本研究中所称的“图书馆”。对每一项研究而言概念界定往往是基础工作,是最重要的,尤其要在参与研究的成员之间达成共识,这样才能避免大家自说自话,最后再回头调整,出来的东西以其昏昏使人昭昭。
- 阐述应用关联数据技术能够带来的好处(主要向业界同行和“利益相关者”宣示),因为技术的隔阂和对于行业的职能作用及其未来前景的认识的不同。现在看起来这部分很难写,是最具有挑战性的。目前的做法似乎是从几个角度同时展开,从应用领域(图书馆、档案馆、博物馆、网络资源等)、用户角色(研究人员、教授、学生、开发者、机构、客户等)、技术方面的进步以及从用例中总结出来的好处。
- 现有的词表和数据集。曾蕾老师就主要牵头这部分内容。现在看来好像就这部分内容还比较成熟和确定,梳理得较为完整,但内容和很庞杂,看起来博大精深,选择和介绍到什么程度是个问题。目前似乎分两部分:属性(关系)元素所成的各类模式(元数据集),以及各类取值词表(包括领域模型中的各类实体),前者可以编码为OWL本体,后者可以以SKOS形式发布。
- 相关实现技术。这也是个挑战,因为关联数据本身是一个Web架构的问题,不是任何具体的技术问题,要实现这个架构可以有多种方式,实现的程度也不一样。具体而言,涉及到数据的转换、重新发布、与内容管理平台的结合、链接的管理维护、OWL等各类编码的实现、与关系数据库的关系、海量三元组存储库的管理、效率问题、SPARQL端点的实现、嵌入HTML(RDFa)的方式和工具等等,这部分目前看起来还很初级,但这部分内容涉及对技术方案的总结和梳理,提到了很多目前普遍采用的工具或方法(如D2RQ),值得尝试。
xtykc Said on 五月 19th, 2011 at 11:10 下午 quote
会议上有没有关联数据如何利用这个议题呢?