Archive for the '专业评论' Category
2011数图研讨班参会收获与感想
上个月参加了“数字图书馆前沿问题高级研讨班”,去之前感觉今年不可能有太多新意,回来之后感到还有许多可以总结的东西。拖至今日,再不总结恐怕要淡忘了,特简记如下:
- 传统集成系统逐渐演化成按使用职能划分的后台管理和发现服务两大块
- 本地安装的系统向远程代管过渡
- 费用支付方式从购买转向租用
- 软件开发采用商业和开源软件混合组配
W3C LLD(关联数据孵化小组)近期进展
感谢曾蕾老师邀请,28日中午参加了一场关联数据的网络会议(Agenda在此http://lists.w3.org/Archives/Public/public-xg-lld/2011Apr/0066.html),会议采用的工具以及整个过程挺有趣,此记录之。
网络采用的平台是W3C的IRC实时文本+电话会议方式,平台有两个机器人(Zakim和RRSAgent)可以掌控发言角色,安排顺序,最重要的是能自动生成会议记录,并发布在W3C的网站上。比如这次会议的记录会后马上就经过整理,发布在此:http://www.w3.org/2011/04/28-lld-minutes.html (IRC的记录:http://www.w3.org/2011/04/28-lld-irc)。
因为不舍得拨打国际长途,我通过曾老师用Skype转播参与了会议全过程,通过IRC的文字交谈功能算是参加了讨论和互动。会议时间控制得很好,原计划一个小时,基本上到点就结束了。参加会议的成员来自世界各地,美洲的正值午夜,亚洲的正午,欧洲的还在凌晨。会前大家都必须做好准备,用这种形式推动课题进展,效率极高。
Tom Baker作为DCMI技术应用方向的实际领路人,一直很看重W3C,很有W3C情结。近十年来DCMI的元数据运动离图书馆行业越走越远,随着万维网由技术导向向内容导向的转变,DCMI越来越走向万维网,成为Web语义化和知识化的核心内容之一。这个方向我认为是完全正确的,也是图书馆界的专业知识贡献于网络社会,在万维网上寻求类似定位的必由之路。老Tom在W3C中仍然要扛起图书馆大旗,于去年5月21日牵头成立图书馆关联数据应用的孵化小组(LLD:http://www.w3.org/2005/Incubator/lld/),联合图书馆、博物馆、档案馆等相关领域的关联数据先锋,共同探讨关联数据应用的可能性和巨大潜力,并努力为人们指明方向。。
这个小组凝聚了相关业界(图情博档)的技术精英,然而大家其实都是志愿者,每人都有自己的工作,平时相隔万里,托信息技术和网络社会的恩赐,把大家紧密联系在一起。据曾蕾老师说,基本上每周都召开课题组会议,所有计划、过程、进展、内容、成果都以一定方式在网上公布,其采用的技术工具也并非十分先进,甚至可以看成是网络应用的古董,不外是邮件列表、IRC、电话会议、wiki之类,我们上次召开上图学会第二届图书馆前沿技术论坛(关联数据)还用了非常先进的Cisco公司的WebEx会议系统,这类人士通常只把注意力集中在要做的事情上,对工具的选择有一些基本原则,例如一定要是开源(免得有知识产权等相关法律问题)、足够简单(方便绝大多数人使用)、功能够用并以提高效率为主要目的(额外工作例如后续加工工作尽可能用程序来完成)等等,对于花拳绣腿的功能一般都很漠视。
看起来这个小组的各项研究任务正按计划进行,已经取得了不少进展,然而距离其雄心勃勃的目标,看来还是有相当的挑战。根据其目前的研究框架(下述),点到为止是基本上没有问题的,但是能不能非常准确地拿捏到位,深浅适度且带来共识,还要看最后的结果。但是无论如何,这应该是图书馆相关领域技术应用前沿近年来最重要的进展了,希望不久的将来能够看到其成果集成应用到相应的解决方案中去。
目前的研究框架大致如下:
- 界定本课题的涉猎范围和主要内容,主要对一些基本概念进行界定,例如什么是本研究中所称的“图书馆”。对每一项研究而言概念界定往往是基础工作,是最重要的,尤其要在参与研究的成员之间达成共识,这样才能避免大家自说自话,最后再回头调整,出来的东西以其昏昏使人昭昭。
- 阐述应用关联数据技术能够带来的好处(主要向业界同行和“利益相关者”宣示),因为技术的隔阂和对于行业的职能作用及其未来前景的认识的不同。现在看起来这部分很难写,是最具有挑战性的。目前的做法似乎是从几个角度同时展开,从应用领域(图书馆、档案馆、博物馆、网络资源等)、用户角色(研究人员、教授、学生、开发者、机构、客户等)、技术方面的进步以及从用例中总结出来的好处。
- 现有的词表和数据集。曾蕾老师就主要牵头这部分内容。现在看来好像就这部分内容还比较成熟和确定,梳理得较为完整,但内容和很庞杂,看起来博大精深,选择和介绍到什么程度是个问题。目前似乎分两部分:属性(关系)元素所成的各类模式(元数据集),以及各类取值词表(包括领域模型中的各类实体),前者可以编码为OWL本体,后者可以以SKOS形式发布。
- 相关实现技术。这也是个挑战,因为关联数据本身是一个Web架构的问题,不是任何具体的技术问题,要实现这个架构可以有多种方式,实现的程度也不一样。具体而言,涉及到数据的转换、重新发布、与内容管理平台的结合、链接的管理维护、OWL等各类编码的实现、与关系数据库的关系、海量三元组存储库的管理、效率问题、SPARQL端点的实现、嵌入HTML(RDFa)的方式和工具等等,这部分目前看起来还很初级,但这部分内容涉及对技术方案的总结和梳理,提到了很多目前普遍采用的工具或方法(如D2RQ),值得尝试。
谁在乎关联数据?
- 大量的规范数据;
- 新的资源组织架构;
- 新的业务和服务模式;
- 对网络信息基础设施的改进;以及
- 由以上四点构成的新的图书馆行业凤凰涅槃。
那么谁又是利益相关者呢?
- 国家图书馆及国家文献标准化组织
- 各类图书馆联盟
- 大型地区性图书情报机构
- 各类数字图书馆建设主体
- 民间网络团体和商业公司
就“数字索引学”回答Kentsin网友的留言
1 對象是開放的,不是封閉的 — 即集合不是既定的,是不確定的
“索引”很早就取得了独立的地位,并不一定要作为某个封闭集合(如一本书)的附庸。例如《全国报刊索引》数据库。此时它是某一方面的独立的检索工具。
2 各種試想 — 是否需有細分,細緻的界定?將各種域細分出來?
有需求就有动力。细不细分是根据必要性来决定的,并无定论。
3 URI? 如古文的索引,存不确定性?是否仍存在歧義?或歧义乃是必然的?歧义的處理該如何?
URI是网络上任何事物的标识,可以通过一种索引机制(例如域名+IP)获得,可以是一个封闭的信息宇宙(只有进入这个宇宙才能解析、定位)。
看不出来与古文索引以及索引单元的确定性有什么关系。歧义问题跟URI无关,甚至跟索引都没有关系,歧义是领域专家的事情,甲专家可以指出乙专家论著里的索引索错了,这虽然影响索引的质量,但与索引这种方式和检索工具本身没有直接关系。
4 有序化 — 圖化? 單一的序是否某種結構的特殊形式? 而索引需可變形以配合某一特定的顯示形式? 如: 依字順,依頻度,依影照到某一主題結構, 時間順序,空間順序,時/空結構等的圖化?
图化(可视化)是一种展示方式,并不一定反映了秩序i,但是秩序如果用图示的方式能够更好地展示,特别对于数字资源之间的关系,可以通过三维可视化方式,三维方式也可以模拟多种效果,如星空、分子结构等。
单一的顺序也是有序,同一个索引应该可以有多种排序方式。
5 索引與元素據該沒有什麼關係吧
索引与元数据关系密切。索引单元本身是对文献的一种主题或其它信息的提取,类似于标签(tag),一般都标注了出处、页码或链接,因此它本身其实就是元数据。整个索引可以看成是一个词表,这个词表甚至比单纯的大众分类法(folksonomy)还要规范、可信、权威。索引从方法学上来看,我认为就是“元数据方法”的一种。
6 自動化是必行之路,但自動化的目標是什麼?是自部可能的?是人机合作的?還是純智能的? 選擇的標準又如何?
自动化的目标是机器能够根据需要自动或半自动地建立索引,有很多方法可以实现。现在一般认为全自动的技术还不成熟,Web2.0提供了大量的“群体智慧”,可以结合相关反馈得以实现。这方面的研究正方兴未艾,前途无可限量。。。
請介紹一些基礎理論的書或文章給我。
你要哪方面的?技术?还是图书馆学?这种边缘交叉的学科领域,互联网才是最好的资料库。
“数字索引学”要旨
张琪玉先生说:
“索引是对某种文献或某一文献集合中所包含的各篇文章,或所讨论的各个局部主题,或所涉及的各种试想(如地区、人物、机构、事件、生物、矿 物、产品、设备、公式、数据、著作等)以简明的方式分别著录标引,即确定其检索标识和指出其所在位置,并将款目按一定的可检顺序排列和组织,以方便检索的 一种工具。”
由以上定义,可以得出以下两点结论:
一、索引与目录一样,都是提供一种检索方法或工具,通过析出知识单元并加以有序组织,而在大量的信息中进行定位。
二、索引有三要素:
- 结构化–带来“单元性”–要有URI和元数据格式;
- 有序化–产生“组织性”–要采用知识体系(本体)进行组织;
- 可视化–造就“交互性”–要有二维、三维界面进行时空或抽象呈现;
传统索引的有序化主要是指对索引单元(款目)的编排以字符或语义单元的自然属性(通过音序、字形编码顺序来检字)来排列的方式,在印刷过程中通过排版技巧(字体字号空格缩进段落等)来实现,可以认为其有序化和可视化是一体的。
数字索引学的研究课题:
除与传统索引进行转换之外(如书后索引的自动建立、方正格式等的索引点标注等),数字索引学还将研究:
- 资源标识体系(索引什么,如何标识,如各种URI);
- 元数据格式(如何描述、表达、互操作,如RDFa、各种微格式等);
- 有序化(自然顺序之外,还包括本体和各类KOS)组织方式;
- 自动索引(信息或知识单元的自动抽取);
- 可视化方式。
数字索引学技术基础:
- Web架构;
- XML/RDF编码;
- 语义描述(元数据与本体标准);
- 关联数据;
- 规范控制;
- 信息可视化。
结论:索引与索引学已经与数字资源组织的各专门领域和学科大融合。