就“数字索引学”回答Kentsin网友的留言
1 對象是開放的,不是封閉的 — 即集合不是既定的,是不確定的
“索引”很早就取得了独立的地位,并不一定要作为某个封闭集合(如一本书)的附庸。例如《全国报刊索引》数据库。此时它是某一方面的独立的检索工具。
2 各種試想 — 是否需有細分,細緻的界定?將各種域細分出來?
有需求就有动力。细不细分是根据必要性来决定的,并无定论。
3 URI? 如古文的索引,存不确定性?是否仍存在歧義?或歧义乃是必然的?歧义的處理該如何?
URI是网络上任何事物的标识,可以通过一种索引机制(例如域名+IP)获得,可以是一个封闭的信息宇宙(只有进入这个宇宙才能解析、定位)。
看不出来与古文索引以及索引单元的确定性有什么关系。歧义问题跟URI无关,甚至跟索引都没有关系,歧义是领域专家的事情,甲专家可以指出乙专家论著里的索引索错了,这虽然影响索引的质量,但与索引这种方式和检索工具本身没有直接关系。
4 有序化 — 圖化? 單一的序是否某種結構的特殊形式? 而索引需可變形以配合某一特定的顯示形式? 如: 依字順,依頻度,依影照到某一主題結構, 時間順序,空間順序,時/空結構等的圖化?
图化(可视化)是一种展示方式,并不一定反映了秩序i,但是秩序如果用图示的方式能够更好地展示,特别对于数字资源之间的关系,可以通过三维可视化方式,三维方式也可以模拟多种效果,如星空、分子结构等。
单一的顺序也是有序,同一个索引应该可以有多种排序方式。
5 索引與元素據該沒有什麼關係吧
索引与元数据关系密切。索引单元本身是对文献的一种主题或其它信息的提取,类似于标签(tag),一般都标注了出处、页码或链接,因此它本身其实就是元数据。整个索引可以看成是一个词表,这个词表甚至比单纯的大众分类法(folksonomy)还要规范、可信、权威。索引从方法学上来看,我认为就是“元数据方法”的一种。
6 自動化是必行之路,但自動化的目標是什麼?是自部可能的?是人机合作的?還是純智能的? 選擇的標準又如何?
自动化的目标是机器能够根据需要自动或半自动地建立索引,有很多方法可以实现。现在一般认为全自动的技术还不成熟,Web2.0提供了大量的“群体智慧”,可以结合相关反馈得以实现。这方面的研究正方兴未艾,前途无可限量。。。
請介紹一些基礎理論的書或文章給我。
你要哪方面的?技术?还是图书馆学?这种边缘交叉的学科领域,互联网才是最好的资料库。
语义表达是不是一定要用RDF?
昨天参加了一场博士论文答辩,内容有关语义Web应用,论文架构很庞大,从基本概念、标准规范到元数据和本体的构建,到特定领域应用的实现和查询效果的比较等,感觉该童鞋很不容易。
答辩期间问了两个问题:
1、对于“语义”是如何理解的?机器如何理解语义?是不是Web加了元数据之后就是语义Web了?
2、如何对语义进行编码和查询?为什么没有试验用SAPRQLSPARQL进行查询?
第一个问题是因为论文中罗列了很多语义Web的定义而没有对语义进行定义,更没有说明语义是如何能被机器“理解”,保证机器理解的机制到底是什么?整篇文章给人的感觉好像是对于Web进行了元数据(语义)标注之后就是语义网了。
第二个问题是针对论文认为语义标注必须首先用XML进行结构化,RDF以及KOS转换的本体(OWL)起什么作用都没有明确说明,有点知其然不知其所以然的味道,后面更是没有提到语义Web查询语言SPARQL的独特作用,而是用SQL实现对语义数据的查询。
该 童鞋对于这两个问题的回答还是基本到位的,第一个问题她说到了语义就是所表达内容的含义,需要通过形式化编码才能被机器理解;第二个问题说需要用基于 XML的语义描述语言进行编码,因为在实验系统实现的过程中没有直接支持RDF的数据库系统,所以无法用SPARQL进行语义查询,等等。
这里想补充一些我的认识,有些认识可能比较绝对,对与不对大家可以批评指正。
1、 对于语义Web而言,RDF是基本的编码方式,是不是用了RDF可以作为具不具有明确外在的语义编码的判定标准。就是说,用了RDF,才能说是有语义的, 就像用了ASCII等字符编码标准才能进行文本编码一样。元数据可以不用RDF来表示,但是RDF是专门为了表达元数据而发明的语言(或者说框架或结 构),因为元数据就是“关于数据(主体)的数据(客体)”,主客体通过某种方式(谓词)相联系。这个问题在计算机界一直有争论,但是我这里对RDF的定义 是三元组方式,不一定是XML表达的三元组,也可以是其它方式(如N3等)表达的三元组,或者通过数据库方式能够输出三元组。本体OWL和SKOS都是基 于RDF的,因此它们肯定是表达语义的,而用XML自定义的任何表达方式,可以认为是系统内部局部的语义表达方式,到Web上就不具有可交换性了。因此它 虽然是结构化的,但不是表达全局语义的。
2、RDF是表达机器语义的必要条件,但并不充分。在语义Web中,必须结合URI机制,才能赋予任何一 个表达(资源)的全局语义,当然这个全局也仅仅是对于开放的Web来说的,这也就是URI能够解析的范围。任何一个局域网,无论其规模再大,都可能屏蔽这 种机器语义,而具有其独特的、更丰富的语义。因此,元数据和本体可以适用于比语义Web更广泛的领域,但到了Web上,这些内部语义如果要进行分享、重 用、交换,都有互操作问题。现有的技术架构、模型方案等,都是为了规范和减少这些互操作问题而提出。
3、采用了语义技术,语义Web就可能借助于SKOS或OWL等编码表达的概念体系,进行基于概念的检索,并可能进行知识挖掘和简单推理。SPARQL提供了强大的知识查询能力。
从理解XML到理解RDF,似乎在“思考范式”上要有一个转型。许多搞计算机的人都无法理解,对语义Web认识一直有一个障碍,就是“管它语义不语义,机器懂什么语义?系统只要能满足用户的需求,什么技术不能表达语义?”希望上述解释能够回答这个问题。
《万物皆杂碎》
一直对《万物皆杂碎》(Everything Is Miscellaneous)一书充满好奇。据说6月份就出中文版*了,可现在还没见着。
“无界图书馆员” Karen Schneider对这本书的评论是:“这是一本危险的书,它会让我们图书馆员过去所学的一切都扔出窗外,让结构、秩序、精确的元数据、书目控制,这些统统滚蛋。”
作者David据说是一位著名博客,哈佛法学院伯克曼互联网和社会中心的研究员。David在书中提出“混乱也是一种秩序”、“混乱是一种美德”、“越混乱越有意义”,并认为网络数字世界正是这种”混乱”秩序的体现(简介如下)。
David认为无序(混乱)是世界上的第三种秩序,前两种分别是实体的秩序和理性的秩序。一本图书,一件家具,它们在各自存在于自己的位置之中,一次只能摆放在一个位置,如果放错了地方的话那就很难找到或者很不协调,这是实体的秩序。实体对象在人们头脑中的反映是第二种秩序,即理性的秩序,例如书目卡片、购物清单等,人们通过这种秩序来组织、学习、表述、传达知识。第三种秩序实际上是由第二种秩序的无限扩张而演变发展成的,反映了微观上的有序而宏观上的无序。
David的观点可以对我们有如下启发:
1、秩序是多元的;
2、数字时代不能再迷恋以最好的方式来组织世界,适用即好;
3、允许用户创建秩序;
4、图书馆必须接受现实,才有可能老树发新芽。
*该书由中信出版社出版,名为《万物因此而多姿多彩:新数字无序的力量》。
参考文献:
http://www.douban.com/review/1166344/
http://www.douban.com/review/1349754/

元素名前缀的作用
谢老师的又一段评论被”关”起来了,现在放出来,并就自己的理解,加一点看法,同样不一定正确,望继续批评指正:
1、类似dc:title这样的元素名前缀我一直以为是不可缺少的,即在编码时dc与title共同组成一个有意义的XML元素(或属性)。
2、因此可以认为dc:title和dcterms:title是完全不同的,其相等关系隐含在DCMI的其它声明中,或者通过应用系统建立。
3、正如远洋老师前面说到过的,dc:alternative这个元素是不存在的,alternative只存在于dcterms中。
4、命名域xmlns指定了前缀的参考地址,使得元素具有了全域的唯一性,起到的作用正是谢老师在下文中所说的目录指向,只不过在广域网环境下、采用了URL的指向。
5、因为这里RDF是用XML来表达的(也可以用N3或者DC自己定义的DC-Text来表达),所以尊崇XML的所有的规定和语法,包括命名域和前缀的规定。
6、对于名称和翻译,我在深圳的报告 ppt第23页有一个盗版Stuart Weibel的图(如下),应该能够说明翻译的label在哪里解析的问题。

谢老师的评论主体(斜粗体为我的评论):
Read the rest of this entry »
代码示例1
更新update: 远洋老师的另一个示例文档已经提供下载。昨天为了这些代码折腾了一个多小时,本来前面还有一大段话,一发布就都飞了,可能是因为代码中除了包含<、>之外,还有其它trick,抑或因为wordpress的bug(太长?)。大意是说,Leon提醒我XMLS的关系描述能力有限,需要描述语义层次关系恐怕还非得RDF,令江汇泉抓狂的原因恐怕就在这里,而不仅仅是DC的属性词表不够,等等。
远洋老师给的DC元数据编码示例(另一个例子实在没法放到博客上,您可以在这里下载):
Read the rest of this entry »