对于thema-nomen模型的补充
看了远洋老师新近的博文(一 、二 ),又引发了很多思考,想起做博士论文时参考Sowa “Knowledge Representation“书中的一个模型(C.K Ogden and I. A. Richards. The Meaning of Meaning,1923),不知是不是可以对thema-nomen模型做一点补充?

查到这里有进一步阐释,很有启发。截图两张:
一点感想:概念和概念的表达,是为了交流服务的,模型的建立有助于达成有效的交流,有时不必拘泥于nomen是否表达了正确的thema,正确性判断可以留给系统的建立者和用户,铁路警察各管一段,系统的设计者只要确认交流的成立,nomen肯定是表达了某个thema的,就成了。否则可能把事情弄得很复杂,难以实现,更难推广应用。
(以上两图来自Harold R Solbrig,Christopher G Chute ”A Common Terminology Services (CTS) Back-end to Protégé“,见:http://protege.stanford.edu/conference/2004/slides/3.1_Solbrig_A%20Common%20Terminology%20Services%20(CTS)%20Back-end.pdf)
今年我要做什么
今天正月十五,年过完了。雨师在网上跳出来关切地询问:博客怎么不更新了?偶支吾着回答说给自己放了个长假。
是的,年关将过的时候突然觉得这一切没有任何意义,“为什么呢~~?” 于是酝酿着将博客转型。然而年都过完了也没想好如何转型,再凑合一段时间吧。
前两年都给自己列过一个新年宏愿,没有一次完成的。前年的还做过一番总结,去年的连总结也省了。反正这个东西不具有任何效力,做到做不到没人用鞭子抽你,甚至没人关心,没人知道,不会有家长或领导贬否,不会有群众监督,写出来不写出来都没关系。但转念一想,既如此,写出来又有何妨?好歹也是对自己的一个督促。
结合专业工作和自己的研究兴趣,今年主要想在以下三个相关的方面进行一些学习,记一些学习笔记。
1、信息组织方面
我一直不敢把这个领域叫做“知识组织”。前些年与复旦计算机系的老师一起想申报“知识库、知识管理与知识挖掘” 方面的项目,才知道“知识”这个词的水有多深。不仅仅是崇拜“知识” ,而是这个词本身歧义太多,人文学科可以通过歧义来做文章,洋洋洒洒,水平很高,而科学研究不行,特别是计算机科学绝对不行。你的知识可以跟别人的知识不是一个知识,但是你昨天讲的知识,与今天讲的知识,应该是一个知识,如果不一样,你一定要说明清楚,不可以“各自表述”,企图以其昏昏使人昭昭。
前两年提出一个信息组织的“元数据方法”,即想把传统的,以编目挂帅和统领的图书馆资源整理方法改造为一套新的、以元数据为核心的方法论体系。这其中当然包括“元数据”、“知识组织系统”(即KOS,沿用国外的术语,就不避嫌用“知识”了)、“知识本体”等一整套静态的规范控制体系,以及实现这一体系的方法、规则、机制(如注册、映射机制)、软件、工具等等。这其实是前些年戏称为“数字图书馆资源描述统一场论”的基础内容。
随着DCMI对于属于体系和抽象模型的大规模改进,Tag、民俗分类法和本体研究与应用的大步推进(如近期多个sw国际会议推出的高水平的研究报告,以及Jane Greensburg等有关书籍的出版),曾蕾、秦建等老师在SKOS/NKOS方面的进展,今年要继续跟踪学习的东西不是一点点。
2、2.0方面
2.0不是技术,但是2.0必须有人搞技术,至少是技术方面的跟踪和引领,当然能不能做到另当别论,这也需要一帮人共同努力,好在2.0更大程度上只是技术应用而已,需要技术方面的悟性和理解力,Geek并不是程序员,可以只是爱好者。
希望依托市图书馆学会技术分会(任大虾和Leon是领导)的努力,以及联合图书馆2.0社区的力量,Web2.0/Lib2.0技术白皮书的事情能够有一个实质性的启动。结合白皮书的编写,考虑将许多2.0的开源工具进行一下评测。
一直有一个看法:2.0不能关起门来做。图书馆2.0正在成为一个孤岛,老陆现在不知道忙什么去了,我们这个圈子本来与外界还是有一些互动的,现在门又关起来了,与Web 2.0的大世界似乎毫无瓜葛,这不是一个好兆头。很希望在网络社区的信息组织方面进行一些探索,就像OCLC的研究选题一样,需要一只眼睛向外看,利用我们的专业知识,主动、积极地投入到Web2.0的探讨和互动中去。
3、数字图书馆跟踪
近十年的跟踪积累了大量的素材,希望重建跟踪网站,能够建设一个数图资料门户,并支持标注、留言等2.0功能,与大家分享信息,有可能的话进行专题研讨,例如元数据、知识组织、知识本体、图书馆集成管理/数字图书馆系统、资源整合。响应老槐号召,“图书馆2.0工作室”又有新的任务了,结合词典编撰工作,将数字图书馆方面的术语词汇做一下整理。
今年在数图方面主要想关注数字化出版,探讨其与数字图书馆的上下游关系,如何契合,需要怎样的体系框架,在几个层面上制订和执行哪些标准规范,等等。这个命题是陈源蒸老师提出,并有许多想法,偶希望今年能投入一些时间向陈老师多学习,把这个主题深入下去。
今年还有一件棘手的事情:承担一门“知识管理”研究生课程的教学。本来安排的是知识组织,现在变成了知识管理,从学科上相差了十万八千里,还要另外学习。如果硬把元数据、本体、知识组织体系等内容结合进去讲,甚至作为主要内容,可能有点太捣浆糊了吧。
图书推介
上次在IFLA与曾蕾老师说起,本体研究似乎可以从哲学的角度寻找一些理论依据,虽然目前计算机科学所研究的本体已经与哲学本体离得很远。相比较而言,图书馆学在研究本体时关注更宏观、更本质的问题,而不仅是操作层面的问题,例如,我们究竟应该怎样分类事物?不同的分类思想如何共存?事物的属性能不能穷尽?人类认识世界的目的究竟是什么?认识的各种方式有没有局限?如可看待这些局限?等等。接下来才是如何使我们的知识在更大范围内(因特网)通过计算机更“自然”、更准确地交流和保存的问题。
回来后发现有一些著作已经翻译成了中文,大喜,想就其中的几本写一个书评。刚开了个头,先放在这里,提供大家一个参考。
哲学与计算机科学并非像人们所想的那样毫无瓜葛。人民大学出版社近年出了一套《当代世界哲学名著*哲学》,编选了众多距离我们很近的、当代哲学名家的著作, 其中不乏许多能够提供计算机和认知科学以理论基础的名作。虽然我们不难得到这些著作的原著,然而哲学问题的深奥已经让我们望而却步,不要说还有一层语言障 碍了。十分幸运的是,人大社组织这套丛书非常认真,选题由十二位当代国际顶尖哲学家推荐,在一百多种他们认为五十年来最有影响的著作中精选了12种,邀请国内相关领域的一流专才进行翻译,他们多为横跨大洋、学力充沛正当盛年的中青年学者,从而保证了这套丛书的质量。投放市场后效果立竿见影,多本著作已告售罄。
计算机不谛 是二十世纪人类最伟大的发明。伴随着计算机科学的兴盛和繁荣,提供该学科基础的数学和工程科学显然并不能满足人类的求知欲,为探究人类认知的奥秘,以及计 算机发展的可能性和终极目标,同时作为一种对人类社会和生活产生巨大影响的事物和学科,从哲学层面进行探讨是必然和必需的,忽视或漠视都是不正常的。延续 20世纪末学科边缘、交叉的趋势,这些探讨实际上不可能在任何传统的学科领域内展开,已有的这些探讨许多并未定论,甚至争议很大,但是却提供了全新的想法 或崭新的思路,似乎可以印证,人类的认识可能有局限,然而思想和科学是无疆界和无止境的。
目前这套丛书至少有四本与当下计算机认知领域有关(包括知识建模、描述和本体研究等):
泽农*派利夏恩(Zenon Pylyshyn)《计算与认知–认知科学的基础》
唐纳德*戴维森(Donald Davidson)《对真理与解释的探究(第二版)》
彼得*斯特劳森(Peter Strawson)《个体(论描述的形而上学)》
W.V.O.蒯因(Willard Van Orman Quine) 《语词和对象》


板儿砖向迷图君头上拍去
受邀给 迷图 的 一个帖子 扔砖头(这年头什么怪事都有,你说此君是不是欠扁?),一看帖子,不得了,要把k某明后年的饭都要吃了,整个一冤家路窄啊。
不过k某还是非常高兴的。种种迹象表明,知识组织的话题已在我们这个专业内部已经聚焦,成了热门,英雄所见,大家都觉得要变一变了。所以仅仅到迷图那里扔块砖头是肯定不过瘾的,在这里筑好炮台,架上加农炮、迫击炮、榴弹炮、高射炮,先发几个炮弹过去探探虚实,呵呵。
1.首先一个疑问是:这是一本怎样的书?为什么”信息组织与信息构建”这么大的题目在其中只占一章的内容?这本书的读者对象如何定位?是教材还是专著?近几年我们已经看到不少专业教材或专著了,但是应该说还没有看到哪一本是”颠覆性的”,当然”颠覆”谈何容易,但是知识组织的实践已经在颠覆传统了,研究的滞后是否有愧于这个时代呢?在我脑海浮现出不少外学科的颠覆性著作,而图书情报领域似乎很少(张琪玉先生的《情报检索语言》似能够算作一本,另外Modern InformationRetrieval也能算一本?)。这个话题,刚刚研究完”理论史纲”的老槐应该更有发言权。当然一本著作如果颠覆不了什么,态度能够极其认真,象于师姐写《图书馆学导论》一样,应该也是很好的。
2.一些基本概念如何界定?一本著作由多人合作,内容又有紧密的上下关联,最头疼的就是概念体系的一致性问题。知识、信息、语义,尽是些大家都非常熟悉,又都很难说出个所以然的概念,不同学科甚至不同学派都有自己的理解和定义,你是申农的信息还是麦克卢汉的信息,你是亚里士多德的知识还是德鲁克的知识,你是语言学的语义还是可计算的语义,等等,虽然作为”交叉应用”学科的图书馆学或者情报学可以采用拿来主义,也千万不能百家饭百衲衣一锅端,云里雾里,一会儿说这里一会儿说那里,以其昏昏使人昭昭,看似雄辩实则诡辩,那样我们的学科是永远不能成熟的。
3.从章节安排来看,相关内容已保罗万象,够多够全了,但似乎层次关系和逻辑联系还未安排妥贴。
a) 整个安排缺乏一个系统框架能够清晰展示每一部分在其中的位置以及相互关系。记得张琪玉先生《情报检索语言》有一个清晰的情报检索框架,包括情报检索系统的建立和查询两个可逆的过程。张晓林也比较喜欢画框架。信息组织框架实际上还是比较容易画的。
b)与框架有关的是内容安排,从信息到知识到数字仓储到信息构建,四节内容是一种怎样的关系?信息编码如果还要涉及ASCII或GB/UNICODE这一层,那么完全可以编一本手册大全或信息工作百科全书了。我们学科应该以基本的语义单元作为对象基础,而不是毫无意义的代码或数据;另一方面我们也不要奢谈”知识”,知识是依赖于受体的、见仁见智的,当然有关联的信息也可以称之为知识,不管这种关联是隐性的还是显式的,某些语境中声称我们处理”知识”也无不可,但要牢记我们是通过处理有关联的信息而处理知识的,我们处理的并不是”知识”本身,以避免陷入哲学认识论的陷阱之中。
c) 第二节至第四节有不少很成熟的学科知识积淀,也有许多刚刚窥到端倪、属于探索研究阶段的东西(可能是我孤陋寡闻),例如协同智能、知识构建等,放在展望未来的有关文字中比较合适,而作为正式的内容似乎有欠严肃。
d)对于各种分类体系和词表方法应该可以打破传统的认识框架,重新审查一番了。关于这一点我在” 回老槐的一些想法 “、” 分类、主题、元数据与知识本体 “、” Blog、Wiki、del.icio.us、flickr、TAP、FOAF…,再多又如何? “、” 关于RSS应用的断想 “等博文中有所涉及,我的看法是完全不必这样安排,完全可以按照这些方法的作用而重新归纳、总结。因为不光是taxonomy,像ontology、tag、folksonomy等新的方法层出不穷,而老的叙词法、分类法也被用在了完全不同的地方(例如后控,动态分类,相关反馈,相关聚类、排序等等)。
e)各种模型组织得很乱,许多不是一个层次或同一类东西不要放在一起。
f)信息关联方法(各种链接标准)已经成为计算机信息组织的一种基本方法,应该放到显著位置。
g)计算机对于信息系统是否有秩序还有其他的度量方法(大多是矢量、概率方法),也应该并入”信息组织方法”中去。
h)可视化展示、信息挖掘等内容甚广,可作为信息系统的利用方式(或浏览方式)简要介绍。
拍砖(或放炮)先到这里,不知道迷图君是不是已经鼻青脸肿或溃不成军了,相信能写出这样一个大纲也一定练了多年的金钟罩铁布衫功夫了,俺这点雕虫小技只配给你挠挠痒痒。望来年早日读到大作。
Trackback: http://tb.donews.net/TrackBack.aspx?PostId=645505
谈谈我们的分类主题词表
今天吃了豹子胆,想来炮轰一下我们这个专业的一个重要堡垒:分类主题词表。或者称不上堡垒,是一个Hardcore。炮轰不是目的,偶鼓吹图书情报向来不遗余力,实在因为到了这把年纪,转行已无可能,身家性命在此,哪有不维护的道理?然而要维护首先得让它立得住脚,特别是在这个风起云涌的数字网络时代,得拿得出让人服气的真东西,否则恐怕只能另起炉灶,那就困难多多啦。
看了今次”**分类主题词表”的一本培训教材,算是比较近距离了解了这个东西,补了俺离校快两个decade的课,应该说这还算个不错的东东,起码还在与时俱进:有电子版了。然而看了之后还是有一些话不吐不快,说的不对欢迎大家拍砖。也请我们专家不要生气,我是对事不对人,对于为这个东东做出贡献的所有专家,本人是由衷地敬仰和钦佩有加的。
首先不得不说的是,我们这个学科炼出的这样一套”知识”组织方法,实在是过时了。你可以说它曾经起到多大的作用,但是现在肯定没人会用这个东东了,特别是那些开发各类应用的计算机人士和各行各业的用户,你纵有一万条理由、一万种委屈,他们不会和你争论,不用你就是了。你就慢慢走向坟墓了。
实际上我们奉为圭臬的许多理论是否真是圭臬,还真有疑问呢。窃以为主要有以下问题:
1.编撰、修订的机制和方式已经不合需要了;一个标准规范的生命力在于给大家带来方便、带来价值,网络时代的技术一要简单、门槛低,二要民主、人人参与。什么叫权威?权威不是少数人关起门来说的,而是敞开门由大家在实践中评判的。由少数人把持的东西只有逼着大家说拜拜,如果你想做贡献而不得其门而入。这种东东是没有生命力的。
2.技术背景和应用环境变了,应用目的肯定有所不同,特别是对于Web环境下的信息系统,想要起到规范控制的作用,设计思路一定得跟着变。现在早已经不是靠索引”引得”文献的时代了,现在”基于内容的检索”遍地开花(全文检索实际上就是一种基于内容的文本检索),”微内容”时代已经到来,我们如果仅仅局限于用分类主题词表产生和规范索引,几十年如一日地把它当作标引辅助工具,而不能把它作为内容”导航”和自动链接的工具,毫不奇怪这么好的东东将不名一文。
3.与第一点相关的,开放开放还是开放问题。据说搞了个电子版,然而是个极其封闭的独立系统,甚至在Windows环境下只能通过”复制-粘贴”进行规范标引,这算什么?!据说如果我人工将其输入,建立XML格式(或RDF/OWL)的分类主题词表还算侵权?是不是有专家能够给我澄清一下,我如果用其中多少巴仙能够算”合理使用”?或者我修改其中多少巴仙的内容就算没有侵权?这个东东要给大家用,才能普及,不要管别人用得好不好、规范不规范,让大家随意使用、任意改造、评点,如果大家用你,你应该认为是看得起你,感到高兴才是。不要关起门来自我陶醉,门槛高高,死路一条。
4.我们的分类主题词表要适应网络时代的要求,在设计原则和技术方面可能也可以进行许多改进。传统中我们不满足于分类主题词表体系庞大难于应用,同时又难以对具体学科有专指度很高的应用,很难扩展,我们可以开发一定的工具在网上供人调用、辅助标引(就像现在的PiggyBank插件集成了本体的插件,简单点就像网摘软件支持Tag标注一样),并考虑建立一种开放的自行扩展、维护的机制,例如某些行业领域的自行扩展应该能够公示从而有利于词表的复用和重用((例如在网上公开应用模型和编码格式,开放讨论(例如可以通过在网上公开应用模型和编码格式,开放讨论等方法)。
5.包括分类法、主题法、知识本体等各类具有一定规范的知识组织体系是数字图书馆建设的重要依据和标准,特别在一些需要规范的信息系统/数字图书馆中,例如需要地名、历史纪年规范的家谱数字图书馆或地理信息应用系统、需要植物类属关系、物质命名、生物基因工程的数据库等等,甚至社会科学的研究和资料库、知识库的建立也很需要规范的主题、事件词表。而我国在这方面的成果并不是很多,应该考虑一方面利用现有成果,同时拓展领域,使我们的核心能力发扬光大。
6.现在不光要有电子版,更重要的是应该有网络版。网络版可以实现很多Web2.0的功能。应用工具也可以任由第三方开发。将有望形成一个图书馆方法复兴的局面。其实在国际上将图书馆学传统的规范控制方法应用于网络数字信息已经做得非常先进了,例如NKOS的许多努力,其中作为NKOS主力的曾蕾目前还Chair了FRSAR(主题规范记录的功能需求)(见 编目精灵博客文章 ),我们要学习的话还有现成的老师。我不知道我们是否能在这些方面作些什么。
我在”元数据方法”系列博文( 参考一 , 参考二 , 以及更多 )中也谈到过类似观点。实际上今天想要说的话还有很多,晚上还有事,就此打住,余言就写文章用吧。
Trackback: http://tb.donews.net/TrackBack.aspx?PostId=638458

