Archive for the '数图技术' Category
图书馆上空的第一朵云
4月23日,我在跟网友探讨本体和云计算时,被追问“图书馆界是否已经有云的应用”时,搜肠刮肚,一无所获。其时正好有一朵云刚刚发布,石破天惊,平地惊雷。
虽然新闻稿中并未用到“云计算”一词,而是用了“Web Scale”(“云”过于文学腔,定义过多,含义不清)。我在4月27日“OCLC进攻地球”博文中也未渲染“云计算”概念,而是仅仅从OCLC崭新的商务模式出发,探讨了给整个行业带来的影响。当时我还不确知,它到底是云还是雾。(编目精灵在这一天的博文中就直接点题:OCLC的云计算图书馆自动化系统)。
直到这朵云的制造者、“幕后黑手”Andrew Pace走到前台现身说法,才验明正身:OCLC已正式跨入“云计算”服务提供商的行列,只不过是专门领域中专业应用的云服务商。Andrew的用词是“cloud based services”。这一回,OCLC使图书馆行业又一次成为IT应用的先驱,证明了图书馆在IT应用方面,从来就敢为人先、不曾落后!
这朵云使得OCLC有了图书馆界Google一般的地位。然而,图书馆界只能有一朵云吗?图书馆上空的云,只能以这种形态出现吗?其它类型的云服务,例如提供平台的PaaS,提供基础架构(计算能力)的IaaS,提供软件或数据的SaaS,以及XaaS,又为图书馆带来什么呢?其它图书馆ILS及各类应用的提供商们,会不会转向云服务?或者干脆被OCLC这朵肥硕的乌云给灭了?图书馆通常是云服务的承受者,那么读者呢?图书馆不能作为云服务的提供者出现吗?这两者有什么不同涅?风起云涌,将给我们这个行业的业务模式和形态,带来怎样的变化呢?
上面这些问题我将在《图书馆需要一朵怎样的云?》中进行讨论和阐述。这里特别鸣谢本文的助产师、贵国阅读疗法的创始人和奠基者、著名医师包租公博士(该先生何时客串走穴产科,涉及个人隐私,不便透露)。
关于“云”的迷思(Myth)
最近有个东西,你越想把它搞清楚,它似乎就越不清楚。
这个东西就是“云”。
其实它也并不复杂,只是有人想“云里雾里”,以便“浑水摸鱼”。就像之前的Web2.0、3.0,大家都自说自话、各取所需,于是一片繁荣,商家正好藉此渔利。
受Cloud Myths Dispelled一文的启发,探讨几个问题(注意:以下的解答绝不是翻译)。
1、我早就在利用大型数据中心的集群系统,并可以进行数据操作资源调度和利用的可视化呈现,这不就是云吗?
不是。云不圄于计算机集群,而且通常是跨集群、在广域网范围内、基于Web服务的。当然,云也是有边界的,作为一个新生事物,云和云之间的互操作是一个日益显现的大问题,目前还没有很好的解决方案,还没有为大家都认可的技术标准,主要通过API来达成。
可视化也并非云的必备特征,且云的可视化和操作系统的可视化不是一个层面的东西,后者更为底层,前者(云)可以由一个跨越不同操作系统的中间层次进行,基于服务质量协议提供,因此云的操作必须进行用户认证。当然未来的数据中心可以提供基于云服务的可视化,这是数据中心应用了云技术的结果,应该另当别论。
2、云计算是不是网格的另一种称呼?或者自然发展?
目前一般认为,虽然网格和云计算都属于分布式计算,都是为了让IT资源能够对用户透明地得到最充分的使用,但这两者还是有很大区别的,而且似乎并不能说后者是前者的“自然发展”,因为从技术路线上来说,云计算是出现Web服务之后的自然发展,而网格在Web服务技术成熟之前就已经发生分叉了。
从使用和部署方式上来看,网格强调共享,每个加入网格的节点都同时是资源的贡献者和使用者,而云强调资源和服务的提供,使用者可以是任何人,而提供者通常只是经营专有云设施的一家公司(至少目前大多数情况下都是如此)。
下表是云计算与网格的比较
| 网格 | 云计算 | |
| 资源分配 | 网格操作系统负责 有排队等待情况 |
虚拟调度按需分配 |
| 目标 | 专用,明确(因而 有各类专用网格) |
通用,提供设施 |
| 调度过程 | 复杂,不透明 | SaaS,PaaS |
| 规模 | 有限 | 很大 |
| 资源使用 | 少部分占用 | 均衡分配 |
| 支持用户 | 数量有限,关系对等 | 数量巨大,提供商 与用户分离 |
| 互操作 | 可以跨网 但质量控制不确定 |
目前只在API层次 |
3、云能够提供无限的扩展?
虽然从理论上有这种可能,但是在目前来看这基本上是给人的一种错觉。云还是一个新生事物,由于业界大佬的普遍支持,变得声势浩大,但尚有很多问题没有解决。云对于用户的支持基本上是“按需分配资源”的,这也就是说,当资源请求的数量接近“云”所具备能力的极限时,服务质量必然会下降。这就取决于云的规模,以及是不是能够“借用”其它的云资源了。将来随着云技术的成熟,云成为提供分布式计算的主要方式。这时除了无所不在的公共云之外,基于安全或其他考虑,私人云(Private cloud)也会密布天空无所不在,其资源一定有富于、空置现象存在。如何在一定条件下互相借用、共享资源,肯定是一个能够得到重视,并获得最终解决的问题。
4、按使用收费是云服务的基本收费模式?
看一看目前中国移动、联通、电信等名目繁多的套餐就知道了,按照时间、流量、次数…及其各种组合的收费方式,貌似公平,却是向大众收费的利润最大化方式,而对于专业、深度服务,以增值比例来收费(俗称按服务的“价值”收费)似乎也成了你情我愿的普遍规则。总之,只有一种收费方式是不可能的,怕只怕短视的盈利模式,把用户吓跑了不说,把自己也饿死。
当然这个领域也符合一般规律:技术进步总能带来生产率的提高,在一个充分竞争的环境下,消费者最终还是能享受到技术进步所带来的好处的。不论怎么说,这是人们的美好愿望。
一个可资借鉴的本体应用项目:STERNA
几个月前,曾蕾老师介绍了一个项目:STERNA。仔细看了下,这的确是目前可以参考的、实用的、同时又是最先进的、本体应用于数字图书馆的项目。
STERNA是Semantic Web-Based Thematic European Reference Network Application的简称。该项目有一个官方的介绍性ppt,像贵国的学者或官员一样,采用“拆字法”把这个名称解释为:
• Semantic(语义): 采用最新的(state-of-the-art)语义万维网技术
• Thematic(主题): 以某一个特定的主题为驱动,目前该项目的主题是“鸟”(BIRDS)
• European (欧洲)
• 多/跨语言的内容/ 功能
• Reference structures(参考结构,实际上是指内容架构/知识结构)
• 参考结构的具体内容包括:词表word lists, 词典glossaries, 分类表taxonomy, 叙词表thesauri 等。
• Network(网络): 独立、自治的机构共同协作,进行内容创建、链接和共享。
• Application(应用): 符合SaaS理念的Web应用(现在应该高耸入“云”了)。
其末尾的RNA又意味这该项目是一个“发端”(origin),对于各类其它的“主题”资源,具有引导和示范作用。
这好像也是一个欧洲数字图书馆(EDL)的项目,得到EDL Foundation的资助。项目执行期限是2008-2010(30个月),目前还在进行中,其“语义原型系统”也要到今年年底才能完成,但目前发布的一些文档已足以吸引同行的眼球了。
我 的感觉,其采用的语义架构最大的好处在于“动态”的知识组织和扩展,这就使其具有了更强的“可持续发展”的能力,不像传统的数字图书馆,建成之日就是封闭 之时,很难有大的内容扩展,或者与其它资源进行融合(mashup),因此可以说其方法论意义远大于资源的意义。当然作为一个知识架构和聚合器,未来人文 与自然结合的、高质量、富语义的鸟类资源,也应该是毫不逊色的亮点。
超酷的BI应用
夺人眼球(stunning cool)!!
注意:不仅仅是因为采用了微软的Surface终端。
感谢ttnn的分享。
“网上世博”应该可以做成这个样子,“上海记忆”也可以。
这个后头除了有非常先进的技术之外,数据以及对数据的处理(关联)也是非常关键的。
ORE1.0版正式发布
Image via Wikipedia
借用Leon的说法,由拉狗子(Carl Lagoze)与松佩儿(Herbert Van de Sompel)两位大牛主导的OAI-ORE规范已经在10月17日发布了其第一个正式版:1.0版(怎么才1.0啊?现在好像2.0版才是正版)。这是图林人民乃至整个网络民众的一件大事。
按照 Andy的意思,这个规范绝不仅仅是把OAI的关注对象从“收割”向“复合对象”转移,而是根本的从一种”面向服务的架构“向”以资源为中心“的思想方法的转移(试想可能又应该有不少似懂非懂的文章出台了吧?他们好像刚刚强调过要从”数据为中心“转向”以服务为中心“呢!该不会有考据派来告诉我”此service非彼service“吧?一群大猩猩!),与时下SW界linked data的运动如出一辙。有了标准开放的数据格式的描述模型,各类协议就自然有了标准化的基础,数据对象基于内容的互操作就能够在更广泛的Web上达成。整个OA领域久旱逢甘霖,那些唧唧歪歪的METS、集合元数据以及各类打包规范,应该可以基于ORE而一统天下了吧?但愿这不再仅仅是一个美好愿望而已。
ORE的复合数字对象模型可以看成是数字图书馆Kahn-Wilensky模型的扩展,K/W模型定义了handle、元数据和对象数据,Warwick框架规定了K/W结构可以进行灵活的嵌套、链接,但是并没有规定怎么做,OAI-PMH只不过从宏观层面提出一个收割协议,颇为无奈地在既无资源的语义和结构规范、又无获取协议的情况下率先给具体应用指出一个应用架构。而DCMI走的又是纯语义描述的路径,其对于实现上的漠视几乎让人(如平台江之流)感到背信弃义恩断义绝,比较相关的是其DC CD AP。基于Z39.50改造而来的SRU/SRW一直不怎么景气,SOAP/REST距离太远,Cool URI以及Linked Data又太新,实际上所有的协议离开复杂资源对象的描述标准都将一筹莫展。直到……ORE出台。
目前可以看到ORE给出了一个统一的数据模型,以及通过ATOM、RDF/XML、RDFa等打包聚合,并通过HTTP实现获取的基本规定。在应用中怎么用?还需要大家积极探索才是。这里是OAI-ORE官方的邮件列表,有兴趣可以加入讨论。
Andy说ORE的0.9版到现在的1.0版有以下三方面的修订,贴在这里供参考。
- a substantial revision to the conventions for representing Resource Maps in Atom (as mentioned previously);
- some adjustments to the recommendations for using HTTP to serve Resource Maps, in order to try to align the ORE-recommended “patterns” with (a subset of) the patterns recommended in the W3C document, Cool URIs for the Semantic Web;
- a revision of the Primer
ORE的内容是极为丰富,影响是极为深远的。如果各位有这方面的研究心得,别忘了投稿过来,偶给你开开后门啊!

![Reblog this post [with Zemanta]](http://img.zemanta.com/reblog_e.png?x-id=b8c75b1a-569b-41b7-a7a3-89e6bb135e03)