Archive for the '数图技术' Category
张甲老师报告听后有感
张甲老师11月30日上午给我们做了一个非常精彩、前沿而发人深省的报告,不写点感想对不起张老师这次的上海之行。
1、讲了元数据已经不重要,重要性让位于服务,也就是元数据将成为后勤工作。然后又介绍了服务必须要有元数据进行支持(是不是有点矛盾啊?应该套用辩证法:即…又…,就天衣无缝了),并例举了Dialog(看到其中的CA,BA都是靠复杂无比精确无比元数据发财的公司,元数据还是其核心竞争力啊),例举了动态元数据呈现(其实也是多元元数据世界的一个功劳啊)。
2、图书馆面临业务流程的必然变化,图示特别生动。但没有观照我们公共图书馆,而特别观照了学术和高校图书馆,许多变化(例如嵌入研究和教学过程的学科馆员)中外皆然,中科院和清华北大交大都在做。可是作为图书馆事业的主力——公共图书馆还得在黑暗中摸索啊(例如公共图书馆更关心总分馆制下集群系统的管理)。
3、现有的图书馆行业解决方案正在从数据为中心转向服务为中心,系统集成向企业级应用过渡(是不是我总结的:越来越消灭特殊性,倾向一般性了呢?后面的几个系统图示——data warehouse,logical architecture等似乎都很“一般性”)服务为中心的新型系统架构似乎还没有得到业界的共识而标准化,从而使解决方案/模块标准化,但似乎已经有了一定的趋同倾向。
4、普遍提供发现工具看来是共性之一。当然发现一定是基于元数据+协议的,这促成了标准规范的进一步发展,同时促成了内容提供商的合纵连横(各类工具开发商不仅要提供软件系统,同时要帮助图书馆整合资源,这里还牵扯到内容的授权,哈哈,难哪!门槛更高了。两种可能的趋向:1、将来一旦达成标准规范,这类企业的优势顿时荡然无存;2、形成寡头垄断,将来的内容提供商不得不借助于渠道服务商——也就是眼下的这些软件厂商提供服务。哪个方向,目前难说)。
5、松散耦合(decoupled)的系统整合(包括协同服务)成为趋势(其实mashup就是decoupling的一种常见形式)。特别是经历Web2.0的发展,人们普遍重视用户体验和UGC之后,用户都被养刁了!像我们这种永远关起门来成一统,并不许UGC威胁到乌纱帽的环境,是必然被别人远远地甩到中世纪去的了。
6、“容易获得书目数据库服务”似乎在说明,将来的书目数据服务必然是几家寡头垄断的了,大家都不必自己做了,只要购买服务即可。我是同意这个看法的,只是由谁垄断,是不是上游出版书商?或者OCLC之类的嗜利如命的非盈利公司?或者图书馆联合体?抑或是大型图书馆(国图上图等一般都没戏,这是机制决定了的)?可能还有有一番厮杀争夺。
7、介绍美国国会图书馆流程重组的经验颇为耐人寻味(根据学科或语言特长重新分组,打破传统以载体形态加工流程的划分模式,而已内容学科专业的模式—— vertical模式,以及在编目方面的“退缩”)。我们可能会有馆长不同意这种“重组”(例如大大增加拷贝编目人员,从而降低人员专业门槛),以及重组背后的认识。
8、数字资源在图书馆馆藏中的发展速度(比例)以及利用率尽管我们有了充分重视,还是显得增长迅猛,至少是出乎我的预料。当许多馆的数字资源占据馆藏50%以上,而利用率达到纸质资源数倍的时候,馆长们不得不重新考虑馆藏建设理论了。
9、图书馆员的责任:中介(确实,似乎一直是这样说的。张老师引用Rick Luce的话说是“Middle ware”,而我更喜欢用苏格拉底的话“middle wife”,知识的接生婆,帮助读者生产知识。
10、系统框架的变革,张老师对三个阶段的用词比较新颖:传统traditional,过渡transitional,变形transformational。目前处在过渡期,而变形期就意味着像变形金刚一样能够随需而变,这也是新的Web技术架构带来的便利:松散耦合、SaaS、云计算。。。张老师举了一些例子很有启发(有解决方案提供商的,有图书馆方面的:LoC,MIT lib),包括ELS的提法。对于变形后的系统,特别提到了目前的一些项目,如DataNet。虽然这些例子还很不系统,但是颇有启发。
11、最后张老师总结了一个图:“支持图书馆新型服务”,底层是开放的开发平台(包括开源及商用的API),上层是功能独立的图书馆技术支持框架(我的理解就是各种应用模块,可以是独立的软件系统,也可以是自己开发的小插件、小Gadget/Wedget等),而中间分为数据服务、统一资源发现(URD)工具、统一资源管理(URM)工具和读者服务功能模块。
张老师给出的一些建议我虽然不能完全苟同,但感到值得重视和讨论:
1. 避免孤军作战 (Open source -> silo development):当然没错。但张老师似乎不太赞成使用开源,以及开发独立的数据仓储。我觉得对开源可能过于谨慎和低调了,其实张老师赞赏的mashup也是一种开源啊。
2. 在商业软件的基础上构建自己的服务系统:有一个前提,是必须要有合用的商用系统,同时它又允许你做一定的二次开发(即开放大量的API和数据接口)。
3. 只制作变形技术 (transformative technologies):赞同,这也说明将来图书馆所采用的技术门槛并不高,同时图书馆自己的技术部门又不是可有可无的。
4. 系统决策基于事实 (evidence based decision):赞同。我们的许多馆长喜欢拍脑袋,可悲的是这个脑袋有没有经过“科学”的浸泡。
5. 选择注重纵向功能的开发商进行合作:还没感觉。
6. 提供实时信息服务 (deliver information just in time, need evidence):张老师说,这一点比较难。这必须是2.0(例如IM和微博客)所提供的便利吧,所以必须首先大量培养2.0的馆员。
最后张老师发表了名人名言:
图书馆系统人员需要和图书馆员,信息技术专家,信息使用人员,及数据供应商密切联系,创造性地利用信息技术和信息手段,实现图书馆的创新服务。
张老师的报告课件(pdf)在sns.libspace.org上可以下载,如感兴趣,请先点击链接进入注册(这是一个图书馆员交流的社会性网络),在系统“网盘”下可以找到。
云计算与图书馆
云里雾里,拨开云雾见青天。
图书馆相关信息技术分类
图书馆自古以来实际上只干三件事情:收集信息,整理信息和传递信息。
这里的信息你可以看成是书本、期刊、报纸等载体,也可以抽象出所传递内容:作为知识,信息、数据等等,传递载体的目的一般都是传递内容,而为了传递内容经常不得不传递载体。(当然有时候传递的载体就是信息)。古之大家一般都胡子眉毛一把抓,但是通常而言只懂载体不懂内容的都成不了大家。
记载(书写)方式决定交流方式,交流方式决定文明程度,文明程度决定人的思考能力,人的思考能力决定整个社会的形态。
与载体相关的信息技术,是图书馆碰到的最古老、最直接的信息技术。从泥版文书、纸莎草经卷、羊皮卷,到竹帛书简,到电火磁光。不要以为古代刀刻斧凿火灼烟熏就没有信息技术。那些祭司巫婆掌握的是当时最尖端的信息技术。图书馆总是与每个时代最先进的信息技术结合在一起。图书馆历来都是当时最先进信息技术生产力的代表。哲学家、思想家、百科全书学派、翰林大学士、国子监…都是围绕图书馆而产生,他们同时又都是当时最顶尖的信息技术专家。
收集信息,可以是购买,可以是巧取豪夺(包括战争掠夺或者抄家),或者到造纸厂拦截垃圾,数字时代一般是OA、租用,或者干脆自己数字化。
图书馆学专业本来有一门很高深的课:collection development,馆藏发展,或称资源建设。由于图书馆四大职能之首就是“保存”,因此对一些大馆来说“集圣贤之言传于千秋”成为仪式般神圣之事。馆藏建设能够造就一馆的灵魂,常常成为某些馆长魂牵梦萦毕生的负担。因此许多图书馆曾经都有一个独立的部门(可能是独立于采编部门的馆藏发展部或者馆藏研究部)单独执行这些职能:决定采办方向,征集特藏,访求捐赎,确定增停,执行剔旧等。
然而现在大家都不讲collection development了。责怪现在的馆长不懂这个显然不太和谐。数字信息呈指数级攀登,馆藏发展谁能说出个道道来?因此可以推论:非不为也,实不能也。现在有多少馆长知道自己有多 少家底,馆藏的保有量是多少?学科保障率是多少?满足率能达到多少?无他,全是一笔糊涂账。
整理信息,本来就是图书馆的技术活(technical service)和核心能力,从MARC到“元数据”,从AACR2到RDA,从分类法、主题表到标签、本体,更多的缩写词更是层出不穷,KOS,FRBR,FRSAR,FRAD,…以及…云!
涉及到数字资源如何组织?ILS与ERM(数字资源管理),特色资源数 字化及典藏,学科资源导航,随书光盘,最头疼的就是所有这些的整合(直接与很多服务协议有关),对这些,计算机科学迟迟不肯给个说法,图书馆专家只好瞪眼,ILS的Intergrated早已名存实亡。
传播信息,也就是服务,现在强调“无所不在的服务”,“服务就在你的指尖”,更是涉及到几乎所有的计算机技术。名词本身就够时髦:你不是服务吗?那么SOA就一定适合——面向服务的架构!Web2.0也一定是其中主力,其它还有诸如OpenURL,SRU/SRW,SOA,OAI-PMH/ORE,REST,Linked Data,语义技术,Web服务,甚至RFID、信息共享空间、电子书、PrintOnDemond、Living Library,图书ATM,手机图书馆,等等。信息技术大箩筐,什么需要什么装。这个部分,可能要单独整理。
言而总之,这个分类给出一个信息技术在图书馆应用的大致框架,以方便说事。
明天去给人布道,“技术救图”画卷就此展开,哈哈。

二维码应用一例
二维码本身并没有什么,但是作为一种机器可读的信息标识,它是连接虚拟世界和真实世界的一扇大门,由此可以玩出很多花样,不可小觑。
上海图书馆将于7月14日至27日举行”寻根稽谱”家谱精品展,将首次采用这一新技术,给参观者带来一种全新的体验。届时,展出的60件家谱精品每一件都有一个二维标识码,参观者可以利用几乎任何一款拍照手机,读取这个码,手机上可以立刻显示该展品的相关信息,并通过链接,定位到专门为这次展览建立的家谱网站,浏览丰富的内容。如果需要,展品的图片、介绍等内容可以立即发送到您指定的邮箱。如果您的手机支持3G,还可以点击链接直接收听该展品的语音介绍,甚至观看展会的录像宣传片。
这项应用原理并不复杂,但综合了好几项技术。包括,手机二维码识别,触发短信和Wap服务,手机上网浏览,3G流媒体播放等,在应用过程中可能会碰到手机型号多用户体验好坏不一,识别软件下载安装复杂,上网及3G应用需要支付费用等问题,研发人员已经做好充分准备,将进行仔细调试、预演。上海移动公司也为此次试验配备了精干的保障队伍。如果此次应用获得成功,上图计划在未来的”手机图书馆”中全面采用二维码技术,特别可能在明年世博会前推出另一项二维码应用系统,结合馆藏,展示上海城市面貌。
有关二维码应用的体验和介绍,参见 这里。
开放云计算宣言
(译者按:曾几何时,图林多慷慨激昂之士,为生民立命,为天地立心。余浸淫日久,染其恶疾,一见宣言就呆立不动。粗略翻译如下)
原文参见此处:http://www.opencloudmanifesto.org
导言
关于“云计算”的喧嚣已日臻白热。有人认为这种趋势将摧枯拉朽,代表了互联网进化的新阶段;也有人则认为这是典型的炒作,它只不过使用了由来已久的计算技术,换汤不换药。正如IT世界的任何新生事物一样,我们必须彻底权衡利弊得失,才能三思而后行。
有一点是清楚的:整个业界必须展开客观、直接的对话,方能明确这个新的计算范式将如何影响组织机构的运行,如何与现有技术整合,以及存在怎样的潜在陷阱,导致技术锁定或选择局限。
本宣言旨在启动一项对话,汇集正在兴起的云计算社区(包括云用户和云供应商),制定一套核心原则。我们认为,该核心原则根植于一个信念,即云计算应该与其它所有IT技术一样开放。
本宣言无意于定义一套终极的云计算分类体系,或者制定什么标准规范,也不打算详述云计算的架构和设计。而是旨在为所有打算利用云计算的首席信息官、政府、 IT用户和商界领袖等提供指南,并为云提供商建立一套核心原则。云计算目前仍处于襁褓之中,依旧稚嫩好学、勤于实践。因此目前正逢其时,日渐成型的云计算社区的成员们应当秉承开放云的理念,共襄盛举。
什么是云计算,它为什么重要?
为了理解开放云计算的核心原则,我们必须首先对一些有关云计算的基本概念取得一致意见。首先,什么是”云” ?“云”这个术语其实正好恰如其分地表达了云计算的架构和内涵(即“云里雾里”。——译者注)。云计算是许多技术,如网格计算、公用计算、SOA和Web 2.0等等,发展到高级阶段的大杂烩,要给“云”下一个精确的定义往往引起激烈的辩论。
虽然对云进行定义、分类和架构是很有意义的事情,但理解云计算的价值则显得更为重要。我们要知道云技术的供应商为什么会走到一起,共同来实现“云”对我们的承诺。
云的最大特点是其扩展能力,以及动态高效地提供计算能力,并使消费者(最终用户,组织或IT人员)无需掌握复杂的底层管理技术而充分享用这种计算能力。云结构本身可以是私人的(在一个组织机构的防火墙内)或者公共的(托管在互联网上) 。这些特点具有以下核心价值:
按需扩展
所有组织都需要处理环境的变化。云计算解决方案能够方便地扩展和收缩规模是其最大的优点。如果一个组织在一段时间内,其计算资源的需求远远高于或低于正常值,云技术(包括公共的或者私人的)都能够处理这些变化。该组织根据资源的实际使用情况支付费用,没有必要根据人为的最高峰值请求资源从而造成浪费。
精简数据中心
任何规模的组织对数据中心都有相当的投资。这包括购买维护硬件软件、提供安装硬件的设施、以及聘用人员维持数据中心的运行等。一个组织可以通过采用云技术而简化其数据中心,或干脆利用公共的云存储服务。
改善业务流程
云提供的基础设施能够改善业务流程。一个组织和它的供应商和合作伙伴可以共享云中的数据和应用程序,让每个人都专注于业务,而不是承载业务的基础设施。
初始成本最小化
对于刚刚起步的公司、新兴行业的机构组织,或者大机构中的”臭鼬工厂“,云计算能够大大降低启动费用。新的组织建立伊始,其所需的基础设施就已经到位,不论是私有云或公共云,云提供商都花费了相当的时间和资源用于建设一个数据中心所必须的基础工作上。
应用的挑战和障碍
虽然云提供了巨大的机会和价值,一些通常的IT需求(安全性,整合等等)仍然不可或缺。此外,由于云计算的多用户租用(多个用户的信息存在于同一台物理设备中)、数据和应用的合并、以及数据可能存在于物理的数据中心之外,还会导致一些新的问题。这里主要讨论云计算必须解决的五项挑战,否则将影响其实现承诺。
安全
许多机构组织都对其无法控制的数据存储和应用系统非常不放心。将自己的工作内容置于一个共享的架构中增加了潜在的未经授权访问和泄露的可能性。验证的一致性、身份管理、兼容性以及存取技术将变得越来越重要。为了赢得客户,云供应商必须在工作规程中提供高度透明性。
数据和应用的互操作
数据和应用程序提供标准的访问接口是很重要的。机构组织常常希望能够灵活的创建新的数据和应用,并能够互操作,而不论基础设施是谁提供(不论是公共云、企业防火墙内的私有云、传统的IT环境、还是前述几种情况的组合) 。云供应商需要支持的互操作标准,使组织可以将任何云提供商的能力纳入其解决方案。
数据和应用可移植性
如果没有标准,收回自己的系统或者更换云服务提供商就会受限。一旦一个组织采用某个云服务商的方案建立或安置自己的系统,收回系统将是十分困难和昂贵的。
治理和管理
IT部门以传统的理念看待云计算方法,就会产生问题。云供应商必须共同努力来解决这些新的治理和管理问题,诸如共享云设施的生命周期管理、授权、支付等标准化机制等。
计量和监测
商业机构的领导倾向于将其IT系统分包给多个云供应商,并监控比较这些供应商提供的服务的性能指标。供应商必须提供一致的格式,以监测云应用和服务性能,并使其与现有的监测系统兼容。
很显然,谁能够在组织内有效地使用云计算,谁的机会就是巨大的。然而,这些机会不是没有风险和障碍。我们认为,云计算的价值能够充分发挥的唯一条件,是云提供商确保他们的云是开放的。
开放云的目标
客户希望他们使用的云服务与其它的IT方案一样开放。要使一个开放的云成为现实,企业领导人必须牢记以下几点:
选择
作为一个组织,选择一个供应商,或一个架构,或一种应用模式,开放的云将他们更容易在商业环境变化时选择不同的供应商或架构。如果该组织由于新的合作伙伴、并购、客户的要求或政府规章,而需要改变其供应商,这将使他们很容易这样做。如果该组织部署的是私人云,当他们扩展规模或扩充功能时,他们还可以选择其它供应商。这样,用于迁移的资源可以转而用于组织的创新。
灵活性
无论组织采用的是哪一个云供应商或哪一种架构,开放的云将他们更容易与其他群体协作,即使这些群体选择不同的供应商和架构。一个开放的云会更容易在不同的供应商之间进行互操作。
速度和敏捷性
云计算的一个重要价值是软硬件需求的按需扩展能力。使用开放的接口允许组织机构建立新的解决方案,整合公共云、私有云和现有的IT系统。当组织机构的条件发生改变时,一个开放的云能够让组织机构得到迅速和灵活地适应。
技能
开放云的副作用是缺乏技术熟练的专业人员。如果有很多特殊的编程模型,IT专业人士是不太乐意去钻研他们的。而开放的云,所需学习的新技术一般较少(特别是现有的技术已经在使用的情况下) ,这样就大大增加了找到具有必要技能专业人员的机会。
开放云的原则
当然,许多不同的云将会继续存在的,提供其与众不同的价值。我们无意为每一个云计算的功能制定单独的标准,成就一个一统天下的云环境。随着云计算的成熟,有几个关键的原则必须得到遵循,以确保云是开放的,并满足可选择性、灵活性和敏捷性的需求(以下6点的翻译采用网络统发稿):
- 1.云计算供应商必须通力合作,确保能通过公开合作和适当采用标准来解决采用云计算所面临的挑战(安全性、集成、可移植性、互操作性、治理/管理、度量/监控)。
- 2.云计算供应商不得利用其市场地位把用户锁定在自己特定的平台内、限制用户选择云计算供应商。
- 3.云计算供应商必须尽可能采用已有标准。IT业已经在现有标准和标准组织上进行了大量投资;没必要重复或重新制定已有标准。
- 4.需要制定新标准时(或需要修改现有标准时),我们必须审慎、务实,以免制定过多的标准。我们必须要确保标准能促进创新,而不是抑制创新。
- 5.社区围绕云计算所做出的任何努力都应该由用户的需求驱动,而不仅仅是云计算供应商的技术需求,而且这些结果都应该用真实的用户需求加以测试或验证。
- 6.云计算标准组织、倡导者团体和社区都应该互相合作、互相协调,确保各项成果不会冲突或重叠。
结论
本宣言旨在开展对话,并非界定。许多细节(例如分类表,定义和应用情境)可以随着云计算社区的壮大而不断完善。
我们概述了组织机构利用云计算技术所面临的挑战。这些问题导致了IT业就建立一个开放的云,呼吁采取一致的行动。作为业界同仁,我们必须共同努力,以确保云仍然是与其它所有的IT技术一样开放。有人可能会认为,现在讨论诸如标准、互操作性、集成性和可移植性还为时过早。虽然这是一个云计算社区充满创新的时代,这些创新应该遵循本宣言所倡导的开放原则。我们认为,目前创建开放的云,正逢其时。