OverDrive发布2012电子书借阅数据
上周美国最大的图书馆电子书服务供应商Overdrive发布了2012年电子书流通情况数据,主要数据如下:
- 向2.2万家图书馆提供服务;
- 总访问次数1.92亿,比2011年增长93%;
- 27亿页次的目录访问,比上年增长65%;
- 电子书比上年新增30万种,总量超100万(包括电子书、有声读物、声像资料等);
- 移动访问数量增加47%;
- 阅读客户端1600万次下载;
- 年度总借阅数7000万册次。
商务智能与数据科学
现在数据科学(Data Science)很热,很多搞BI(商业智能)的很愤愤:不就是我们搞的那套吗?人还是那些人,问题还是那些问题,工具还是那些工具,算法也没多大的创新或提高,的确,BI对数据的分析已形成了一套非常科学的流程和方法,现在除了数据更多一些,可以在“大数据”的基础上做之外,还有什么不同呢?
当然,大数据技术还是有所不同的。它的分布式计算能力、对半结构化和非结构化数据的支持以及几乎能支持实时分析的海量数据吞吐能力,过去基于关系型数据库的数据仓库是无法同日而语的。
但这并不是关键问题。据我的分析,从商业智能到数据科学,最关键的飞跃还是从“术”到“道”的飞跃。商业智能弄得再复杂,都是技术层面的东西,再复杂再科学,也就是形成了一整套操作流程和方法而已,你可以看看,OLAP/OLTP、数据清洗、多维分析、数据挖掘、抽取/切片/切块/转换/装载/建模/报表/输出/可视化等等,都是技术层面的事情。而数据科学是要寻求一般性的规律,与具体的学科领域、应用问题甚至方法架构都无关。
最重要的,数据科学是要“使所用的方法所得出的结果确定地可重复”,并且有边界(超出了适应边界就不成立,即可被证伪,关键是找出明确的边界)。这是科学性的本质要求,而作为传统的BI,每个案例都是给特定的客户做的,它只要求用一堆给定的数据找到一定的关联,得到特定的结果即可,而且一旦知道了某些规律,下次再得出相同的结果反而是没有价值的。
关于未来数字出版生态的九个猜想
2、机构和个人藏书可以下载,可以打印,可以制作礼品书,可以无缝跨越所有终端,满足包括赵老师等非常需要的“收藏”、“炫耀”在内的各类需求。
3、什么人看什么书,你看的书决定你和你的朋友圈子,决定了你喜欢听什么音乐、喝什么咖啡、买什么品牌的衣服,甚至交什么朋友…图书馆比你更懂你。
4、书不仅是用来看的,也是用来听的,甚至是用来玩的;不仅是用来消遣的、学习的,也是用来社交的。
5、写书的人可以通过各种方式获得报酬,除了传统的广告、按字收费之外,还可以以服务收费,如物物或劳务、交换、打赏、月票、折扣券等形式。
6、平台也将获益,特别是具有创新服务模式的平台。前提是电信平台提供商(中移动、电信、联通)退出增值服务市场,否则不可能。
7、独立出版大行其道(那时候已经不知道什么是“独立”出版了),版权公司如鱼得水,图书馆等中介机构可分杯羹。
8、“群众智慧”成为出版的“把门人”,而编辑则成为一门越来越独特的“艺术”,人人会弄几下,但专业的受雇于高端出版。
9、专业出版(STM)领域是OA(开放存取)的天下,同行评议的社会化、质量控制的自动化与评价体系的“先组后控”(根据所遵守规范的级别定义成果的级别)成为常态。
关联数据能给企业带来什么?
今天又回答了一位网友的提问,顺便把回答贴上来,也期望有更多的人看到。星星之火,点燃更多的人。
关联数据能够对一个企业或机构带来怎样的好处呢?其实现在的企业、组织机构与图书情报单位差不多,IT用得较早较多的,都已经有了很多系统了:业务管理系统、办公自动化系统、人事系统、财务系统、销售系统、客户管理系统、库存系统、物流系统……,很多单位有了这些系统却找不到数据,每次用到数据(例如人员数据)都要重新填表,效率和一致性都成问题。
如何使这些系统协同、特别是数据得到重用,是个很大的问题。以关联数据为代表的语义技术正是在数据整合乃至业务整合方面,能够发挥巨大作用,确保已有的大量产品(对象)数据或其它数据方便有效地跨系统得到使用。用一个时髦名词,就是“基于语义的系统(数据)集成”。
很多情况下企业都是通过XML消息或其它B2B标准实现跨系统信息通信,但是当一个企业内拥有几十个系统,管理着不同的业务过程,涉及上万个实体(产品、零件、藏品…)时,正确地描述每一个产品的复杂属性和取值,取得数据的一致性不是一件容易的事情。一棵再强大的XML DOM树也无法对付高度复杂的多维链接关系。答案只有一个:用图式数据(graph)。
关联数据的价值就在此时显现出来。它向数据消费方提供一个单一的、可信的、易用的实体对象数据源。关联数据自身就是开放的API,对最终用户的好处就是:发布在网站上的信息、数据表、选单、指南、合作伙伴的信息、链接信息等,能够保持高度的一致性,特别是能够解决更新时的一致性问题。
怎么做?
根据LD的发布原则,首先确立每一个独立存在的实体对象(例如产品、供应商),赋予他们唯一的HTTP URI作为标识。在系统后台可能要支持这些对象数据原有的管理系统,例如他们是通过XML RPC接口过来,还是CSV格式,还是RDBMS的,都要转成RDF是肯定的。
RDF的一个很好的特性是合并数据非常容易,能够从不同的来源很容易地进行合并,而此时如果采用大数据解决方案,例如采用图形NoSQL数据库,则更体现了灵活性。
为这类RDF图形数据库建立查询“端点(endpoint)”是很容易的,然后我们就可以通过SPARQL标准进行查询。
这里有个工具Dydra,它是一个数据库作为一种服务(Database as a Service)的云服务。可以作为小应用“试水”,边用边学。你只需要上载你的RDF数据即可。目前此类工具已经很多了,而且很强大,例如最新的Apache Jena和OpenRDF Sesame项目成果,或者“关联数据平台(LDP)”如Graphity。它们已经能够支持非常“傻瓜”地建立关联数据系统,支持很快地建立API,存取不同来源的数据,甚至能够支持非常复杂的提问。这种基于语义的整合具有过去系统所不具有的深度(智能)查询能力,如果发展得足够快,应该能应用于下一代“图书馆服务平台LSP”中。
当一个查询命中一个产品标识(以HTTP URI形式)时,这个URL是可“解引(deferencable)”的,意味着可以支持“内容协商机制(negotiation)”,按照不同的请求提供不同的数据,浏览器(人工请求)就提供HTML,机器请求就提供XML、JSON或Turtle格式的RDF数据。Graphity采用Jave和XSLT2.0,通用性很强。
如果该企业或组织机构的数据具有一定的通用性,它愿意作为一种“规范数据”发布到公网上,在一定的开放协议下提供公共服务(如果是商业服务可以收费),这些数据的模型(本体)和描述规范(元数据规范)还能构成领域标准,将使企业或组织机构的价值得到更大的提升。