<?xml version="1.0" encoding="UTF-8"?><!-- generator="WordPress/2.8.4" -->
<rss version="0.92">
<channel>
	<title>数图研究笔记</title>
	<link>http://www.kevenlw.name</link>
	<description>When you have a hammer, everything looks like a nail.</description>
	<lastBuildDate>Thu, 11 Mar 2010 23:33:58 +0000</lastBuildDate>
	<docs>http://backend.userland.com/rss092</docs>
	<language>en</language>
	
	<item>
		<title>Jesse Thomas关于互联网的统计数据</title>
		<description>

上面视频原作参见http://vimeo.com/9641036（需翻墙，是故转存土豆）。以下翻译文字来自 http://www.20ju.com/content/V139945.htm

	互联网用户数量：17.3亿（欧洲4.18亿；非洲6700万；大洋洲约2100万；南美洲1.79亿；北美洲2.5亿；亚洲7.3亿）
	2009年总计发出的电子邮件数量：90兆封（平均每天2470亿封——但其中2000亿封是垃圾邮件，垃圾邮件的比例是81%）
	全球Email用户：14亿
	全球网站数量：2.34亿个
	全球博客数量：1.26亿个
	社交网站的女性用户数量比男性用户数量高84%
	twitter每天产生2730条推（估计现在又高了）
	艾什顿·库彻在推特上有425万个追随者（Ashton Kutcher，当时是twitter上追随人数最多的用户，现在不知道还是不是？）
	非死不可的月PV是2600亿次（每分钟600万次，或每年37.4兆次）
	MySpace的月PV是240亿次；twitter是44亿次；Linkedln是19亿次。
	非死不可有30000台服务器（还在增长）
	非死不可用户：3.5亿
	每月有25亿张图片上传到非死不可（一年300亿张）
	每月有40亿张图片上传到Flickr
	Youtube每天播放视频10亿次（美国用户每个月浏览Youtube视频的次数是122亿次，浏览Hulu
 </description>
		<link>http://www.kevenlw.name/archives/2154?utm_source=subscriber&amp;utm_medium=rss&amp;utm_campaign=rss</link>
			</item>
	<item>
		<title>TED上有图书馆啦！</title>
		<description>以下内容转自台湾林宏泰先生的博客——Library Views，原视频在Youtube上，经过我的审查，并无黄色暴力，转载到土豆上，以飨国内同行。
&#60;林先生博文&#62;
“相信很多人都看過 TED 的影片，這裡的TED指的是Technology、Entertainment、Design，不過現在TED的眾多演講範疇實已超出這三個領域了。美國 有一些圖書館員準備效法，成立一個名為 TEDx Librarians 的網站，講白了就是圖書館員版的TED:
TEDx is a program of local, self-organized events that  bring people together to share a TED-like  experience.
查看了一下 TEDx  Librarian 網站，目前一切都在草創時期，還沒有什麼內容可言，不過還是令人期待。在網站上有分享一個 TED 的影片，內容是 Jay Walker 的演說，可以看看。本站曾介紹過他那令人驚艷的個人圖書館(link)， 想必有不同於常人的一些想法。”
&#60;/林先生博文&#62;


 </description>
		<link>http://www.kevenlw.name/archives/2150?utm_source=subscriber&amp;utm_medium=rss&amp;utm_campaign=rss</link>
			</item>
	<item>
		<title>沿着张琪玉先生开创的道路奋勇前进</title>
		<description>记得当年祝希龄老师给我们上情报检索语言课，用的当然是张琪玉先生的教材。这门课给我印象最深的是：情报检索语言是一种规范的人工语言，应该与自然语言区别开来。这种思想方法在近年来元数据和本体的学习中，一直让我受益匪浅。

最近在看一些本体的东西，想借鉴一下自然语言处理领域长期以来的研究成果，看着看着发现他们走不下去的一个重要原因是忽略了自然语言与人工语言的区别（他们并不是不懂，但却一定要将两者调和，或者说从自然语言中发现可以被形式化的东西），数字图书馆领域一直在搞的本体和元数据，一直想突破基于字词匹配的全文检索而达成基于概念（知识）的检索，一直在开发适用于网络和机器处理的人工语言规则，这条道路我认为是充满希望的康庄大道。

自然语言处理（NLP）的水很深，发展了很多年，规则繁复，成果众多，还跟人工智能有不小的瓜葛，特别是汉语的自然语言处理，其典型应用是机 器翻译。前一阵还跟一位网上偶遇的朋友聊起汉外自动翻译，我认为如果不局限于领域应用，普适的翻译机是开发不出来的。但是据我知道我们有不少科研机构从七 十年代开始就钻牛角尖，浪费了无数科研经费，还在做“无畏”的努力。而领域应用，实际上已经不是单纯的自然语言处理范畴了，例如我们目前积极推进的本体 （包括KOS）、元数据的应用，其目的就在于避开自然语言的弱点，而发明、构建一套人工语言和规则，达成机器对于语义的理解。在这个机器世界里，是不存在 语种差别的，任何语言都被机器理解为符号。这个目标能不能完全实现，能不能建立一套完全形式化的机器语言规则，很好地适用于某些领域，现在还不好说，可能 还有赖于我们当前的努力。

汉语的问题，曾经让汉外翻译系统的研发结结实实地摔跟头的，主要有以下一些（汉语分词问题由于引入了语境、采用穷 尽方法等，目前已经解决得相当不错，就不说了）：
1． 汉语同一词类担任多种语法成分且无形态变化；
2．  汉语句子的构造原则与短语的构造原则基本一致；
3．   汉语中的虚词；
4． 汉语的语序；
5． 汉语的书写习惯。
自然语言的机器处理有一个基本假设可能有问 题，这个假设即“语言表达的客观性假设”，即认为语言之所以能够达成交流的目的，是因为关于语言的表达 （包括语义、语法和结构）是客观的，对于客观性的认识能够使我们采用有限的形式 语法组合规则和统计规律，来“变换”、“重构”语言的表达，因此计算机也就能够“理解”“客观的”语言。然而迄今为止的研究似乎证明，语言的客观性是无法 被彻底揭示的。或者我们只能说语言有一定的客观性，但是本质上还是主观的。其客观性表现为人与人之间达成的理解“协议”，这种协议是可以随时变化的。

近 年来由于网络的发展带来语言现象的巨大变化，各种新的“火星语”“符号语”等网络语言层出不穷，老夫子们斥责这些表达不符合汉语习惯，需要规范，但毕竟 语言是活的东西，能够进行交流沟通，就一定会影响目前的语言规范。因此自然语言处理原有的套路（通过穷尽有限的规则来达到机器可处理）越来越不合时宜，应 该从哲学方法论的角度进行大规模的梳理和反省。当然，目前计算机的能力越来越强大，结合网络的发展而形成的巨大的云计算能力，可以支持越来越复杂的穷尽算 法、规则和统计规律，汉语输入法和搜索引擎的发展似乎也印证了这一点，因此如果应用得法，在一段时间内采用传统方法应该也是能够取得一定进展的，但是这种 方法应该看不到最终的解决自然语言机读化问题的希望。

前述5个问题在规范的情报检索系统（IR，或者说数字图书馆系统，或者说应用了本体和元数据 的系统）的开发中只有第一点略有相关，其余都可以绕过。因为概念体系（本体）的架构依赖于自然语言的，基本上只到单词（概念）一级（就是说概念来自于单 词，是对自然语言的规范产生的，是人为指定的概念符号），这一级（字词处理，包括分词和词性标注等）从理论到实践已基本成熟，到更宏观的句法（语法和结构）一级IR基本上与NLP开始分道扬镳了，都是采用“人工”的机器语言（RDF/XML）了，这是自然语言处理与情报检索系统两 个领域在研究对象方面最大的不同。正因为此，在领域应用方面就能够按照比较严格的规范体系来做（至于如何做又是一个大课题，如自顶向下一般是对于新建系统 可行，自底向上进行标注则不可能完全采用人工来做，就需要进行自然语言理解、模式识别或者原有结构的转换映射等方法）。其缺点可能是不够“自然”，即如果 让人直接进行阅读，人性化程度还是要差一点（就如同编程语言由机器语言向高级语言进化，但高级语言也主 要是给机器用的，如果在进行RDF/XML编码转换时能够尽可能应采用软件工具来实现，人性化程度可以高一些）。

上面一大通罗嗦，其实是想说：本体、元数据规则等，其实是（可以看成）一套人工语言规则系统，我们现在应该学习张琪玉先生当初的做法，为网络信息资源的描述和检索，提供一套形式化或半形式化的人工（规范）语言系统（概念体系）和规则，用以规范网络信息资源的管理，建立一套新的知识组织理论（和方法论）体系。或可叫做“元数据方法”或“本体方法”。目前计算语言学研究，就是要从自然语言中发现可被形式化的规则（可以理解为这部分内容只是语言现象的一部分，不可能找到所有的规则，否则就不是“自然”语言了），并对这部分 内容进行“机读化”。从这个角度思考，人工语言应该比对于传统的纯自然语言的形式化处理更为简单，从机器翻译等领域对于语言形式化的研究成果中应该可以找 到大量丰富的养料。

例如以下“计算机语言处理模式”的抽象思考就很有启发：
1、 处理对象（输入）为有限种符号的有限长序列。其中包括如何编码、如何形式化的一整套规则。

2、处理方式（运算）为有限的程序变换。早期采用 简单模式匹配法，后来（至今）采用基于规则的处理方法，近年来流行基于语料库的统计方法。

3、处理结果（输出）为符合新规则的表达 式。
计算语言学研究对象有点像现在的网络世界，在其中寻找规律，或者规范表达（通过语法、 惯用法等），有点像营造一个语义网，只不过网络世界使得人们有了一个工具进行规范（因为有一个前提是：必须机读），而自然语言因为无法规范，才具有无限的 创造力和想象力。上帝的归上帝，凯撒的归凯撒，整个世界才能和谐有序，语言问题的处理才能找到终极方案。

———————————无聊的分 隔符：搞研究是最无聊的——————————

附：以前收集的一个有关机器翻译困境的帖子：

发信人:  chris (亦云), 信区: LanguageLogic
标  题: 机器翻译难在哪里
发信站: BBS 曙光站 (Thu  Apr  ...</description>
		<link>http://www.kevenlw.name/archives/2138?utm_source=subscriber&amp;utm_medium=rss&amp;utm_campaign=rss</link>
			</item>
	<item>
		<title>数字原住民对数字图书馆的殷切希望</title>
		<description>FaceBook上分享的一段Youtube视频，是澳洲同行的一个会议广告，很有宣传效果，由于众所周知的原因，被长城保护起来的同胞们看不到，特此转发。

 </description>
		<link>http://www.kevenlw.name/archives/2134?utm_source=subscriber&amp;utm_medium=rss&amp;utm_campaign=rss</link>
			</item>
	<item>
		<title>精彩视频：关于语义搜索</title>
		<description>什么是语义搜索？这段很久以前（08年）的视频可以告诉你。
 </description>
		<link>http://www.kevenlw.name/archives/2131?utm_source=subscriber&amp;utm_medium=rss&amp;utm_campaign=rss</link>
			</item>
	<item>
		<title>关于中国历史朝代本体的rdf描述</title>
		<description>书社会的Caveman在做一项很实用的研究，问了一个很好的问题（一般而言，回答不上来的问题都是好问题）。我在这里做一些讨论，希望抛砖引玉，批评指正。
在这里把问题归纳为：如何用RDF（及其家族）描述中国朝代的公元纪年。他的朝代与公元纪年对照表在这里：http://tinyurl.com/timeReignChinese。
直感转换方法有很多种，可以用RDF，也可以用SKOS和OWL，甚至其它，包括直接用XML自定义也可以。
编码原则应该是：能复用就复用，看看前人的成果。
而如何编码，哪种方式合用，关键还要看需求。
网络上已经有一些供人使用的转换工具了，但如果要通用性，应该基于RDF进行编码，并开发一个工具，甚至变成语义网络的一种服务，就能够直接为机器理解、获取和使用，能够被其它应用任意调用，就能体现语义技术最大的优越性了。

想到目前国内有些分类法主题词表分别都有了网络版，但那是给人看的，无法通过服务器直接获取术语和术语关系，进行匹配和关系运算，这实际上发挥不了多大的作用。只有用RDF（SKOS或OWL）编码之后，提供一定的语义Web服务（例如用关联数据方式发布），才能真正发挥词表的作用。
这里的核心需求可以整理为：
1、某个朝代有哪些年号，这些年号的起讫日期（即这个对照表：http://tinyurl.com/timeReignChinese）。
2、某个公元年号落在哪个朝代的哪个年号。
3、模糊年号（如不同朝代相同年号）和模糊日期（如起讫年精确到年还是月还是日）的处理。
4a、是否需要提供网络服务接口，实现双向转换；
4b、还是提供代码，嵌入任何应用；
4c、还是仅仅用RDF来描述这个对照表。
5、进一步的，不同朝代的国家情况（地理疆域、并行的国号等）。
就这个对照表的转换而言，可以认为只需满足1、2和4c即可。

简单的解决方案可以这样：
定义朝代（dynasty）类和年号（reign）子类，都属于event类，复用event本体（http://motools.sourceforge.net/event/event.html）和timeline本体（http://motools.sourceforge.net/timeline/timeline.html）中的元素，建立“朝代－年号”和“年号－公元纪年（date interval类型）”的rdf描述即可。
将来可以扩展（复用）event的其它属性，例如皇帝，都城，等等。 </description>
		<link>http://www.kevenlw.name/archives/2122?utm_source=subscriber&amp;utm_medium=rss&amp;utm_campaign=rss</link>
			</item>
	<item>
		<title>DC-2010征文通知</title>
		<description>DC-2010征文通知
“庆祝都柏林核心元数据诞生15周年：让元数据工作得更努力些吧！”

2010 都柏林核心元数据应用国际会议（2010年10月20日-22日）暨ASIS&#38;T年会（10月24日-27日）
美国 宾夕法尼亚州 匹兹堡
重要日期：

	论文、报告或挂图（Poster）提交：2010年4月2日
	录用通知：2010年5月14日
	定稿提交：2010年6月11日

2010年是都柏林核心元数据提出的第15个年头，DC-2010大会将联袂召开第十届ASIS&#38;T年会。为了更好地总结DC元数据的过去，并展望未来，届时将与往年一样，探讨元数据应用于资源发现的理论和实践问题，并交流新的进展，交换“让元数据工作得更努力”的心得。不仅如此，会议还将回顾近年来元数据领域的最新成果：以“DCMI抽象模型”、已趋完善的“应用纲要”概念和初步成型的“描述集纲要”规 范这三者为代表，标志了元数据对于满足人类信息需求的作用正走向一个转折点。但是现实是不完美的，我们还需要从别人的经验中更多地分享和学习。DC- 2010将总结现状，并着眼未来，进一步拓宽研究和应用的领域，使元数据能够更努力地为满足人类的信息需求而自动地工作。

除了大会的主题外，我们还欢迎就以下元数据专题进行投稿（包括论文，报告和挂图）：

	 元数据制定原则，指南和最佳实践
	 元数据质量、规范化、改进和映射
	 概念模型和框架（例如RDF、DCAM、OAIS）
	 元数据应用纲要
	 跨领域、语言、时间、结构、规模之间的元数据互操作
	 跨领域元数据的应用（例如记录留存、永久保存、保管(curation)、机构库、出版）
	 领域元数据（例如企业、文化记忆机构、教育、政府及科研领域等）
	 作为语义万维网词汇的书目标准（例如RDA、FRBR、主题词表）
	 可获得性元数据
	 科学数据、e-Science和网格应用方面的元数据
	 社会化标注和元数据构建中的用户参与
	 知识组织系统例（如本体、分类法、规范档、大众分类法、叙词表）和SKOS（简单知识组织体系）
	 本体的设计和开发
	 元数据和本体的整合
	 元数据生成（方法、工具和实践）
	 搜索引擎和元数据
	 语义万维网元数据及应用
	 词汇表注册及注册服务

提交：
论文，报告或者挂图的投稿可通过DCMI同行评议系统提交，网址为：http://dcpapers.dublincore.org/index.php/pubs/。网页设有会议注册及论文提交流程指南（可点击“Information for Authors”链接），以及论文、项目报告或挂图/演示的作者指南。DC-2010的所有投稿都将由大会的国际学术委员会进行专家评审。所有稿件都必须 用英文撰写。被录用的稿件将正式发表于电子版的会议录。若无特殊安排，被录用的论文、项目报告和挂图应该至少由其中一位作者在匹兹堡会议上宣读。

为了稿件能够顺利接收与出版，所有的投稿者需提供自己的基本资料，包括目前的专业职务和联系方式等。
论文（8-10页）
论文既可以详细描述创新性的工作，也可以对前述的一些领域性重要进展或者最佳实践进行介绍评议。论文评判标准如下：

	 实现方法的创新性
	 所做贡献的质量
	 呈现结果的重要性
	 表达的明确性

项目报告（4-5页）

项目报告应该简明扼要地介绍一个特定的模型、应用或者活动。项目报告的评判标准如下：

	 技术描述的精确性和完整性
	 对其他潜在用户技术指导的可用性
	 表达的明确性

挂图及演示（1-2页）

挂图是关于正在进行中的项目或课题研究的展示，或者已完成项目、课题研究的最新结果的展示。挂图建议应当包括一个长为一到两页的摘要。挂图的评判标准如下：

	 精确陈述研究项目的目标和里程碑事件
	 研究课题或者项目的重要性
	 陈述主要的难点和进一步的研究
	 陈述结果和取得的主要成果
	 表达的明确性

被录用的挂图将会发表在会议论文集并在会议现场展示。除非另有安排，录用的挂图必须至少由一位作者在匹兹堡会议上宣读，并收录到论文集中，并可以进行4-10分钟的视频展示（上传至YouTube中）。会议将会为参会者和作者之间的沟通提供便利。
大会筹备委员会主席：

	Stuart A. Sutton，美国华盛顿大学信息学院，sasutton@uw.edu

学术委员会共同主席：

	Diane I. Hillmann，美国雪城大学信息学院，metadata.maven@gmail.com
	Michael Lauruhn，美国Taxonomy Strategies公司，mlauruhn@taxonomystrategies.com

工作小组委员会主席：

	Liddy Nevile，澳大利亚拉筹伯大学，liddy@sunriseresearch.org

培训委员会主席：

	Marcia Zeng，美国肯特州立大学，mzeng@kent.edu
 </description>
		<link>http://www.kevenlw.name/archives/2119?utm_source=subscriber&amp;utm_medium=rss&amp;utm_campaign=rss</link>
			</item>
	<item>
		<title>SKOS不是KOS，Linked Data不是Data</title>
		<description>有些缩略语不能只看其表面用词，还需了解具体内容。有两个手边的例子：

	SKOS（Simple Knowledge Organization System）与NKOS（Networked Knowledge Organization System）长得很像，但他们全然不是一个东西。前者是用以编码KOS的一套基于RDF的扩展模式（RDF Schema），似乎称之为Simple Knowledge Organization Schema更确切些。而后者是指各类知识组织体系（分类法、叙词表等）在网络上的形态，可以用SKOS来编码NKOS。因此SKOS实际上不是知识组织 体系，只是一种编码方式而已。
	关联数据Linked Data是发布RDF数据的一种简捷开放高效的方法（机制），是语义Web的一种实现，可以看成是Web上发布数据的一种标准的API（对于HTTP进行进一步的规定和扩展），而不是一种特殊的数据。
 </description>
		<link>http://www.kevenlw.name/archives/2124?utm_source=subscriber&amp;utm_medium=rss&amp;utm_campaign=rss</link>
			</item>
	<item>
		<title>互操作层次</title>
		<description>

图片来自http://en.wikipedia.org/wiki/Levels_of_conceptual_interoperability

简单说明：

	第0层：没有（不考虑）互操作性（封闭如C/S系统）
	第1层：技术互操作，可利用至少一种协议，能够在一个平台上使其它系统获得比特或字节信息。
	第2层：语法互操作，支持进行一定格式的数据交换。
	第3层：语义互操作，在数据交换的基础上，依靠共有互通的解释机制，达到语义的交换和共享（互操作）。语义Web就提供了一套协议机制，支持整个Web范围内的语义交换与共享。
	第4层：程序互操作，支持协同语境。在语义理解的基础上，共同实现一定的功能。
	第5层：动态互操作，系统的变化和迁移被记录和控制，变化不影响数据的交换和功能的实现。
	第6层：概念互操作，具有一定智能的系统，不同系统间的互操作能够自动地实现。
 </description>
		<link>http://www.kevenlw.name/archives/2127?utm_source=subscriber&amp;utm_medium=rss&amp;utm_campaign=rss</link>
			</item>
	<item>
		<title>几个概念：开放数据，关联数据，语义Web和Web3.0</title>
		<description>针对童鞋们经常提问，以及本人根据网络资源和自己的理解整理如下：

开放数据（Open Data）：
在网络上可以公开得到的数据，没有任何控制访问的措施（无需登录，否则只能是免费数据或其它名称）。
为了促进开放数据应用，模仿“创作共用”协议，好事者也提出了“开放数据共用协议”。
开放元数据是其中的一类。
项目举例：

	data.gov（美国）
	Open Data Network（德国）
	making public data public（英国）

关联数据（Linked Data）：
一种数据访问（整合）技术，基本上都是以RDF方式表达，对于Http协议进行少量扩展（规定）而成。低成本，高可用性，整合简单。
开放链接数据（Linked Open Data）是关联数据的一项运动。

	美国纽约时报项目，目前已经上载了5000个人物的主题表目，可以按照cc by协议开放使用。
	Linked Data Research Center
	GoodRelations：关于产品、价格和企业数据的规范词表
	oeGOV：应用于政府信息管理的本体词表

Web3.0：
Web2.0的热衷者或者搅局者提出的一个概念，作为下一代Web的一种趋势探讨，有人说就是语义Web，有人在语义Web基础上添加了P2P、各类无线应用甚至云计算等内容。

语义Web：
现有Web之上的、以数据资源为基本组成单位的Web，这些资源（数据）都标注有元数据描述，从而能够进行语义查询，以及数据整合，提供了互联网上实现语义互操作的技术平台。关联数据可以理解为语义Web的一种实现。
Web of Data是其另一别称。 </description>
		<link>http://www.kevenlw.name/archives/2114?utm_source=subscriber&amp;utm_medium=rss&amp;utm_campaign=rss</link>
			</item>
</channel>
</rss>
