Categories
中文

接下来的计划 2010-4-22

我这个人有一个毛病就是非要一件事情完全干完之后才有心情开始下一件事情。但是在很多的时候这个都是不现实的。如向老师或者师兄师姐发送邮件询问申请的事情通常要等好几天才能够收到回复,在这中间有很多时间可以用来干别的事情,如果只是干等着的话就太浪费了。
通常定一个好的计划有助于实现多任务同时处理。下面是我接下来的计划:
时间:四月底到六月底
任务:签证: 
               预约时间
               填写DS-160
               准备其他材料
               面签
        毕业设计:
               C++复习 (分散进行)
               Tcl学习 (分散进行)
               熟悉NS (5月之前):自己完成一个使用现有构件的仿真程序。
               NS P2P仿真工具包的搭建 (现在–五月中旬以前)。
               Zeta协议的设计与调整   (现在–五月底)
               Zeta协议仿真工具包的搭建 (六月十号以前。)
               写毕业论文

其他安排:
每日9:00起床,不午休,晚上10:20回寝室,0:30休息。早上到实验室之后办签证的事情。下午做毕业设计。晚上九点之后处理和发送邮件。
周一和周五晚上去健身房锻炼。
周三和周六早上上选修课。

Categories
中文

学习经验总结

   学习经验总结

要有明确的目标

目标的重要性

    凡是预则立,不预则废。设定合理的目标就是“预”的一部分。合理的目标在一个人的学习乃至人生中都是非常的重要的。
  
 首先,一个清晰的目标可以提高学习者的抗挫折能力。在学习和生活中不可能一帆风顺。许多人遇到了困难不知所措,或者就此沉沦。但是一个有了清晰目标的人
能够在困难中寻找机遇,化阻力为动力。打个比方来说,学习就像在充满急流险滩的大海中航行,清晰的目标就像是一座灯塔,有了这个灯塔的指引,航行的旅途就
会充满了希望,航行者也更加容易坚持到最后。
  
 同时拥有一个清晰的目标可以帮助自己集中精力。小的时候听过一个故事,有个人非常的酷爱读书,不论什么样的书都不加甄别的阅读。虽然他最后读了几万本
书,但是每个领域他都是只是略懂,最终一事无成。人的精力是有限的,只有把有限的精力相对集中在一定的领域内,你才可能取得突出的成就。所以,一个清晰的
目标可以帮助你判断一件事情是否应当做。就拿我自己为例来说明,我的人生目标是成为一个具有影响力的科技工作者。这个目标要求我具有:出色的专业技能,优
秀的演讲能力,较好的涵养和健康的体格。我在大学里面每做一件事情之前,我都会思考这样一件事情能不能使我离我的目标更近。参加数模使我专业能力得到提
高,在基地的演讲锻炼了我的演说能力,选修各种音乐方面的选修课提高了我的个人修为,参加锻炼也使我更少生病。但是我不会去沉溺于游戏和虚拟世界之中,因
为它对我的专业技能,演讲能力,涵养,体格都没有帮助。

如何合理的设立目标

大目标

    千万不要直接询问我你的目标应当是什么?
每个人的情况都不一样,比如我自己希望成为一个有影响力的科技工作者,但是这个目标也有可能就不适合你。所以目标一定要自己根据自己的情况去设定。俗话
说:“人各有志”,如果一个社会上面的人的目标都是一模一样的,那是相当的恐怖的。
   
不过虽然每个人的目标都不相同,但是设定目标还是有法可依,有章可循的。人生需要有大的目标和小的目标。大的目标就是通常所说的人生目标。有大目标者大
成,有小目标者小成,无目标者不成。一个好的人生目标不仅可以帮助你变得更强,还可以使你的人生更加的快乐。一个合理的人生目标通常具有以下的特征。
    第一,符合自己的兴趣。
    第二,是对自己的发展有益的。
    第三,高尚的,对社会有益的。
    第四,具有一定的实现性的。
    第五,相对稳定的。
  
 举我自己为例,我的人生目标是做有影响力的科技工作者。我本身对做应用型的研究挺感兴趣的,此外,科技工作者是一个具有高收入,高社会美誉度的职业。我
自己在为这个目标奋斗的过程中也能为社会创造财富。只要努力学习,大多数同学都能够实现成为一个有影响力的科技工作者。我的这个目标是在高三的时候确定
的,大学四年虽然有些调整,但是基本上都没有太大的改变。

小目标

   
另外,只有空洞的人生目标是决然不行的。在每一个阶段都需要有自己的小的目标。小目标首先要和自己的人生目标是相协调的。并且小目标通常是非常具体的,比
如对于初高中的学生来讲,“考试考到第一名”
就是一个典型的小目标。此外,一个合理的小目标都是具有非常强的操作性的,经过努力大多可以实现的,就是俗话说的
“跳一跳,够得着”。而且小目标的时效性也比较的强,通常一个小目标必须在数个月内可以完成。如果小目标设定的时间太长,往往出现开始的时候偷懒,而到后
面又完成不了的情况。
   
我在这里列一下自己大学期间的小目标:大一下:GRE考高分。大二下:数模竞赛全国赛。大三上:学习钢琴。大三上暑假:美国赛。大三下:考托福,开发网络
仿真平台,微软小学者。大四上:实验室研究,申请。这些目标里面有些实现了,有些实现的不是很好,但是总的来讲,在不断的追求目标的过程中的,我一直在不
停的进步。
   
这里要值得提醒的时候,有的时候不要被自己设定的目标所约束。比如,你确定了GRE考高分这个目标,就每天想着这个问题,这样自己的压力会很大,而且反而
会妨碍你的复习。你只要确保这个目标是和自己的人生目标项符合的,而自己的人生目标又是自己喜欢的,那么就全身心的投入到复习之中吧,最后的结果一定不会
差的。

要掌握合理的学习方法:

    这个章节主要是一些技巧性的东西,掌握这些技巧,可以使你的学习事半功倍。但是在开始这个章节之前,我需要强调一点的就是:
虽然前面的章节多少有点空洞,大部分同学都不太爱看,并且有没有明确的目标在短期内看不出效果,但是他仍然是非常重要的。本章的一些技巧可以在一定程度上
面提高你们在学习上的表现,但是是治标不治本的。我的建议是,先确立好目标,再去看技巧性的东西。

学习的技巧

随时记录。

   
随时记录是非常的重要的。好记性不如烂笔头,大部分的时候知识不会像教科书上那样分条列点的,而是及其分散的。在任何时间,任何场合,你都有可能发现有用
的知识,这个时候赶紧记录下来,以免待会忘记了。我经常会携带一个小本子。看到什么重要的东西,或者有什么新的点子就会记下来。比如我路上看到什么成语有
疑问,就会记下来。看英文书的时候,如果看到一个单词很有意思,我也会在本子上面写下来。这样日积月累,也还相对比较可观。

及时整理。

    我在高中的时候,每周六晚上的时候都会整理这一周学到的东西。随时记录的东西有的时候会比较杂,自己也比较凌乱,不方便复习。到了周六的时候我就会买四张白纸–语文,数学,英语,理综各一张。然后将这一周的东西整理以下,分科目的抄录在这些纸上面。

    其他的整理还包括自己的错题本呀,文章摘录等等。但是记住至少每周整理一回。

经常复习。

   
如果自己整理好了资料不看的话就白弄了。所以资料整理完了之后记得经常性的复习。我那个时候就经常复习我整理的白纸,错题本和笔记本。我的建议是,整理的
资料的第二天复习一遍,第四天复习一遍,第八天复习一遍,第十六天复习一遍,一个月后复习一篇。每次时间间隔翻倍。这样会比较符合艾宾浩斯遗忘曲线。

语文和英语:
   
这些都是我比较拿手的语言型的课程。对于这样的课程,语感是非常重要的,如何培养语感?我觉得最终要的是多读。以语文为例,你可以分析常考那种类型的文
章,然后在网上下载类似的文章(带评论的),大量阅读之后再做阅读题就会比较有感觉了。另外,多读一些范文,语文的写作能力也会大大的提高。
    英语因为并非我们的母语,所以学习起来要困难得多。英语能力通常分为听说读写四种。我觉得,他们的优先级应当为
读>写>听>说。首先要培养英文的快速阅读能力,这样你就可以在较短时间里面获得大量的英语的信息,有助于培养语感,如果是用听来培养
语感的话,速度会相对要慢一些。你可以买一些英文的小说(不要英中对照的)和英文的报纸,每天坚持看,让你一天至少有两个小时完全沉浸在英文的阅读环境
中。过三四个月之后,你的英文阅读能力就会大大提高了。读完了之后,就要进行大量的写作训练,可以每周写英文的周记,写的时候注意文笔的优美性,注意模仿
自己看过的文章。写完之后可以给别人改,找不到别人改的话可以放一段时间之后自己再改。尽量使每一篇文章都能比较优美。过一段时间之后你的写作能力就会大
大提高了。
   
接下来就是创造英文的听说环境了。如果你的读写能力都比较强了的话,听说实际上不是太大的问题的,主要就是缺乏听说的环境。因为中国英语听说的大环境不
好,不过你可以创造自己的小环境。平时走路的时候都可以带着MP3听一下英文的,另外如果看到了老外,千万不要放过,一定要上去搭讪,能说多久说多久。平
时无聊的时候,可以自己为自己准备一个topic,进行演讲,可以让同学过来听你讲,然后对你的发音和语调进行评论。没人的时候也可以用英语自言自语一
下,千万不要觉得不好意思。只有胆子大的人才能够说好英语的。

数学:
我的数学一直一般,我就不评论了。

物理,化学,生物。
  
 这些课程重在理解,里面有很多原理都很有意思的。你们可以尝试通过时间顺序来理解这些理论的发明。比如牛顿三大定理的提出的背景。他是站在哪些巨人的肩
膀上提出了自己的观点的。对于惯性这个现象,伽利略是怎样的观点,牛顿提出了怎样的新的观点。化学里面,关于燃烧这个现象科学家们的观点是如何发生变化
的。开始的燃素说是怎么被否定的?燃烧是一种化学反应的观点是什么时候,由谁提出来的?
尝试深入下去,将会非常有意思的。生物里面关于生物进化理论的演变的情况。拉马克的用进废退理论是什么时候提出来的,是什么现象让拉马克有这个感觉的?达
尔文如何重新解释了这些现象,提出了物竞天择的理论? 门德尔怎么发现了基因的?
沃森和克里克又是如何发现了DNA的结构的。围绕着这一个话题,你就可以串起很多的知识。
    在理解的基础上进行记忆,然后辅助的做一些题目,这些课程都可以学的非常的好。我已经有四年没有碰过这些课程了,但是现在仍然记得非常的清楚。

历史,地理
   
文科的课程总是需要很多的记忆,但是如果你能够让这几门课更加的有趣的话,记忆起来效果会好得多。如历史,你可以去听一听《百家讲坛》,听完之后你就会对
历史很感兴趣的。对于近代史,有条件的话你可以去参观以下博物馆。地理的话可以买一幅中国地图,世界地图贴在家里,也可以用百度地图,谷歌地图等地图服
务。比如说这次青海地震了,你可以在地图上搜索一下玉树具体在哪个地方,青海附近的地形是怎样的?
是什么原因导致了青海这次的地震。有没有好的路径可以对玉树进行有效的救援。通过这样的学习,你既可以增加自己的地理知识,又可以为玉树的同胞尽一份力。
   
另外,在具体记忆的时候,还有一些技巧。你可以通过年表的方式对历史进行记忆。从1840年开始,几乎每一年都有重大事件发生,将事件和对应的年份一起记
忆,效果会好很多。同时你也可以关注当年世界上发生了什么样的事件,这样世界史也学会了。
你还可以总结一下英法俄德日美对中国各有什么不平等条约,分国别记这些不平等条约也会加快记忆的速度。

政治:
   
政治这门课没什么用处。不过考试的时候还是得考好。通常政治课本上面都是分条列点的,你可以用笔将这些点画出来,然后只背这些简介。其他的枝叶部分可以到
考场上面临场发挥。中国的政治阅卷都是按点踩分,所以只要把要点答对就可以了,引申的部分并不是特别的重要的。另外一点就是多写了不扣分。所以尽可能的将
卷子写满。 不要留白。

Categories
中文

关于学习

     从大三下开始,我就几乎再也没上过学校的必修课了。虽说新东方上课是出了名的没信息量,但是至少还蛮有趣的。但是我们的绝大部分必修课既没有信息量又没有趣味性。浪费老师自己的时间不说,更是浪费我们的时间。此外,必修课是硬性规定的,蛮多课我都毫无兴趣,完全是被强迫上的,效果可想而知了。当然也不能把必修课一棍子打死,在必修课中,也有蛮不错的课程,如喻之斌老师的C语言,汤燕斌老师的数分,文颢老师的数字图像处理,中国文化概论(忘了哪个老师上的呢)。不过这些优秀的课程只是凤毛麟角。
   相比之下,人文选修课中确不乏精品。如洪明老师的《当代世界政治与经济》,姜丹老师的《钢琴初级班》《钢琴高级班》,南利华老师的《声乐入门》《中外音乐欣赏》。还有《逻辑与幽默》等。我一般是选很多选修课,如果觉得哪门讲得不好,就干脆不去上了。所以我基本上保持着每个学期都挂一门选修课的记录。
   现在经常有人过来找我咨询,有些师弟师妹们可能会觉得我回答他们的问题的时候不太热情。这并非我有意为之,我只是真的不知道该如何回答而已。比如有的同学要学英语就问我有什么秘诀能让他们的GRE考到1400以上,想要参加数模就问我如何能拿到一等奖,想要出国就问我如何才能申请到top50,想要做研究就问我如何能够发表顶级paper。 我只能说,我做这些事情的时候实在是没精力考虑这个问题。我只是喜欢做然后就去做,如此而已。做这些事情已经耗去了我全部的精力,我实在没办法去考虑结果会是怎样。而事实上,我的很多结果都不太好。如数模我没拿过一等奖;做研究我也没有发过很有影响的论文; 我的选修课选了很多,但是核心学分不够,差点不能毕业;我的加权平均分一直都不算很高;
   但是我觉得,这个对我来说不算那么重要。因为做数模的时候,做研究的时候,我很开心,这种开心是很持久的。比如数模一年半,我每天都会想自得其乐的用数学来描绘我周围的事物。比如做研究,我每天也过的很充实和愉快(前提是自己主动的去做的情况下,这两天导师强迫我做的一些研究还是让我挺不愉快的)。但是结果只能给你短暂的快乐,快乐过了之后就是麻木,空虚,寂寞。 看看独孤求败吧,他的悲剧就是永远把自己的快乐建立在战胜别人的这个结果上,成了天下第一又怎么样,还不是孤独的死去。
   为什么总是要把自己的眼睛放在结果上呢?为什么总是要看自己是不是做的比别人好呢?尝试换一种视角的话,生活会更快乐一点。我听过一个故事:说是许多学生从小的成绩都是第一名,读研之后不比成绩了,他们就比发论文,出国之后比不了成绩和论文了,他们就比信用分数。我觉得一个人如果把自己的人生都寄托在这种量化值上面,是不是有点太悲哀了。
   找好自己的所爱,把握自己的方向,快快乐乐的去做自己喜欢的事情,我想结果也应该不会太差的,人生也会更加的生机盎然。

Categories
中文

烦恼

        毕业设计真是做得令人烦恼。毕设的题目是完成类似avalanche的系统。而avalanche是微软剑桥研究院花了好几年才完成的研究成果。作为一个本科生,要完成微软剑桥研究院的三位研究员完成的类似工作,难度可想而知。 已经弄了快一个月了,一点头绪都没有,不免有些烦躁起来。
        记得原来申请正忙的时候每天要填两三个网申,看四五篇论文,发几十封邮件。那个时候的 愿望就是赶快拿到offer,定下来之后能够毫无顾虑的玩。但是真正定下来之后生活却没有丝毫的变化,仍然是寝室,食堂,实验室的三点一线。恍然发现我失去了娱乐的能力,一停止工作,就会感到莫名的空虚。

         有的时候感觉自己非常像负重的蜗牛,在行走的过程中总是会不停的向自己的身上增加负担,直到有一天再也无力承受。我总是会将自己的日程表排到半年之后,总是不肯马虎一点的混完任何一件事情,总是不愿遗漏任何一个可能的经历。回想自己的大学,GT, 数模,项目,论文,学钢琴,申请出国,考研,恋爱,几乎所有可能的经历我都经历过了。这些经历增长了我的人生阅历,使我更加的成熟,但是我也觉得好累。我追求完美的性格也加剧了这一点。我习惯于在办事情的时候把所有的细节都掌控在手中。而且我坚信所以,有的时候,可能一个小时的努力就基本可以完成的事情,我总是要付出十个小时的努力来确保万无一失。
          什么时候都有两面,因为这样的性格,我能够断的前进,也正是因为这样的性格,我很难真正放松下来好好的休息。希望自己以后能够找到一个平衡点吧。

Categories
中文

谷歌出走二三论

投资人:
    说实话,谷歌这样做对投资人是极端不负责任的。谷歌是一家公司,而公司就是需要为投资人负责的。投资人投资谷歌是因为谷歌能给他们带来收益,但是现在谷歌的行为为他们带来的不是收益,而是道义。 对于指望着手上的股票换来面包的投资人来说,道义毫无用处。
    所以十年之前,如果我有钱,我绝不向金山投资,因为那时候的金山明知民族软件的大旗扛不住还要硬扛。今天如果我有钱也绝不会向谷歌投资(至少不做长期投 资),因为今天谷歌会退出中国市场,明天就可能退出伊朗市场,中东市场,非洲市场—-谷歌的管理层正在意气风发的用别人的财富购买自己的名誉。钱放在 这样的管理者手里无法使我放心。
    如果你的朋友未经你的同意,而且还是以他的名义将你的钱全部捐给希望工程了。你还会和他做朋友吗?对于投资人来说,谷歌退出中国和这是一个性质的。
对中国互联网市场的影响:
    李彦宏在05年的时候说过这样一句话:“几年之后搜索引擎将是百度一家独大”。 自从谷歌闹着要退出中国之后,李彦宏的预言似乎正在一步步的变成现实。 但是真是这样吗?依我看来。中国互联网搜索的份额不会发生大的改变。谷歌退出中国后仍将是中国第二大的搜索引擎,而且仍将占有相当份额。为什么? 这是因为至少到目前为止,谷歌仍然是不可替代的。
    第一: 这个世界仍然是英语为中心的。世界上绝大部分信息仍然是用英语表述的。百度从一开始就定位为中文搜索引擎,专注于中文既是它快速赢得市场的原因,也是他如 今裹足不前的原因。相当一部分文化程度较高的中国人需要使用搜索引擎来检索英文信息,但是遗憾的是百度办不到。一线搜索引擎是如此,那些二线搜索引擎就更 难办到了(至少目前为止)。
    第二:google.cn仅仅占谷歌在中国获得流量的一小部分。大部分人还是喜欢使用google.com。比如我,google.cn退出了中国其实 对我影响不太大,因为我就没怎么上过这个网。除非政府将google.com完全屏蔽(这不太可能),google.com在中国的流量不会明显减少
    第三:谷歌和百度其实是两家很不一样的公司。百度更像一个网络公司,但是谷歌更像一家软件公司。谷歌的声名鹊起和它的一系列杀手锏应用时分不开的,如gmail, 谷歌地球。这些应用,还没有一个本土化公司能够提供。
    既然谷歌的份额不会明显降低,那么这次退出对谷歌有什么影响吗? 其实影响是很严重的。最主要的就是失去了中国广告主的信任。谁会愿意在一个随时会被政府屏蔽的网站上投放广告?虽说广告和销售团队仍在,但是被暮气笼罩的 谷歌中国广告业务会快速萎缩是难以避免的。开个玩笑,中国人民从此用上了真正免费的谷歌了, 百度的团队也做上了 “搜索用谷歌,交钱到百度” 的无本生意。
李开复:
    我觉得感到最遗憾的应当是李开复。当初李开复来到google创立谷歌中国,是付出了极大的牺牲的。微软的诉讼几乎让他名誉扫地,但是当时他不后悔,因 为他相信谷歌中国将是他毕生追求的事业。可惜李开复做出这个选择的时候太理想化了,他完全没有预料到中国政府的古板和谷歌总部的固执。两边各不相让,吃亏 的只有他这个“打工仔”。
    现在看来,他离开谷歌后结束了自己的职业经理人生涯是不难理解的。职业经理人的尴尬就是没有total control,这种情况在跨国公司尤其严重。国际互联网公司沉戟中国大多因为这个原因。李开复转行创业之后也提到他希望拥有Total Control。 而巧合的是,在01年的采访里面,他的老对手李彦宏就已经句句不离total control了。
    蒙牛,国美,阿里,腾讯,华为,各行各业的企业龙头哪一个不是由极端强势的创始人一手抚养长大?没有谷歌中国的完全控制力,李开复如何强势得起来,他又 如何实现谷歌中国从无到有的历史使命呢?谷歌中国的失败其实早已注定。开复先生不幸搭错了船,愿他的创新工场以后能够办得顺利。
(本文在谷歌文档上写作完成)
Categories
中文

I have decided to go to Singapore

I’ve sent an email to Prof. Junsong Yong from NTU to express my willingness to further my study in Singapore, despite the fact that I may receive an offer from Boston University.
It is quite hard to make a right decision in the right time.  But at least in this time, I believe my decision is right.
The main reason why I want to to to NTU is that Prof. Junsong Yuan is the only professor with whom I have contacted and whose research interest is Data Mining and Multimedia Analysis.
Although Boston University is a quite good university and Yannis is a nice professor. His research interest in optimization in wireless sensor network. After 5 year’s study in BU, I can only become a faculty.
However, What I want to do 10 years later is to go to industry and to bring huge influence to the world. Although Prof. Yuan is only an assistant professor in NTU, studying with him brings me to the right road.
In some other blogs, I have stated that the next wave of technological revolution comes from Data Mining. Computers (Or Internet in some sense) should be more intelligent to process the information in the web, including text, image, and video information. Person who has paid attention to this field will benefit much from the wave.
Since I am a newcomer to this field,  I need to spend more efforts and study without interference. I think NTU is suitable place which can keep me calm.

(Note: I changed my idea half a month later and eventually decided to go to Boston University. )

Categories
中文

百度十周年所想 & 人计算

这两天生病了,于是停下了手中的工作和申请的事情。闲下来时候重新看了看百度十年来相关的资料。这些阅读加深我的一个观念:成功人士都是“偏执”狂。这种“偏执”其实就是对于信念的坚定。李彦宏从上大学开始就没有离开过搜索。在大学里面他就认识到了“人人都需要信息,人人都需要搜索”,这种预见能力是令人叹服的。

但更令我佩服的是他的“偏执”:在他毕业申请出国的时候应该知道转专业一定会影响到了他的申请,但他毅然从图书馆管理专业 转到计算机专业;在他布法罗念书的时候一定渴望顺利完成博士学位,成为一个令人尊敬的研究人员,至今他提到自己学位只是硕士时仍略带遗憾, 但他毅然转硕进入工业界;在他成为搜信的高级工程师的时候应该知道创业成功的人只是百万分之一,回国就可能一无所有,但他毅然放弃了国外的车子、房子、老婆独自回国。

如果他今天没有成功,他一定会被人嘲笑为“傻人”。李现在的名气大多因为他的样貌,财富和地位,这也是许多人所歆羡的。但当初做他做这些选择的不易估计也是常人难以体会和忍受的。

以前我认为,一个人的力量决定于他知识的多少,现在我更加倾向于,一个人的力量决定于他内心是否强大。这个世界上聪明的人很多,但是真正内心强大的人却不多。李彦宏就是这样一个人。他肯定算不上是最优秀的,他读书的时候一直都很少拿第一名。但是昔日的那些比他聪明的学生早已消失在茫茫人海之中,籍籍无名,而李彦宏却凭着自己内心对于搜索的坚定实现了他的人生信念:“让每个中国人都能够更加方便的获取信息”。

*************

闲话扯完,进入正题。百度去年提出了框计算,相较于谷歌的云计算,框计算更加贴近于市场,贴近于用户。如果说过去十年里,百度成功的实现了让人们能够更加“方便”的获取信息。未来李彦宏希望能让人们更加“舒服”的获取信息。框计算就是这个指导思想下的产物。

在我的理解里,框计算有前台和后台之分。前台分析用户需求,后台匹配海量数据。这些技术都不新鲜,每年各大实验室也有N多相关论文问世。所以李彦宏认为基于这样的思路的下一代搜索引擎将成为主流也是在情理之中的。

我同意在未来搜索引擎需要让人们更加舒服的获取信息。但是框计算或许难于成为下一代搜索引擎的主流。原因主要在于框计算的前台和后台的各项技术都是由机器还完成的,缺乏人的参与。

在人工智能完善之前,机器计算出来的结果是人感到完全满意是几乎不可能的事情。做过模糊聚类和评价的人都知道。在现今的理论框架下,几乎不存在一种模型在什么情况下都能够达到100%的分类准确率,不可能存在一种评价体系式式每个评价都合情合理。人心太复杂,现在对人的任何建模都不过式一种简单的抽象,是难于用于实际了。这种情况在最近的将来不会得到明显的改善。这些技术依赖于人工智能的发展,而人工智能的发展又依赖于生物学的发展。

我一直找不到一个合适的词汇来描述我对未来技术的预见。后来看到CMU提出的人计算(human computing),我觉得还是比较符合我的构想的。我相信,在不远的将来,人计算或者具有与之类似原理的计算将会广泛应用到各大搜索引擎的后台,慢慢积累而形成质变。当然,也有可能异军突起一个基于此的IT领袖,像当年的微软、雅虎和谷歌一样。结果如何,大家拭目以待吧。

转一篇关于人计算的小文:

——————————————————————————

转载自(http://blog.sina.com.cn/s/blog_5e718bc90100g6ei.html

人计算-Human Computing

最近一直在思考关于social computing 的方面问题,并想把它作为10年后的研究方向和重点,恰巧老板发来一片science上的文章《reCAPTCHA: Human-Based Character Recognition via Web Security Measures》,深感云计算太远,人计算开来更实际。简单介绍一下。

路易斯.凡.安(Luis Von Ahn),卡耐基梅隆(CMU)的研究者,28岁那年,获得麦克阿瑟(MacArthur)天才奖金,或许大家并不熟悉,但他的发明机会所有的网站所有的网民都要引用得到。2000年还是学生的他在导师的指导下,发明了验证码(CAPTCHA)使用机制,就是我们在网站登录时,需要添加的校验码。当初的发明初衷,是防止密码被盗用或者反垃圾邮件(anti-spamming),这项技术发明后短短五年内,每天就有2亿个检验码在被使用,十年之后的今天,几乎所有的网站都采用这个技术来校验用户身份,保证信息安全。

然而Luis Von Ahn并没有在安全认证领域止步,一方面将校验码的模式与程序公布在自己的网站上,供更多的网站使用,另外,Luis进一步拓展这个发明背后的实际上是一门新的学科,叫做“Human Computation”或者“Human-based Computation”。有人称之为“人本计算”或者“人计算”。即利用网络的分众性和协同性,可以轻易完成很多计算机不可能完成的事情。这门学科正是研究如何把人的这个优势发挥出来,与计算机互动,达到一个最佳结果。当所有的人都在思考如果是计算机替代人的时候,Luis Von Ahn却在想利用互联网,利用社会化的协同工作模式,实现计算机根本不可能完成的事情,以达成群体智能的效果。这就是《科学》上的另一个伟大实现,reCaptchas,与检验码身份验证如出一辙,却是另外一番天地的创造性应用。

《纽约时报》创刊与1851年,158年的历史,作为传统传媒业的需求是简单的,就是想把所有的报纸电子化,对于电子化出版之后的工作相对简单,但过往故纸堆上的文字就显得十分困难,传统OCR的技术不能实现百分之百的准确,如果如果人工录入的方式,整个工作耗时耗力不说,一个字一个字的打印录入,校对,短期内基本上是不可完成的任务。Luis Von Ahn的校验码2005年已经得到了广泛的使用,两者之间有什么联系吗?Luis给出的解决方案,当时互联网上每天有2亿个校验码被使用,虽然每个用户在录入校验码的时候只需要10秒钟,但如果把这些时间全部利用起来,就是20亿秒,相当于50多万个小时。Luis Von Ahn把这些事件利用起来,实现不可想象的伟大实践。现在看来,方法很简单,把扫描的《纽约时报》通过简单的分词形成,然后入库编码,作为校验码的素材提供给用户,用户每一次填注校验码的过程就是对文字的一次录入,通过众多用户的协同,当所有的人都对一个图片给出相同的单词结果时,这个结果就是正确的。无数的用户输入的内容整合链接起来,就是一个完整的数字化的《纽约时报》。

Luis Von Ahn的脚步依然没有停止,通过reCaptchas,他利用人的群体智慧和集体计算的模式,做了很多开创性的事情。他最常用的实现模式就是利用SNS的互动游戏的模式,来实现传统模式识别与计算科学中。他的主要应用成果在www.gwap.com上可以体验获得(Game With A Purpose)。

基于内容的图像识别与搜索中,样本的标注是一个很繁琐的问题,为了让计算机内识别图片里的内容,必须要用到许多标注好的图像样本来训练识别核,传统的方式只能通过人工进行大量的手工标准。2006年,Luis推出了一个著名的游戏,叫ESP Game。这一游戏的玩法其实很简单:进入游戏,网站会给你随机配一个伙伴,两人同时看一张图,让你在两分钟内给图片写出关键词,如天空、鸟、足球、奔跑等等。如果你们两人写的关键词一样,就可以得分。通过积分的方式激发用户参与的积极性,网站每天公布得分最高的游戏者,Luis通知这种方式收集的关键字超过了5000万。这个发明已经被谷歌所采用,在谷歌推出的产品Google Image Labeler中,使用的方式就是通过游戏互动的方式来实现图像标注,之后用户谷歌的图片检索引擎。人们在游戏中,已经为科学与商业过程做出来贡献。

Luis一招鲜,吃遍天,他又将这种思想用到了歌曲识别的样本标注上。一首歌曲,听到的人可以在上面进行标注,如“摇滚”“迈克尔杰克逊”“颤栗”……这样进行音乐搜索的时候,标注的人越多,搜索识别结果越精确。之后的游戏还有用于计算机视觉的Squigl(涂鸦)的游戏,还有用于收集语言网语料的Verbosity(唠叨)的游戏。Luis在他的研究中总结了三种常见的GWAP方式:

Output-agreement games.
Inversion-problem games.
Input-agreement games.

这三种方式,都是通过互动游戏的方式,利用协同计算或者人本计算的模式,解决了计算机不可能准确实现的问题。Luis Von Ahn利用人擅长做而计算机不擅长的能力,并通过游戏把这方面的资源尽可能开发收集起来,服务与科学过程。

当我们都在考虑云计算的时候,基于人的互动协同计算其实离我们很近,每天的校验码的登录填注,百度知道与维基网的点击阅读……我们可能都在不知不觉中,贡献了自己的力量。

附:

对我们的启示:

1、              自由的、不受束缚的思想更容易产生创新的智慧。看似废话,如果Luis Von Ahn接受了老师的安排,只停留在校验码的安全机制研究上,就不可能产生今天的人本计算(Human Computation)。如果瓦茨(小世界理论的发现者)只是授意与导师,研究昆虫共鸣的理论,没有与人类社会对应,就不会有今天的小世界模型。

2、              科学需要开放的胸怀,互联网的本质就是回归人原始本性的共享与开放。Luis Von Ahn将校验码的研究成果与源码在自己的网站上与人共享,也是今天所有的网站都在使用校验码模式的原因。倘若当初,Luis Von Ahn通过专利控制这项技术的扩散与使用,估计今天他也就是一篇学术论文而已。

3、              科研与实践需要持续积累。Luis Von Ahn在2000年开始做检验码方面的研究与实践,并在之后提出Human Computation的概念。之后的9年里,他将这种思想与理论应用到了极致,从文本识别,图像内容识别,语音识别,语义网等传统模式识别与机器学习领域,都有他的尝试。实践积累非一日之功,虽然没有复杂的公式推导与理论,但利用互联网的大量实践工作也同样证明了协同计算与演进式学习的有效性。

4、              结合中国的实践还有哪些应用。中国是人口大国,拥有最多的互联网用户与手机上网用户,这些人口资源与上网资源如何有效的利用与收集起来,服务科学上的突破,将会是中国学者需要深入思考和探讨的。比如淘宝网上将会有世界上最大的商品图片库与用户商品标注信息,这些信息将用于商品搜索;维基网与百度知道上有最全面的常识与词语解释,这个将成为语义网学习的语料,而这个语料是通过协同工作的方式,保证了语料的准确性和有效性。抛砖引玉,从事机器学习、模式识别、数据挖掘、web搜索的学者可以沿着这条思路,看看还有哪些需要人与机器互动来实现的过程。

2010-03-03 09:54

Categories
中文

My Schedule in the Next 3 Months

My tasks in the near future are as follows:

1. Finish a a paper before the deadline of GlobeCom is Mar. 15

2. Contact with professors of NCSU, trying to get an offer.

3. Read Some papers of Boston University. make a phone call to him

4. Finish my graduation thesis.

Categories
中文

互联网:钱从哪里来?

Conan Wang

hbhzwj@gmail.com

wangjingpage.wordpress.com

Division of Systems Engineering

Boston University

每一个系统都必须有足够的流入资金来支撑。每一个从事互联网的人都在努力挣钱,那么钱归根结底是从哪里来?

互联网是免费的经济学。广告是互联网中资本流动的媒介。如果将整个互联网生态系统比喻成为一个图的话,节点就是各个互联网企业,边就是广告关系。

资金进入这个系统目前主要有两种途径,第一传统企业在互联网投放广告,第二消费者在进行网上购物的时候支付的费用。这正好对应于互联网最基本的两大业务,在线广告,电子商务。在线广告已经趋向成熟,电子商务正在快速发展。

多大的饼决定了多大的行业规模。美国的网络广告花费刚刚超过了报纸的广告花费,达到了258亿美元。网络广告这个饼最大能有多大,我们可以从现有电视广告花费估算得到.大概美国一年在广告上的花费是1200亿美元。Not small, but not big as well. 假设最后在线广告能到站到所有推广的半壁江山,整个美国市场也只有600亿美金大概齐。放眼全球,整个市场也不会超过三千亿美元。而现在美国互联网广告三大巨头google, facebook, yahoo的营收之和接近四百亿美金。其中谷歌270亿美金左右,facebook20亿美金,yahoo60亿美金左右。谷歌一半营收来自美国,假定yahoo,facebook的比例也是如此。那么美国市场三巨头就吃掉了200亿美金,算上其他网络广告公司,总数肯定超过了总市场600美金的一半。如果网络广告市场的发展服从Logistic的曲线的话。超过总市场价值的一半就意味着增长开始放缓,变成一个平稳的市场。在这样的情况下,除非在细分市场耕耘,捡些边角利润,其他难有作为。所以新进入者的商业模式还是依赖广告的话,成长率相当有限。

电子商务的境遇要好得多,根据美国统计局的数据,11月份的零售额是$378.7 billion。估计全年会在4万亿美元左右。而在线零售巨头Amazon和Ebay的营业额加起来不到四百亿美元, 其中amazon大概250亿美元,ebay90亿美元。所以电子商务在整个零售业的比例仍然很小,未来还会有广阔的发展空间,将会成为互联网系统中最主要的资金来源之一。但是互联网领域本质是趋向于垄断的,巨头林立的情况下给新手机会已然不多,此外,如果互联网想要保持高速增长,电子商务这个发动机显然是不够的。

互联网不再是一个新生事物,全球互联网普及率已经超过20%,各项业务巨头林立,早期那种1000%的增长率似乎已不可能实现。据此,许多人认为互联网已经机会不多了。再我看来并非如此。一个技术只要还能够极大的提高降低生产成本,提高生产效率,他就能够产生巨大的市场,保持高速的增长。互联网技术之所以产生了如此革命性的变化,就在于它使得人们能够突破空间的限制,将社会内部的信息传输成本降至几乎为0。在互联网时代,传统需要实体媒介来完成的社会过程被一个个搬到了网上,从而降低了社会成本,降低的社会成本有多大,互联网的蛋糕就有多大。

从纸质广告到、电视广告再到互联网广告,广告信息不再需要印刷报纸、制作电视节目来作为传播媒介,从而降低了广告投放成本,产生新兴的市场;从市场买卖、邮购再到电子商务,商品流动不再需要百货商场、邮寄购物单作为媒介,从而降低了交易成本,产生了新兴的市场。

但是目前为止,劳动力市场还没有被很好的搬到互联网上,这个劳动力市场不是指“智联”这样的在线求职,而是真正的在线工作,可能未来我们只需要在家里工作就可以了。这是一个数十万亿的市场规模,只要有百分之一的被搬到网上,就有数千亿的规模。在线工作的概念很早就有人提出,但是一直没有快速的发展,这既有技术上的问题,也有文化上面的问题。但是潘多拉的魔盒打开之后,会成为互联网的有一个增长发动机,各个企业主的手续费可能成为在线广告和电子商务之后,互联网系统又一个资金流入渠道。

在线情况下雇主-雇员关系和现实生活中的肯定有很大的差别。你不可能把一个非常大的任务(比如说要一个月完成的任务)publish到网上,然后竞标让人完成,任务发布者对结果质量不会放心,也没有人愿意去做。这个时候人计算可能扮演一个重要的角色。详情可以参考我的另一篇博文:The Long Tail of Labor—Influence of Crowd Sourcing on Labor Market https://wangjingpage.wordpress.com/2010/12/01/the-long-tail-of-labor-influence-of-crowd-sourcing-on-labor-market/

[kantarmediana] http://www.kantarmediana.com/intelligence/press/kantar-media-reports-us-advertising-expenditures-increased-57-first-half-2010

[Reuter] http://www.reuters.com/article/idUSN0825407420100308

[census] http://www.census.gov/retail/