首页 百科知识 云计算带来的革新

云计算带来的革新

时间:2022-03-13 百科知识 版权反馈
【摘要】:每插一条就会发现,几分钟之内发生的新闻都已经录入我们的索引。这就体现了为什么Google在这方面有一些领先的机会,因为我们在云计算方面有更多的机器和便宜的机器能够完整地对搜索用14 000台机器提供服务。
云计算带来的革新_我在青科大听讲座

二、云计算带来的革新

下面我想介绍四个革新:

第一个革新是搜索

有些同学会说搜索这还不简单,那么多公司都有搜索,你们的搜索有什么特殊啊?因为我们有云计算,因为我们可以用上千上万台的服务器做搜索,所以我们的搜索的索引最大,仅仅是中文的索引我们就有数百亿个网页,这个超过其他搜索引擎好几倍。所以,如果你搜一个词,比如说“汤世生,中国首家上市证券公司的掌舵人”,这么长的一个搜索词,在别的搜索引擎是找不到结果的,但是我们这里找到好几个结果,因为我们的索引最大。数百亿的网页,可以想一想,需要多少台服务器才能存这么多的网页,我们的服务器够多、够快、够便宜,所以我们可以有这么大的索引,可以把它的图片、文字都存起来。

另外,我们的服务器更新得很快,每一分钟都在更新我们的索引,有几千万个网页都会跟踪,只要一改变就会跟踪我们的索引。每插一条就会发现,几分钟之内发生的新闻都已经录入我们的索引。又大又快,这个很重要。但是,有更新的用户体验,反而更重要。比如说网页搜索,可以把网页根据文字的匹配做一个很好的排序。但是这个方法并不见得适用在很多垂直搜索上。比如说你要排“餐馆”,“餐馆”应该怎么排?绝对不是按文字排,而是靠食客,常常一些网站,会有一颗星,用这个来评可能更合理。“学术论文”应该怎么排?可能是看有没有其他高知名度的论文引用了这个论文,你的排名度就会比较高。我们可以看到,每个领域排序的方法都不一样,所以用网页搜索排所有的信息是不对的,我们应该做10几种。假设有14种垂直搜索,我们就应该做14个不同的搜索引擎,把它结合在一起。这样用户看起来只有一个搜索引擎,而打出一个词之后,就可以一次到位,看到14个引擎提出的结果,把它融合起来。每个引擎都用自己最好排序的方式,这就是我们所谓的整合搜索。

举个例子,如果你要搜“陶喆”,会发现“陶喆”的第一个结果在Google是他的歌曲下载。有的同学会说:“哎,谷歌不是不做没有授权的歌曲下载吗?”确实,我们不做没有授权的歌曲下载,这是有授权的歌曲下载。有些同学可能知道,别的搜索引擎下载歌曲的时候会担心这个版本合不合法,下来的东西有没有杂音,在Google里面下的歌保证是高质量,是唱片公司提供给的原本,里面有完整的歌词。但是,不是每首歌都有,因为我们要非常辛苦地一家一家唱片公司去谈,基本上是合作伙伴帮助我们用户付费,这样中国的用户就能享受到既方便又合法的歌曲。再下面就会看到三个结果,这些结果可能是粉丝的网站或者陶喆的八卦消息、娱乐消息。再下面会发现是他图片搜索的结果,再下面是他MTV的结果,这个是我们认为对“陶喆”最好的排序。有些同学问:“你怎么知道MTV该排在下面呢?”我相信,对有一些动感特别强的歌手,他们的MTV拍得特别好看的,比如说张惠妹的,可能就会排得较高。陶喆是一个比较感性的歌手,不是又唱歌跳舞,所以他的MTV排得比较低,我们会用这种信息做一个合理的排序。基本上用户知道什么该排得高,什么该排得低。

举个大家最熟悉的例子,周杰伦。既是歌星又是影星,但更多的是哪一种?是歌星,所以歌星排得高一点。这是非常简单的道理,如果你不相信,如果你还认为他是影星的话,你还可以去看看《黄金甲》,我虽然很喜欢他的歌曲,但是他的演技还是有待提升的,呵呵。不过如果有一天他的演技真的提升了,得了奥斯卡金像奖,那时候他的影片的搜索可能就排在前面了。或者说他明天结婚了,这个新闻一定排在前面。可是明天他只是在香港开一个演唱会,那就不会排在前面了,因为内地的不会在乎他在香港开的演唱会。但如果来青岛开一个演唱会,可能排得更高。

所以,Google怎么知道这些信息呢?其实也是各位提供给我们,用户搜“周杰伦”的时候,他们点什么我们都记下来了,我们不记得哪个用户点的,但是我们记得总体的用户爱点什么,我们就发现了用户更喜欢点他的歌曲超过他的影片,或者更理解了有些新闻排得高有些排得低,所以跟随过去的学习,只是根据用户推荐的信息,来推测在整个搜索里面,什么该排得高,什么该排得低。

除了音乐、图片和视频之外,我们还提供了财经、生活、餐饮、工作、电影、火车票、新闻、地图、博客、图书、学术等等不同的信息,都被整合在一起。所以在Google做搜索,是非常多彩多姿的,因为有更多不同的信息被融入结果里。

整个搜索怎么做的呢?其实是一共有14个不同的搜索,仅仅一个搜索可能就要1 000台服务器来完成。你可以想想,网页搜索,几百亿网页,你打“陶喆”的时候,我们把这两个字匹配几百亿的网页,学计算机的朋友算一算,需要多长时间?可能是250秒。那没有用户愿意等250秒,怎么办?我们就请1 000台服务器一起为你服务,这样就是0.25秒就可以得到搜索的结果。但是这仅仅是网页的搜索,如果你还做新闻搜索、音乐搜索、图片搜索,其实你需要的是1 000×14=14 000台机器才能完成整个搜索的要求。这就体现了为什么Google在这方面有一些领先的机会,因为我们在云计算方面有更多的机器和便宜的机器能够完整地对搜索用14 000台机器提供服务。

整个搜索绝对不是最终的搜索,现在我要谈一下未来的搜索。今天所有的演示和例子都是真的,除了这个例子是未来的,这个例子可能是五年以后才能支持。我们认为最终的搜索应该是什么样的呢?应该是用户提出一个要求,搜索引擎,点下一个答案。比如说如果我要在母亲节送母亲一束花,做这件事情,在搜索引擎上,今天可能要做好几个步骤,还要打入各种各样的信息,可能花20分钟的时间。但是,我们希望未来的搜索可以一次到位帮助你工作,怎么样送母亲一束花呢?我们需要一个智能的理解,需要理解你是谁,需要理解你的银行账号是几号,要付费的。当然了,有些同学可能不愿意把银行账号分享,那就代表了未来的搜索引擎一定要足够值得你的信任,要理解你的意愿,知道一束花是多少朵,知道你的母亲叫什么名字住在什么地方,知道社会上的现象,比如说母亲节应该送康乃馨。还有,知道你的提供商在什么地方,知道你要买花,一定要在你母亲居住的城市找一个花商,最后完成这个任务。所以我们认为未来的搜索是真正的一次到位,一个搜索词找到一个结果,帮你达到目的,就更像是一个助手,而不是工具,变成我们离不开的得力助手,这是我们的未来,五年以后的变化。

第二个革新是手机互联网

我想介绍的云计算带来的机遇,就是手机的互联网。我们都知道手机成长得非常快,过去两年卖的10亿台手机,而且3G的时代也即将来临,所以Google希望把我们网上针对PC的每一个服务,新闻也好、图片也好、视频也好,都希望在手机上也能够看到,这是我们做的一个工作。我们也希望能够在移动搜索上做得越来越聪明,把整合搜索放到移动上面去。所以这时候你在搜“周杰伦”的时候,有他的下载节目,有他网页的结果,也有他的相关搜索和新闻,就跟在PC上搜索一样。除了能做所有PC上能做的事情之外,移动搜索还有一个PC不能做的动作,就是它知道你在什么位置。比如我在青岛下飞机的时候,我的手机就告诉我到了青岛,这时候你用手机来做搜索,它就知道,如果你搜麦当劳,应该给你青岛的麦当劳。如果回到了北京再搜麦当劳,就应该给你北京的麦当劳,这是手机基本的优势,任何一个手机都可以做到这一点。

但是我们觉得这样还不够,因为如果你要搜麦当劳的话,应该怎么排序呢?第一个应该排的是离我最近的麦当劳,如果知道离你最近,不但知道你在青岛,还要知道你在青岛的什么地方,这个能做到吗?除了用GPS之外,很少的人用GPS手机。但是任何一台有浏览器的手机,只要能够下载Google MPS 就有一个地理定位的功能,可以大约猜到你在什么位置,可能会有几百公尺的偏差,但是足够来告诉你,离你最近的麦当劳、加油站、KTV在什么地方,给你一个个性化的开始,做到手机不能做到的工作。所以移动搜索,我们认为未来的前途是无量的。

在去年的6月29日发生了一个重大突破,这一天有一部手机它的互联网使用量巨幅度增长,大家看这个黄线,这是什么手机?iPhone,就是我用的这个手机。iPhone带来了浏览的时代,因为我们突然发现,这个屏幕突然这么大的时候,可以看到整个网页,可以在上面浏览“新浪”,或者浏览《纽约时报》。所以我们认为,iPhone会驱动在手机上使用互联网,你可以在上面浏览、搜索,可以当做一个辞典。基本激活了一部手机,让它将互联网的使用从不好用到可用,就算你没有3G,iPhone都非常好用,所以这是让我非常乐观的一个理由。我们发现在iPhone上,它的互联网的使用率要比其他多50倍,所以我们对移动互联网充满信心。但是除了iPhone之外还有什么?Gpone。Gpone就是Google一个操作系统和浏览器。我们跟苹果的运作模式是不一样的,我们不会做一个自己的手机,但是我们在美国和TMM合作,也跟欧洲的运营商合作,在中国和中国移动合作,另外我们与宏大电子和联想移动合作,我们希望帮助他们,能推出他们的Gpone。Gpone可以把它理解为和iPhone有点像的东西,当然每一个运营商和手机制造商可以选择增加一个键盘或者缩小一点放大一点,增加一点功能,但是大同小异,它们有一件非常重要的、一样的功能,就是它们都会有高功能完整的浏览器。也就是说,iPhone之所以成功,就是因为它有好的浏览器。Gpone也会有好的浏览器,在iPhone和Gpone的刺激之下,移动互联网接触云计算的时代即将来临。

img71

◎苹果iPhone概念手机

Gpone和iPhone比有什么好处呢?我想相对来讲,Gpone可能不如苹果做得那么美,因为一个公司从头到尾设计的,但是相对来说Gpone一定非常便宜,因为我们是免费开源地把所有Gpone的原代码提供给了联想,提供给了中国移动,让他们能够做出既便宜又高功能的手机,这个手机在不久的将来即将上市,所以我相信中国移动互联网的前途会非常乐观。

第三个革新是地图和地球

我想讲的地图和地球,经过云计算来整合地理的信息。地图和地球跟过去的纸做的地图差别很大,纸做的地图只是东南西北,只是告诉你不同的街道,真的找出A走到B还是非常困难的过程。但是,数字的地图就非常好用,不但可以在上面浏览信息,甚至可以打入两个地址,问它如何从A走向B,或者问它两个商家的名字,或者问它从科大到机场该走什么路,它会非常聪明地帮你衡量驾车的路线、公交的路线、地铁的路线,然后综合各种不同的信息,甚至有实时的交通图帮助你达到目的,还有手机的版本。所以这个地图会改变我们未来从A点到B点的工作,甚至可以帮你找到你不知道的信息,你问他最近的麦当劳、最近的加油站在什么地方,都可以提供这样的信息。除了这些有用的地理服务之外,在上面还可以做很多慈善的事情,或者说有社会责任感的事情。比如在年初,Google在24小时之内推出了春运的交通图,帮助家长算出来他的子女什么时候可以回家。还有在地震的时候,推出了地震物资图,帮助那些善心的捐赠者,知道他该捐什么东西到什么地区。还有,我们的网友做了一个微地震灾区祈福的图,可以到网页上点击祈福,点击多了,那个地区就会有很多蜡烛、很大的蜡烛出现。这里可以看到,全中国人民都在为灾区的灾民祈福。

更有趣的是用Google地图来求婚,在这个例子里,一位加州的居民,他第一次和他的女朋友求婚被拒绝了,他就发现Google会有一辆Google的车拍照,提供街景图。在Google美国的地图上有所谓的街景图,就是你可以看到这个街道上面的景是什么样子的。他就在这个车经过的时候拉开了他的横幅,上面写着“求婚2.0”,Google就把这个照片照下来了,上传到了网上,他就把你看到的这个网页寄给了他女朋友,他女朋友一点击看到这个图,被感动了,就嫁给他了。

还有的可以用Google地球来整理各种信息。我们可以用Google发现各种有趣的现象,我们也可以把Google地球倒过来看星空有什么有趣的现象。这里可以想一想云计算跟这个有什么关系呢?你想一想,如果每一平方厘米的地球都用一个“×”来代表,那用多少硬盘才能存全地球的所有照片?很快你会发现这个数量远远超过了网页的数量。所以,如果你没有几万台机器同时运行,根本不可能做这样的工作,而这只是针对一个用户来说。倒过来以后,天空网的版,就可以把望远镜所捕捉的信息组合在一起,让用户浏览天空,帮助天文系的学生用最好的望远镜从世界不同的点看到星空的状况,这就是我们对未来地图和地球的期望。

第四个革新是机器智能

云计算带来的是机器智能。我们认为大量的数据不仅是让你能够看到、搜索到网页或者是翻阅各种地球、地图的照片,更多的数据其实会带来智能。我们发现如果数据量很大,用一些机器巡视还有数据挖掘的方法,可以提炼出一些智能的表现。比如说机器翻译就是很好的例子,我们的机器翻译就是从很大的数据里面学习的统计模型。我们提炼了超过一万亿个汉语和英语,部分是汉英对照的,我们把每一个汉英对照的文章做一个匹配,红的对红的,黄的对黄的,我们会把黄色的词再次做一个匹配,就会发现相关的翻译。我们会学习每一个英文词应该匹配到什么中文词。比如我们用latest这个例子,在一万亿个词里面,可能latest出现了3 000万次。这3 000万次里面,我们看到双语库给它的翻译大部分是“最晚的”,有时候是“最迟”,有时候是“最新”,我们就学会了latest该如何翻译的概率表。但是,如果只有一个字,如果只说一个字latest,这时候你要猜,你会猜“最晚”,因为这是最有可能的可能性。但是这个忽略了人类的智慧,我们做翻译的时候会用到上下文,那么我们的统计学习也应该考虑到上下文,所以在3 000万个latest出现的时候,也许有20万次latest在development的前面,经过统计学可以统计到,如果latest这个词的下面是development,其实应该翻译成“最新”。就这样根据上下文,学会了latest在这个例子里面聪明的翻译成了“最新”,实际上它做出来的翻译还是比较好的。

我们看一个实例是如何翻译的。这是两年前在网上随便抓的一段字,“超女五强经过激烈角逐,终于尘埃落定,许飞泪洒舞台。”Google机器翻译“Super Girls five finally settled after a heated rivalry. Fei Xu shed tears at the stage”,其实还不错的一个翻译。如果你觉得还不够好,可以在网上找第二行的机器翻译,它会找到这样一段话:“U female Wuqiang passes through th……”你会看,怎么会翻译这么离谱呢?原来是每一个单词对应每一个汉词,完全忽略了上下文,一个一个字地翻译,做出来当然是不可接受的结果。更搞笑的是最后一句话“许飞泪在舞台上洒水”。所以这样的机器翻译到底对我们有没有用?其实,如果让各位中国的大学生跟机器翻译做一个PK,有时候你们会赢,有时候你们会输。如果一句话有很深的语义的理解,你们会赢。因为机器翻译到底还是片面地看上下文,用统计来推测如何组成一个句子。但是机器翻译又占了很大的便宜,全世界没有它不认识的词汇,因为它看了一万亿字,你们看过一万亿字吗?但是,你们是中国用户里面英文相当好的一批人,大部分的网民英文是不如你们的,是不能够像你们一样理解网上的英文,所以就需要Google的机器翻译。

如果你还不相信,我们看几个中国人怎么做翻译。我有一个印度朋友,寄了一张照片给我,顺便问我说“为什么你们中国人不喜欢印度人?”我说应该没有这个事情。他说你看这个照片,明明证明了你们有个商店,想把我们印度人冲掉。怎么回事儿呢?原来这张照片上面是“冲印”被翻译成“Flushing India”,这里面的印是印刷,不是印度了。

还有一个例子,有一个朋友说,中国什么都可以买,太厉害了,连太阳都买得到,而且你们太阳卖得很贵,我又听不懂,但是他寄了照片,我就知道他原来看到了“贵阳”。所以这两个地方,一个是商店,一个是政府,在单位明显可以用Google机器翻译帮他们做很好的翻译。

当然,有一个商店,它用了Google的机器翻译,可是翻译的结果还是不太完美。这是什么例子呢?我们有一个工程师捕捉到一张照片,发现一个餐馆,它把自己的名字送到了Google机器翻译,但是很不幸当时Google机器翻译发生了一点状况,服务器有问题,给了他一个“translate server error”。但是这个商店不清楚什么意思,以为是翻译。所以在北京的郊区你会看到一家餐馆,他的名字是“翻译服务出错 translate server error”,呵呵。

其实看了这么搞笑的例子,我们感觉还是很羞愧的,因为我们没有把我们的服务器做得很稳定,于是我们增加了很多服务器,所以你们现在再去试试看,应该不会看到这样的例子。这就是我们四个云计算之上做的重要应用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈