微软亚洲研究院马维英:搜索下一金矿在社交网络

  • donglink.cn   来源:新华网   2020/1/14 12:41:07  
马维英 马维英

  新浪科技讯 10月21日消息,微软亚洲研究院创新日2010活动近日在上海召开,致力于搜索技术研究的该院常务副院长马维英博士分享了他的研究成果。马维英认为未来的搜索技术存在知识搜索、语义搜索、应用和服务搜索等方向,社交搜索将是下一个重要阶段。

  虽然现在搜索技术已经出现和应用了多年,马维英认为未来在5个方向仍有很大发展空间。第一个从理解用户的需求出发,而不再是关键字搜索;第二是知识库搜索;第三是语义搜索;第四是从搜索内容走向搜索应用和服务;第五是建立云平台和生态系统,对外开放,可帮助更多的开发人员创建自己的微应用和微服务。

  马维英还认为,现在最有机会的是社交媒体搜索。马维英称,现在互联网中有几类云,一是信息云,有谷歌、百度等几个主要搜索引擎的供应商;第二个是社交媒体云,像Facebook等,其中有很多用户的数据;第三就是娱乐云,像Xbox Live、Office里的应用,也包含了大类数据和信息。

  马维英认为第一类信息云的搜索技术已经成熟,而后两种则刚刚开始,尤其是社交媒体云搜索在目前阶段尤其重要。(张伟)

  以下为访谈实录。

  提问:对于搜索和云计算来讲,您主要负责哪个部分?

  马维英:云计算的概念比较大,我主要负责把很多重要的知识和信息抽取出来,创建新一代的云应用,把这些数据变成“云”里面的大脑,从而可以支撑下一代的应用。搜索是第一步,这些会变成将来的知识来源。

  提问:搜索也是网络上比较重要的领域,那从技术的层面来讲,您觉得还可以作出哪些突破?

  马维英:其实搜索我们目前大概有5个比较重要的方向,有机会可以对现在搜索的基本格局产生颠覆性的创新。搜索最早开始的时候,有些像一个图书馆,把所有互联网上的信息组织起来,当时这种技术有点像图书馆的“倒排表检索”。搜索一直发展到现在也没有超出这种思路。但我可以告诉你,在现在我们看到的Internet来讲,我们大概有上万亿的网页,其中大约有250亿的页面可被检索,有可能出现在用户搜索结果里的页面,大概是其中的1%-5%,也就是说最多只有5%的网页,用户有机会可以看到。

  提问:95%的信息可能对我们有用,但不一定可以搜到,是这样吗?

  马维英:因为现在信息大爆炸,不一定所有人都关心,而且也没有那么多精力去看那么多网页。因为网页的数量庞大,用户可能只有精力关注于出现在搜索结果中的前一百个结果。如果再过十年,我想可能会掉到零点几,想想看,整个数据中心里的数据,天天花费了电费水费在处理网页,99%的可能都是无用功,因为人们没精力去处理那么庞大的信息量。

  提问:而且就算搜到可能只能看到前几个。

  马维英:所以当时思路是像图书馆检索那样为所有的书建立检索码,但最后有可能大部分的计算给用户的价值越来越少。那么,能不能直接关注用户的需求,用户到底需要找什么,到底需要在网上完成什么样的任务,所以我们现在需要看到的是一个任务,然后帮助用户作出决策并采取行动,而不是给用户十个链接再让用户逐个打开,看看是不是包含有用的信息。而是更接近把用户带到要完成的任务上。这样可以把数据中心的流程进行重组,围绕数据挖掘和知识发现,更多是离线的处理。这样就可以把数据中心里的大部分内容进行精简。现在搜索有点像一个流水线了,天天在爬网页,看用户的关键字,这几个关键字是怎么出现在网页里的,然后最后再决定排序,到今天大家还是在比排序,但我们基本上已经在排序方面和竞争对手差不多了,但用户不会因为差不多就愿意换常用搜索引擎。所以我们必须想怎样改变整个搜索领域,发展搜索引擎。

  另外,我们已经知道只有1%的网页用户能看到,其它99%的看不到,可不可以把这个计算资源应用到更多的领域。你们大概知道App Store,也就是应用软件的在线商店,将来在互联网上会有越来越多的微搜索,是比垂直搜索更细微、细分化的应用或服务,在互联网上帮助用户完成一些具体的任务,所以我们的搜索不再只是搜索内容,而是搜索服务。

  网上会有成千上万的人来开发各种各样的应用和服务,将来会与“云”的战略有关,就是我们希望这种云计算可以提供我们需要的数据,甚至是搜索引擎里需要的一些模块,然后一两个开发人员就可以创建一个微应用,而且可以寄存在“云”里面,不需要自己去买服务器。

  以后的互联网将从目前的内容出版,发展成为应用软件供应,而这些应用软件可以帮助用户完成任务。我们在创造这样的新的生态系统,让更多的开发人员创造更多的应用。现在大家已经开始自发的设计各种应用程序,但对这些应用的搜索已经很困难了,大家往往找不到自己需要的应用软件或程序。

  我现在谈到的是微应用和微服务的搜索,这些是任务导向的,将来有可能达到十亿的量级。我们的必应(bing),将更像是这样的一个路由器:了解用户的搜索目的,然后把目的与任务结合起来,这种任务也是百万的量级。也还有更多的搜索表现形式,在这个过程当中有更多的导航和浏览,而不是像现在这样来了很快就走。我们觉得这种以任务导向为组织方式的万维网,而且搜索引擎能够深刻理解搜索目的,抽取出所有的知识,把知识按照目的组织起来,甚至提供一个这样的生态系统,让更多的开发人员能够创建更多的微应用,这样就有可能把现在的万维网架构和格局带到下一代。

  接下来的十年、二十年,我们开始看到web已经开始出来越来越多的应用和服务,云计算的出现能够让现有的格局发生颠覆性变化,让开发人员接下来可以很容易开发互联网应用,以前只有大型的互联网公司能运营数据中心,将来微软的平台可以让互联网的开发人员,一两个人就可以进行应用开发,我们的必应(bing)就成为相应的“路由”中心。

  这些是我们战略性的思考的方向。

  提问:这个方向的名字是什么?

  马维英:其实有5个大方向。第一个就是从组织所有的网页信息,到直接关注用户的搜索目的。因为我们知道,搜索引擎一开始的目标是希望组织所有的页面,这个概念非常强大,但有它的弱点,而且现在的效率已经越来越低。一旦我们开始直接看到用户的需求是什么,直接从用户的需求出发,所以是需求理解(Intent Understanding),而不再是关键字搜索。第二个,就是建立知识库,我们要把这个结构性的web利用各式各样的挖掘技术,把其中的对象(entity)关系抽出来之后,以知识的方法来表示。第三就是语意的检索与任务完成。刚才我提到的很多小型任务,是帮助用户完成任务的搜索。第四就是从搜索内容走向搜索应用和服务。第五就是云平台和建立生态系统,我们的搜索是向生态系统开放的,可以帮助更多的开发人员创建自己的微应用和微服务。这个的确是非常新,这个新的搜索战略其实我们刚刚开始对外讲。

  提问:您看到的这些战略大概是分几个步骤?什么时候能在必应上看到基于应用和服务的搜索?

  马维英:这些需要一步一步来,目前在最近的时间我们需要做更多的基于对象的搜索,也就是从内容搜索走向对象搜索。互联网搜索现在一个大的挑战就是它最小的单元是网页,所以以网页为单元进行排序。但是现在很多搜索,是立足于找某一个人、某一个单位、某一个事件等等,这个在英文里叫做entity或是对象。现在搜索出来的结果还是网页,但是用户要的是总结出来的对象,把相关的内容进行知识抽取、整合并总结,呈现出来的就是一个框架性的网页,得到很多的有用的信息。

  我们微软亚洲研究院在明天2月发布的学术搜索,就是这样一个搜索。学术搜索是微软亚洲研究院开发的免费引擎,帮助用户快速找到有关学术研究人员及其活动的信息。它可以帮助用户了解到某个学术研究领域内的顶尖学者、学术会议和期刊;获得一个学术领域的兴趣与发展的详细信息;发现某个研究领域的学术论文和正在升起的学术新星。它也是我们“对象级别”垂直搜索研究的实验平台。有了学术搜索,可以很容易地找到顶级研究人员和相关论文,以及会议和期刊。还可以找到研究人员之间的关系,例如论文的共同作者。

  学术搜索已经开始有很多学术单位和教授合作,希望可以尝试更先进的排序。因为现在的学术论文可能相对来说还是以被引用次数为衡量标准。我们提供了一个平台,让大家用各种各样的排序方式进行排序。我们甚至可以看到哪个学校在这某个领域做的最好,过去五年看哪些单位排名上升了等。这种信息在过去没有人有的,我们把整个网络的知识集合起来,所以可以提供全新的搜索体验,将来这种搜索可以做到旅游搜索里,像你们今天可以看到Travel Guide旅游搜索。我们的旅游搜索,也是围绕着地方,以及网上谈到某一个旅游点的各类信息,我们针对它的结构进行定义并提炼出来。还有像商品搜索,把对商品的评价信息也收集来,作为商品对象的属性等等。将来有很多垂直的领域都有机会把这种面向对象的理念运用进来。

  提问:我们是怎样组织排序的,微软有一个独立的系统来维护还是通过原有的网页最终形成这样的排序?

  马维英:现在我们的排序用了很多不同种类的Signal或是信号,从各种方式抽取表征,最终成为一个有用的信息并加入我们整个排序功能里面。当然本身我们用了很多机器学习,来训练算法,从更好的把信号结合起来。将来是不是能允许用户的参与,特别是在学术界,我觉得更合理,可以有一些客观的衡量,这些也有可能进入我们的学术搜索引擎当中。其它领域要看,像商品搜索,现在有很多评论的信息,还有一些比较大型的权威型的网站等,提供了Feed Data以及用户产生的内容等,这需要用到统计的方法去组织。

  提问:您觉得这种搜索的核心技术包括哪几个方面,您提到机器学习、自然语言,还有哪些技术在其中得到了充分体现?

  马维英:其实可以说搜索几乎是与整个计算领域的结合,比如系统方面,搜索是一个很大的分布式系统,这个系统处理很多的数据。例如搜索引擎必须有实验的能力,能够不断快速加入新的功能,让工程团队可以很快的从一个假设或一个想法,到验证想法,然后再落实到搜索引擎中,完成这样一个创新周期。

  原来第一代搜索引擎做实验是非常难的,软件产品的代码是不能随便改的,任何的改变都会牵一发而动全身。这几年我们的搜索引擎已经发展出相对来说更好的基础架构,可以做很多的大规模实验,很多新想法所产生的数据直接进入搜索引擎里,所以这不是代码迁移,而是数据迁移。可以离线学习知识,然后把学习到的知识放到搜索中,它可以智能知道哪些网站有好东西,哪里的产品质量高。甚至在分析的时候,分析的对象不止是网页本身,还有从其他的网页元素里提取出来的,比如网页的日志或是网页的Index里,都有很多所谓的知识,可以提升搜索体验。

  所以这里面有很多机会。数据挖掘、知识提取,不同的算法,甚至是多媒体都有应用的可能。像今天展示的一个Sketch Search基于轮廓的图像搜索,通过素描的图形来搜索。因为现在越来越多触摸屏设备,所以发现连这种图像搜索都很有机会。像我把搜索意图用画来表示,这些都是需要新的分析影像的技术,以及新的搜索算法。都是需要做算法和做系统的人员结合,还有很多的,用户界面、用户内容,将来这种搜索不同的应用,不管是在移动设备或其它设备中的应用。让这些应用变得更智能,我觉得是整个计算机领域所有的创新,研究的结合点。

  提问:如果原来索引的页面搜索,称为搜索1.0,那么未来觉得2.0应该是怎样的,有没有搜索的进化、演化的路线图,你觉得下一阶段应该在什么时候普及?

  马维英:这个时间比较难以预测,其实在我的演讲里提到了一种路线,我觉得现在最有机会的是社交媒体搜索。另外一个角度来讲跟现在的语义发展有关系,其实微软看到现在万维网有几类云。第一是信息云(Information Cloud),有几个主要搜索引擎的供应商,是这个领域的领导者。第二个最重要的就是社交媒体(Social Media)云,像Facebook等,有很多用户的数据。第三就是娱乐云,像Xbox Live、Office里的应用了,包含了大类数据和信息。

  如果你回过头来看整个搜索引擎的发展,当时第一个颠覆式的创新是Google,实现了Page Rank。这是最简单的算法。现在有更丰富的Signal,现在我们要做的就是怎样从这些不同的云里面,提取有用的信息,抽出一些信息可以帮助用户提升搜索体验。

  我想第一步搜索会变得更加Social社交化,我们已经在这方面有一些优势,我们开始把这些数据整合起来,比如通过Facebook找人与人的关系。“人力方”是纯粹是自动抽取,再加上Facebook的人工产生,我们觉得将产生最全的关系图。

  此外,例如你搜索的一些东西,刚好你的朋友也推荐,这个叫“顶”,它会在搜索结果中得到提升。这个“顶”的信息进入搜索引擎,成为整个搜索的一部分。

  其实大家谈到很多云,数据是战略资源,每个云都是数据集合,一旦整个人类社会的某一部分数据慢慢动起来之后,就成为了很大的价值,现在Web的发展也很有趣,数据集中在几个大的公司,各有某一类数据集,社交 、娱乐、商品、生产力等。接下来,这些数据是否可以更有效的分享?将来我觉得这些facebook里的数据,如果有更好的应用能够帮助这类搜索,就能更好的提升搜索体验。

  提问:刚才Rick也跟我们描绘了未来的愿景,可能未来每个事物都可能被数据化,被联网,可能这种数据的媒介形式多种多样,可能有网页,可能有多媒体,或者图片,这种东西我们是不是也可以统一提供有价值信息?

  马维英:其实云+端,最重要的革命,就是把人类社会最后一英里走完。计算机领域发展了30年,今天还有很多数据,在你的手机里、在messenger里、在图片里等,其实数据还是孤岛。“云+端”可以连接所有的数据、设备、应用和服务,最终连接所有的人和事件。数据是核心,“云+端”平台的整合,是人类社会历史上最后一英里完成了。这方面,我们微软有责任,我们在客户端有windows+office,在服务器有windows server、Azure,以及大规模数据中心,在全世界没有几家公司可以有大型数据中心。云开发工具方面,我们有visual studio,支持在云中的开发等。

  这是一个历史的机遇,我们觉得“云+端”是历史的机遇。那么下一步就是所谓的自然用户界面,像云加端的界面,令任何人都有超级计算机的能力。现在我也听过很多人说你要这个能力干吗?每次我都举这个例子,在1975年比尔盖茨先生有这样的梦想,希望每个人桌子上都有一台电脑,我可以告诉你,1975年很多人都嘲笑他,除了美国的国防部、还有所谓的太空总署需要电脑,老百姓为什么需要电脑?想不出来。但是现在每个人娱乐、新闻、社交都离不开个人电脑。个人电脑是这样,一个超级电脑给你所有的人类知识,将来的潜力有多大?

  在学校演讲的时候,我鼓励这个领域里的计算机学生,你们的历史机遇来了。这个时候就像1975年,就看你有没有想象力,有没有足够的创造力,把这样庞大的、人类在历史上从来没有过的能力发挥到极致。今天最成功的应用就是搜索,搜索就是一个超级计算机,敲进一个关键字,为什么这么大量的信息同时返回来?全世界的几千台服务器同时作战,几毫秒就完成了反馈,这样超级的计算能力只要几毫秒。原来我们做的很多事情还要给计算机命令,希望将来计算机可以working on your behalf,代替你,可以帮你实现,解决了你所需要的,知道你要找的信息。

  提问:在你命令之前就已经知道了?

  马维英:就像智能的秘书,很贴心的秘书,这样的一个东西其实是我们人类终于走到今天,可以创建这样的一个东西,因为所有人类的知识已经结构化在万维网上,甚至可以去机器推理。电脑甚至对于每个人个性化,知道你的兴趣爱好,你的朋友,你的日志,需要下一代的应用把这些结合起来,搜索到时候就需要找这些东西了。

  提问:觉得需要多长时间?

  马维英:任何关于时间的预测都是很困难的,我只能说这样的发展方向已经开始了,而且是无法逆转的,而且不管在软件,或者互联网领域、硬件、移动都是历史性的机遇,当然我觉得,我想这样的一个一生难得的机会,我觉得也是研究者的黄金时代。

  提问:现在搜索还是需要一个关健词检索,未来搜索在呈现的方式上,用户激发起一次搜索过程这种操作上会有什么样的改变?

  马维英:我觉得接下来我们会看到越来越多的搜索,会很令人吃惊地整合起来,在任何地方都能应用。想象一下,将来可能带着你的电脑,在任何一个地方知道你的地理位置,知道附近有哪些其他的服务,甚至这些应用和服务可以超级本地化,甚至可以专门为一个餐馆建一个应用。现在大部分的餐馆其实在外部顶多有一个网页,将来可以想像可以提供一个平台,所有的附近的本地服务或商店能够跟手机或电脑立刻连接起来。比如到餐厅坐下来,电脑一打开,这家餐厅的菜单已经出现在这里的,可以点菜,立刻信用卡就可以在线付帐。今天我觉得这样的机会已经慢慢的接近成型了,现在地理相关的应用和数据,已经开始成熟了。像进入一家店直接就可以点菜了,这是更主动式的搜索。像我们今天演示的这种基于轮廓的图像搜索,也是将来搜索界面画几笔就可以实现的,找多媒体信息,我个人觉得在下一代会更加丰富,这种不同应用中的搜索会越来越多。

  提问:您觉得对于未来的搜索需要我们行业的标准化吗?比如数据接口的标准化可以顺利进行?

  马维英:这个问题很好,其实是需要的,但是这种标准化的过程,需要一个激励。因为也可能带来更大的商机,所以大家就有这样的一种动力去标准化,甚至在创建数据里,也会在尝试把这些结构中直接放进来,这里的确是需要把这样的产业带到某个层面,大家发现数据更加结构化,这样的话就会产生一个良性循环,慢慢的再到其他整个横向的,其他的应用。

  提问:现在我们的搜索还不能搜索Facebook的信息,现在也有一个展示搜索Twitter微博里面的信息,facebook和twiter也做了搜索方面的工作,在这方面是不是也做了很多研究?

  马维英:这些不同的社交网站,他们自己也会尝试在他们的数据集上可以建立自己的搜索,或者他们也可以更一些现有的大型搜索引擎商合作。社交数据只是一部分,可以建立一个垂直搜索,这种理念可能最终需要看用户到底需要什么样的搜索。

  提问:通用搜索会把这个并进来吗?

  马维英:我觉得现在还是太早作预测,从必应来说,用户需要从通用型搜索开始,大部用户都停止在第一轮搜索之后的链接上。所以搜索就必须得明白意图,现在我们所看到的这种搜索大概是这样的,通用搜索再加上垂直搜索。


相关阅读:
输送带 http://www.hbjingbo.com/

八卦门·竞技场

娱乐 | 体育