出门问问CEO李志飞:人工智能不是雪中送炭,而是锦上添花

  • donglink.cn   来源:新华网   2019/11/8 14:10:06  

出门问问 CEO 李志飞

未来 AI 的世界应该是什么样的?

在钛媒体 2016 T-EDGE 年度盛典上,出门问问 CEO 李志飞给出的答案是“两个世界”:一个是媒体和大众眼中的科幻世界,另一个是 AI 一线从业者眼中的现实世界,前者遥不可及,后者更接地气。

出门问问便属于后者。四年前,还在谷歌做谷歌翻译工程师的李志飞就有了创业的打算,他的目标是要定义下一代人机交互,用语音或者自然语言代替以键盘或者触摸屏为主的非自然交互方式。

创业之后,出门问问先是从语音识别的算法入手,逐渐打造了出门问问语音搜索、智能手表操作系统 Ticwear 等一系列软件应用,在发现这些无法触及真正用户后,出门问问 CEO 李志飞找到了一个更现实的产品路径——以 AI 为中心的软硬结合方式落地使用场景。

出门问问 CEO 李志飞认为,AI 技术发展过程中两种可以预见的趋势:一个是由于受产品用户量的限制会让全世界 99% 的 AI 创业公司都选择 2B 领域;其次是智能化会重新塑造一些原有消费电子的属性,像电视、手表、汽车等等。

AI 的应用无处不在,但它也并不意味着凭空创造需求,AI 自己不能形成一个独有的产品或者独有的商业模式,它必须渗透到各个已有的产品里面去,才能带给用户更好的体验。所以从这个角度来看,AI 不是雪中送炭,更像是锦上添花。

以下为李志飞在 2016 钛媒体 T-EDGE 年度盛典上的演讲实录:

很高兴今天来给大家做演讲,其实我觉得今天的人工智能,应该分为两个世界。

一个世界是媒体的世界、科幻的世界。

其实今天我觉得你们是不愿意听我来讲的,可能更愿意看到的是像无人机飞来飞去、机器人在前面跳来跳去,或者 VR、AR 代替都带着头盔看一些很好看的动画,这是很多在媒体或者在公众场合大家去讨论 AI 希望看到的一类产品。

另外一个世界,可能是真正从事 AI 的一线工作人员的世界。

首先,其实我们是特别苦的,你们前面讲的那些东西,虽然我是 AI 工程师,但是坦白讲很多东西臣妾做不到,至少在接下来一两年我做不到。第二个,就算我做得到,我也不知道卖给谁,无人机是非常非常未来的,但是作为一个初创企业,首先很难做出来,就算真做出来了,怎么去卖其实都是非常难的一个问题。

所以今天我想更多是从创业者,从企业或者是从一个小公司去跟大家分享一下我们的经历,包括我们对整个行业的思考,以及我们自己产品的一些介绍。

用语音定义下一代的人机交互

我是 4 年前在美国的谷歌做谷歌翻译,当时我就决定要创业,那个时候我去跟投资人讲,我们的愿景是我们要定义下一代的人机交互,很多投资人不知道什么叫下一代的人机交互,我也没有特别搞明白,当时就是特别简单的信念。

2010 年在硅谷移动互联网刚刚起步,但是手机还没有那么普及,我记得当时很多买手机都是为了玩愤怒的小鸟这个游戏。于是那个时候我们就开始思考,下一代的交互方式是不是跟过去一模一样(过去更多是用键盘)?

当时觉得在手机上因为屏幕特别小,可能很难以用传统方式去做很好的交互,刚好我自己的背景又是做机器翻译——这种比较偏人机交互的一些技术。

所以我想如果能够利用我的技术跟浪潮相结合,最后去定义下一代的人机交互,是非常非常兴奋的一件事情,我们认为下一代的人机交互就是以语音或者自然语言的交互方式,而不是现在以键盘或者触摸屏这种非自然的方式进行交流。

刚开始我们回来的时候,认为这个事情可能比较简单,我要做语音交互,咱先把所有的技术都给做出来。所以我们在前面一年半的时间开发了自己的语音识别,再强调一下,是自己的语音识别,因为老是有人今天还会问我,你的语音识别是不是用的谁谁谁的,其实没有那么难,我们自己的语音识别,包括自己的搜索推荐,因为我们希望做一个产品,能够真正给普遍用户区使用,而不是给企业在背后使用它。

软硬结合的 AI 可能是最靠谱的产品路径

首先我们做了技术,也做了一些把技术封装成产品的尝试,比如我们做了手机应用“出门问问”,我们希望定义下一代的交互方式,出门就要问一问。

很不幸我们很快发现,我们的语音识别虽然非常前沿,但是有很大的问题。第一,我们在手机上做的产品,用户体验没有给用户带来真正的价值,因为我们不是一个操作系统层面的集成,当用户使用我们的时候,先得解锁——点开 APP——点语音的按纽——然后说一句话,但是接下来真正要做一个实际的动作,比如买一个票要定餐还得跳到另外一个 APP 里面去,整个过程语音交互给用户带来的价值没有那么大。

我们很快意识到如果说再这样下去,可能很快就活不下去了。其实还没有那么糟糕,基本我们的钱不需要补贴用户,主要是发工资。但是就是这样的话,我们觉得如果说用户没有增长,或者用户没有黏性,很难往下做。那时候我们开始做思考。到底语音交互怎么样才能够使得用户真正使用起来,给他带来真正的价值。

首先我们开始做了智能手表的操作系统,很快发现做操作系统没用,因为没有好的硬件,就开始做智能手表,首先一年半我们主要是做技术和 APP 的产品,在过去两年半我们一直都在做的事情是怎么把 AI 的技术放在实实在在的硬件里面去做一个软硬结合,使得我们的产品更有竞争力。这是我们在过去两年,一个比较大的尝试。

其实我认为以 AI 为中心的软硬结合,可能在今天的消费场景下面是最现实的路径,为什么呢?其实今天的 AI 技术很不成熟,它不像我们的内存或者说硬盘,你可以把它作为一个商品直接买过来组装使用,对于 AI 产品来说集成性很关键,你需要把提供语音识别、语意理解、硬件、操作系统的人都聚集起来,不然很难做出好产品。

所以现在我们看到谷歌,在这一块可能思考方式跟我们比较类似。今天,我们可以看到谷歌在做硬件方面已经非常的坚决,两年前谷歌做的所有事情都是做生态,我做操作系统,你们所有的硬件厂商来做硬件,联合把这个生态做起来。

但是 AI 这一块确实可能推动起来比较慢,最后谷歌觉得如果我依赖于你们,还是没法推动 AI 往消费层发展,所以开始非常严肃的做自己的硬件,无论手机还是 VR,还是智能家居的产品,整个趋势我认为 AI 真正要落地到生活中,要能够提供一个更好的体验,能够逐步的迭代,一定需要软硬结合的形态,这可能是比较靠谱的方式。

AI 不是雪中送炭,而是锦上添花

AI 的发展趋势是什么样子?作为一个工程师最不喜欢预测未来,包括刚才前面教授直接告诉你说不知道,其实我们也不知道,因为技术的发展变化非常快,而且有很多各种各样的限制。以前我一般是不会去讲未来会怎么样,因为确实不知道怎么讲。

5 年以后,10 年以后,这个事情非常非常难以预测的,如果你能预测的话,一定是事后的马后炮,但是未来的两三年我们可以做哪些事情,或者整个产业可以怎么样的发展,今天我们还是稍微分享一下,但是很有可能明年这个预测就变掉了。

首先这个趋势,也是一个事实,就是 AI 的应用无处不在。AI 不是雪中送炭,AI 自己不能形成一个独有的产品或者独有的商业模式,所以 AI 必须渗透到各个已有的产品里面去。使得你的效率提高到更高,使得你的产品更有竞争里,我觉得这是非常自然的,而且已经慢慢发生,可能在未来一两年你会看到更多这样的例子。

在 2C 的互联网的场景分两类,大公司跟小公司,大公司的好处是有海量的用户的产品,他们把 AI 放在这里面提升已有的产品体验,这是非常自然的一个延展,而且也会看到同样好的结果。小公司没有海量用户的产品怎么办?其实有两种方式,一种 2B,一种 2C,全世界 99% 的 AI 的创业公司都会选择 2B,所以这是第一个大的趋势。

第二个,我觉得可能就是消费级的产品。硬件的智能化或者智能的硬件化,这跟我前面讲的软硬结合是非常一致的,大家可以看到,我们无论手机还是电视、手表,还是接下来的音响其实都已经被这个智能化重新塑造了。你看今天的手机厂商跟三年之前的手机厂商是完全不一样的。

其实另外还有一个的特别大的消费品类,就是汽车,当然汽车跟前面的品类都不太一样,它非常的独特,因为汽车特别特别难做,不像前面的手机也好或者音响也好,电视也好,可能一两年没做过硬件的公司也能做起来,但是汽车确实比较难一点。

从智能手表到车联网,积累核心价值

汽车怎么去智能化?今天可能很难去看清楚。其实现在很多已经很多人做尝试,但是大家能够想到汽车自己能够进化,把智能化的方式加进去,汽车一方面难做,另一方面,跟前面不太一样,汽车更主要还是机械的部分,至少在以前,电子部分都没有那么多,但是今天我们把它变成一个软件,从机械再到电子,再到软件,这是很大的挑战。

出门问问比较务实,我们希望能够短期的在这个市场里面见到用户,但是长期我们又能够做一个核心价值的积累。最主要做的汽车的产品就是智能后视镜,你可以想象把你的镜子换成一个智能的 4G 手机,它是整体跟车相集成的产品,有了 4G 联网你就可以做很多,而且都是通过语音,通过手势这种新的方式去做,比如导航,比如听音乐。

我们智能后视镜跟同类产品不太一样的是我们特别强调交互,交互里面除了最简单的语音交互以外,我们认为最重要的我们在车里边一定实现无手无屏的交互,你在跟车设备交互的时候你不需要手去按,不需要眼睛看这个屏幕,只需要瞄一下就行了,这我们整个设计的原则。

所以这里面我们做了语音交互,除大家可能已经体验过或者看到的语音交互以外我们也做了一些尝试。比如说我们一般的交互方式,我要跟设备交互可能要说“你好问问”然后他开启之后,再说“帮我打开 wifi”,它帮你打开 Wifi。我们现在可以做到一句话就把它搞定,“你好问问,打开 wifi”。

另外一个就是所谓的语音快词,当你把应用打开以后,在地图里面你再也不需要你好问问,你直接说我要回家,我要上班,这种非常快速的方式直接说,直接可以进行整个操作。所以这是前面的一个关于快词另外车里面的环境,当你放音乐的时候,我也希望,我想换一首歌,或者我不想听音乐,我想导航,以前的方式可能你需要用手点,把音乐停掉以后才能进行语音交互。但是我们现在可以做,他在放音乐,因为我们加入了很多降噪的算法还是可以把它打断,你好问问打断,可以重新做别的事情。

还有另外一个非常重要的,所谓的对话,因为在一些复杂的场景还是需要对话,你不可能说,完全就是一个热词命令就可以搞定。比如我跟他说我要导航去国贸,他开始给你导了,导航过程中可能直接问他,到目的地有多远,他告诉你有多远,目的地的附近有没有什么好吃的,他告诉你有什么好吃的,或者目的地有什么停车场,其实这些都是我们认为比较好的方式。其实音乐也是一样的。

由于时间关系,我可能不太过多的去讲,这里面很多语音交互,可能很多人都已经知道,或者听过,但是我们希望在车里面真正做到无手无屏的交互,你可以比较安全的使用它。

这个产品里面集成了很多 AI 的交互,手势可以直接换音乐,包括你直接放在这儿就可以帮你拍照,我们同时做了一个高级辅助驾驶系统,当你离前面的车太近的时候,两边就会闪。所以这里面其实是我们集成很多 AI 的技术,希望能够提供一个比较好的体验。

我们希望未来把车和机器人全部打通,后台用同样的算法,但是前台的用户有一个帐号系统,最终实现一个非常智能化的生活,这是出门问问的一个最终的愿景。

本文首发钛媒体,根据 2016 钛媒体 T-EDGE 年度盛典演讲实录整理,

 


相关阅读:
脑瘫检查需要做哪些 www.huashannaotan.com

八卦门·竞技场

娱乐 | 体育