阿里最神秘部门的产品:AI实验室的智能音箱

  导读:智能家居这个大锅,怎能没有阿里的身影。


  智能音箱真的是一个刚需市场吗?已经有很多人讨论过这个问题,得出的结论基本都是:


  你瞧,国内卖的一点都不火。这不仅仅是技术不行,内容资源匮乏的问题,关键在于“我们没那么懒”——开空调,听歌,打车,手机已经够方便了,没有智能音箱我照样不会花费很多时间。


  正巧,我借了同事小明的天猫精灵在家试用了十几天,不得不承认,它的语音交互体验还有好几座大山要翻越。


  然而,奇怪就奇怪在这里,尽管我第一天使用时还在“用尽全力”去吐槽它,但当我把这个音箱还给小明后,回到家竟然有点不习惯了。


  譬如这几天我一进门,就习惯吼上一嗓子:天猫精灵,给我放点音乐。它就会先给我放那首我最爱的五月天的“自嗨神曲”《派对动物》。


  房东用的是美的某智能变频空调(感激房东用的恰好是那一款),基本接入音箱后,我就没再用过遥控器,直接再吼一嗓子就行了:“把空调调到26℃!”


  晚上睡觉前会跟床头的天猫精灵说一句:“明天早上叫我6点起床”,然后第二天的闹钟就设好了,顺便让它给我放段“催眠曲”。


  虽然这一系列场景被朋友戏称为“一名孤独极客的惊悚日常生活”,以及“祝贺我成功过上了逐渐不能自理的生活”。但我的确感受到了“语音交互”的便捷。特别是在早上怎么都找不到空调遥控器时,才“惊恐”发现,音箱好像真的“教育”了自己,让我开始习惯直接用“说的方式”来做事了(突然体会到了当领导的好)。


  在这种情况下,我开始认同跟阿里AI实验室负责人浅雪聊天时,她对“智能音箱是否为刚需”这个问题的巧妙回答:


  “我不确定智能音箱是不是一个刚需市场,但我可以很坚定地说,语音交互一定是我们的一个刚需。”


  没有电商标签,“天猫精灵”只是阿里的“语音交互初级实验品”


  就像iPhone还没出现时,人们照样用诺基亚用的津津有味,Uber和滴滴刚诞生时,很多人也会一边吐槽,一边被它的低价和方便所诱惑。而智能音箱,虽然是一个以欧美家庭使用场景为基础的“舶来品”,却是一个实现“语音交互”恰到好处的载体。


  Echo的火爆与盛行让这个产品概念变得相对成熟与具有高辨识度,而便携、低成本与低门槛让它更容易作为物联网的介质与人机交互的不二之选。


  换句话说,包括阿里在内的众巨头选择智能音箱作为智能家居的入口,只不过是因为它是最适合的载体之一。想想看,如果率先火起来的是一个叫“智能蜡烛”的东西,它既能成为烛光晚餐的绝佳配饰,也能放音乐,更能接入各种智能硬件,大概在你手里的就是一根神奇的多功能蜡烛了。


  这样来看,那些按照购物、音乐、电商等维度来给智能音箱进行市场分类的说法,实际上是不能成立的。就像天猫精灵,在它的售卖页面上从来没有打出“电商”的招牌,就连浅雪的解释也丝毫不会“偏袒”这个阿里的基础业务:


  “天猫精灵从第一天就不是因为电商而诞生的产品,我们也绝不是为了“交易”去做的这个产品,而是为了完善下一代人机交互方式而研发的消费级硬件。”


  为何亲手做音箱? 阿里“最神秘部门”AI实验室给出的理由让人无法辩驳


  另外有一点也是阿里AI实验室承认的,截止目前,对于习惯于挑选产品的网上购物者来说,缺失了视觉的语音交互,基本上还不可能满足他们的精准购物需求。


  举个例子,即便我可以通过对天猫精灵发出指令,让它给我买一箱牛奶,但它的回复通常只有一个——给我推荐“牛奶”这个品类中销量最多的产品(被默认为最受欢迎的产品)。因此,如果你想让音箱帮你下单牛奶,就必须首先确定你到底要什么牌子,多少毫升的牛奶。


  总之,线上购物是否是智能音箱的一个必要技能,其实还不好说。而浅雪认为,“购物”目前还是一种需要继续完善的思路:


  我们一定要让用户输入的信息足够简单,而音箱也能立刻得到体验者的反馈,是按照这个初衷而设计的。所以在一开始设计这些所有的场景里面,我们需要它的结构越小越好。购物现在是一种思路,我们当然希望出来它出来的结果越精准越好,但这其实是个很大的挑战。


  实际上,无论是比阿里早两年的“京科合体”(京东与科大讯飞)产品叮咚音箱,还是在7月突击成功的天猫精灵,传说中的腾讯音箱,还是各种各样的语音助手机器人,以及最近开始被很多人看好的智能耳机市场,大家的产品定位无论多模糊,主打的功能有多细分,其核心价值始终是不变的——语音交互。


  确切的说,阿里准备了一年的天猫精灵,是其AI实验室在众多产品策划中率先推出的一个初级版语音交互实验品。就像亚马逊目前已经推出了若干个版本,高矮不同的Echo一样,如果未来阿里还会推出个带着摄像头的天猫精灵进阶版,或者是随身携带的天猫精灵迷你版,我们也不应该感到奇怪。


  躬身力行做音箱,阿里认为“安卓思路”不靠谱


  其实我们一直存在这么一个疑问:为什么阿里要自己做音箱?做硬件和软件似乎都不是阿里一贯擅长的东西。而且早在2016年3月,阿里巴巴集团CEO张勇还在某生态峰会上说过,“阿里从来都不是做智能硬件的企业,我们要把这个市场留给合作伙伴”。


  而现在,阿里不仅成立了一个名叫AI实验室的部门,还默默“潜伏”1年时间做了这个叫做“天猫精灵”的智能音箱。从软到硬,都是阿里自己的东西。


  首先,我们需要来看一下各家制造音箱的路径。目前基本分为两种:一个是软硬合作,譬如百度与哈曼,微软与哈曼;还有一种是独立开发制造,譬如亚马逊和Google,再譬如阿里与腾讯。


  有人说阿里是想做内容服务整合商,毕竟其早就构建完整的文娱商业版图是个巨大优势;而百度想做的是 “人工智能时代的安卓”,7月5日阿里发音箱那天他们就同时宣布,自己的语音助手DuerOS将是作为智能语音生态链的基础存在的。


  然而,关于阿里的这种说法其实可以被阿里为语音智能助手AliGenie赋予的定义直接否定——


  它是一个开发者与硬件厂商都能接入的智能语音平台。


  此外,据阿里AI实验室向我们透露,目前已经有若干家玩具及其他硬件厂商正在与AliGenie商谈嵌入式合作。


  实际上,哪家不存着类似的心思呢?譬如市面上不少机器人创业公司使用的都是科大讯飞的语音交互解决方案,亚马逊Echo的智能语音助手Alexa与Google Home的内核Google Assistant也进入了上千种智能硬件……但他们还是在做着从硬到软完全属于自己的音箱。这是不是在某种程度上说明,“做安卓”这件事没那么简单?


  按照浅雪在接受36氪采访时表达的观点,这种只想着向第三方输出技术的“安卓理论”其实不太靠谱:


  “不做产品的话,你永远不知道用户的痛点在哪里,就是说,它没有办法去代表消费级厂商的最后思路,进而会造成一个恶性循环,这个恶性循环是什么样呢?譬如现在很多消费级产品厂商很多时候也不知道这些看起来高大上的技术到底能做什么,不能做什么,所以他们会觉得反正有个技术加进来,我有个卖点就可以了,那么这个事情很快很容易变成一阵风就过去了。


  从这个角度上来看,阿里是拒绝做这样的事情的,我们要做的是这项技术所在的场景能够为我赚钱,为友商带来可持续性收益。我亲手试试,才知道它究竟存在什么样问题。我不太认为那个能成立,就是他们这个安卓思路真的能成立。”


  这同样也是阿里官方给出的“为何要自己做硬件”的原因——“这个产品形态,如果你不自己从头到尾做一遍的话,你是不知道中间有什么样的挑战,有哪些服务是你应该整合的,哪些根本就不需要。你绝对不能只停留在一个纯技术输出的方向。”


  我们在做一项基础技术研究的时候,从一开始就带着“这项技术未来会怎么用”的思考去做的,我们的目的就是让它实现商业化。也就是说,我们现在做的所有事情,它一开始就会有一个非常明确的商业目标。这项技术不只是为了PR,为了我们自己听着爽,能够显示我自己技术特别牛逼而去做的事情,它最终一定是要做出一个被市场接受的产品来的,这个产品是用户体验说的算。


  其实,比起被称为一家科技公司,阿里在本质上更像是一个“精明的生意人”,它更多时候想做的,以及擅长的是把那些与各类用户的“接触点”尽可能变为直接的收益机会(现金点)。而做安卓这种事情,我们很难说让Google在赚钱方面取得了巨大成功(尽管Google从未在财报中单独披露自己的安卓业务营收数据,但据彭博估计,该公司总营收中仅有5%来自安卓应用商店)。


  实际上,要寻找更多收益机会,就需要更加全面地增加与用户的“接触点”。早在2015年,阿里、京东、360、小米等公司还在进行“入口之争”时,阿里就推出了“阿里小智”,希望以app作为智能家居生产链的切入点。但实际上,最会赚钱的苹果公司用其行动告诉我们,硬件才是与客户最重要的接触点,而人工智能的用户体验要取决于硬件;与此同时,服务与技术平台则会决定硬件的使用是否方便,进而改变我们的固有观念。


  其中,服务平台由两者组成——持续的收费功能与内容资源,这正是软硬跨界竞争的大前提。对进入智能硬件市场的阿里来说,阿里云与文娱、金融及电商等资源既可以被看作是阿里独一无二的优势,又可以“捆绑”硬件一起组成套餐“兜售”。



  某种程度上,浅雪的这番解释也基本符合阿里对新建立的尚未对外界公开的AI实验室的定义——“它是一个消费级产品部门,而非单纯的技术研发部门”。这是阿里与其他技术公司人工智能实验室的较大区别。


  “之前有人看到我们在招聘网站上发的信息会比较疑惑,你一个人工智能的实验室,为什么会招很多营销专家,会招BD,甚至还会招一些销售。我觉得这个问题其实是和我们的定位很相关的。可以这么说,我们做的是消费级的人工智能技术。”


  其实,另一个角度也似乎可以证明为何大多巨头在智能音箱市场选择“自力更生”:


  从Google安卓系统的成功史来看,其成功打开市场的一个关键环节在于获得了当时手机市场巨头三星的鼎力支持。而再看当下,语音交互技术领域大小公司混战不休,具有话语权的硬件厂商也纷纷撸起袖子“单干”;从技术上来看,语音识别技术各家差距并不显著,而在语义识别上却均未突破瓶颈……因此,这个口号目前也只能停留在口号阶段。


  物料齐全,只差一口锅和好厨艺


  你不得不承认,阿里做人工智能的生态能力,估计只有腾讯可以与其比肩:


  •   淘宝、虾米音乐、优酷土豆、口碑、支付宝、高德地图、饿了么外卖等内容、金融及电商平台及其背后的数据,都是小公司不可企及的联动性“食材”;


  •   技术与商业体系更加成熟完整的iDST(阿里在2014年成立的数据科学与技术研究院);


  •   在2015年建立,阿里整合了天猫电器城、阿里智能云、淘宝众筹三个业务部门及其资源,成立了阿里云智能事业部,现在被称为“阿里云IoT事业部”。这个部门主要做的事,就是为制造业提供智能化改造技术方案与云端服务。(很显然,一方面,阿里在构建以电商渠道为核心的智能家居生态圈,锻炼自己的“服务能力“,一方面也在默默积累着来自传统硬件大厂的优质数据。现在,你打开阿里智能的app,会看到海尔、格力、美的等老牌制造大厂的合作智能硬件都可以接入天猫精灵。)


  因此,行业内基本认为阿里在对智能音箱的生态作用定位上,选择了同为电商起家的亚马逊的相似路径:


  依靠完善的销售渠道与既有的品牌号召力推出智能中控产品,与旗下现有全部业务与服务进行整合,再通过阿里生态中本来就有的繁杂应用场景来增强用户黏性;同时也兼具开放态度,与第三方厂商合作。


  所以说,阿里最终“按耐不住”做了音箱,除了大势所趋,大概说的就是“物料齐全,就差一口锅(入口)和厨艺(技术)”这个状态了。


  但是,如果说“智能音箱”是这口锅,那么出锅的菜就可以被视为市场表现与智能家居的联动效果。那么它究竟“好不好吃”,用户是否买账,大概就是众人眼中阿里并不具备优势的AI技术所决定的。


  实际上,阿里并不在乎自己是不是具有优势,就像其AI实验室首席科学家王刚说的,他们更在乎自己的技术能不能解决音箱销售页面下方“用户评论区”的吐槽。


  譬如,用户都觉得“通过音箱来买东西”其实是个“伪需求”,基本不可能实现,因为每个人对同一个商品侧重的维度及需求都不一样。但王刚告诉我们,虽然这就像很多公司做个性引擎推荐一样,精准度很难把握。但他们就正在试图通过强化学习来解决这个问题:


  “你看之前强化学习都是基本用在一些像AlphaGo一样竞技比赛之类的场景,但我们想把它用在消费级的场景里。这就相当于通过强化学习去训练它,让它在一个特定环境中,根据当前的状态来做出最优策略。也就是说,让它通过与你n+次交互,来获得你的反馈,进而“学习”到究竟什么结果最适合你。”


  我们最后想给用户实现的,可能是这样的一个结果。它不仅是销量或好评率高的,甚至还包括一些业务逻辑,譬如说这个商品能不能送到你的地区,还必须包括你个人的喜好,譬如你更倾向于海外产品。我们想把所有的信息都通过人工智能技术综合起来做一个最好的推荐。


  此外,在用户与音箱进行交互的特定场景中,王刚也强调了“语境”的重要性,这就像自然语言天生具备的“模糊性”一样,也是他们目前遇到的最大挑战之一:


  “我们在做理解的时候,也考虑了叫做Context的一种类型,就是上下文还有环境,Google就一直在做这个,我们在做音箱的过程中发现这个尤其重要。譬如你说自己想睡觉,究竟是想让音箱想再跟你聊一下,还是直接跟你说晚安,或者给你放催眠曲呢?这要看你所处的状态。


  如果想了解语境,需要把所有关于你当下的状态及信息考虑进去,譬如你今天听了很多忧伤的音乐,我们在回答你的问题时会把这些信息加进去,进而给出判断。这些信息会帮助我们理解语意理解的歧异,而这些都是很难的地方。或许未来我们加入摄像头等其他配置,我们会一直做这方面的突破,为的就是不断了解用户。”



  坦率讲,就我对天猫精灵的体验来看,虽然阿里的内容资源非常丰富,但由于技术方面的限制,可能其一半都触及不到用户。譬如就连阿里都欣然承认的“天猫精灵的英文实在是太烂”。举个例子,我如果对它说想听Beyond的《光辉岁月》,它就会完全陷入混沌状态或“顾左右而言他”(听成某某的《彼岸》),而那些英文歌……基本想都不要想。


  再譬如虽然阿里率先实现了“声纹识别”,但声纹识别估计还仅限于支付。基本上音箱对你喜好的判断与训练进度,还是基于不同人的账户。而这就会出现同事小明对我描述的一个很囧的状况:


  她用自己的账号登录了天猫精灵,但在家时间更多的是其室友,即便他们都进行了声纹识别,但久而久之,音箱放的更多的都是她室友喜欢的歌曲。这就在某种程度上限制了音箱的交互人数。这么来看,以“家庭”为场景的音箱难道真的只能定义为“个人智能助手”?


  无论如何,就用户体验来看,目前想与音箱进行“像人一样的正常交流”基本是部科幻电影的脚本,包括天猫精灵在内的智能音箱们还有太长的一段路要走。


  不过,我们有幸参观了那个还停留在传说层面中的阿里AI实验室,“内涵”多的有点出乎意料。因为除了目前已进入市场的音箱,它还有各种建立在阿里旗下业务中的“黑科技”与其他产品,譬如对AR技术的应用,你觉得它会用在哪里呢?而这些阿里都暂时不会对外透露。


  生态的限制与开放


  目前,我可以用天猫精灵听虾米音乐上的歌,买天猫超市的产品,直接通过声纹识别用支付宝账户缴话费,还可以连通阿里云智能平台上的所有硬件设备。这甚至在某种程度上对接入音箱的app与第三方平台有“反向助推”的作用,譬如,我之前从不用虾米音乐,但为了让我的音箱更了解我的喜好,我在手机下载了虾米app,让算法用我的使用数据来持续训练它,以便更了解我的喜好。


  但不好的一点也非常明显,你肯定不可能用天猫精灵买京东的东西,听网易云音乐的歌曲,用微信支付…


  早在2015年各大巨头布局智能家居链条时,包括格力在内的传统硬件厂商们就曾吐槽过与互联网公司一系列略显专制的合作:即便同时与若干家智能家居平台进行合作,但由于他们系统不兼容,也只能选择进行单品合作,然后针对不同产品进行区分。


  这是生态与生态间的竞争,毕竟现在是抢占市场与提高销售额的时段,“开放”只能适用于某一个生态内,“相互提防”才是技术巨头做音箱的主流态度。然而,最终却需要消费者来承担潜在增加的不必要成本。



  早在2015年,阿里就曾明确表示在积极推动行业联盟,希望能够实现各个系统及硬件的兼容,但似乎效果并不显著。而这次浅雪在接受采访时也认为,智能家居的全打通只是一个时间的问题,譬如他们很早就已经在跟某国内互联网手机巨头(你懂得,曾一度有进BAT的潜力,也有自己庞大的智能硬件闭环)在谈合作及开放的一些事情,双方在这方面都持有一个开放的态度:


  “其实原来他们很早以前在我做的时候就来找我,希望能全程的打通,所以我觉得还好,这个你可以再继续观察观察。


  我个人是觉得,行业如果设的格局很小的话,那么这个行业做不起来的。”


精彩推荐