苹果Siri真的听懂你说的话了吗?智能语音搜索何去何从?
导读:如今,语音搜索的“笨拙”与“无知”也像极了这初生的“小马崽”,但从中我们也不难瞥见研究者对未知世界的不懈探索和追求。语言搜索技术未来的发展将会走向何方,只有时间能够验证。
语音搜索,一个听起来充满了未来感的词。
业界对语音搜索的发展前景一直抱持着极为关注的态度,互联网巨鳄对该项业务几乎皆有涉猎。此前全媒派编译了美国商业新闻网站The Manifest的调查分析,调查研究发现53%的语音搜索用户,其使用语音搜索的频次为每周至少一次。知名调研机构Com Score则预测:2020年将有50%的搜索量通过语音完成。
这些数据似乎都指向了一个高频次语音搜索的未来。诚然,无论是对于开车、做饭等空不出手的使用场景,还是对于老人、视力障碍等特殊人群来讲,语音搜索都是一个值得期待的解决方案。但与此期待共生的,是语音搜索“听不懂人话”的用户挫败感。The Manifest的调查结果显示,仅有5%的用户表示“从未对语音搜索感到失望”。
Alexa和Google Home是承载语音搜索这一技术的主力选手,然而,它们捅的篓子也着实不少。一位Amazon Echo的用户Oliver就曾有过很糟糕的体验。由于接到邻居的噪音扰民投诉,警察在凌晨3点敲开Oliver的房门,但警察看到的并不是一场欢乐的派对,而是“独自一人”的Alexa——它错误地听到了播放音乐的命令,并“尽职尽责”地照做了。虽然这并不是什么数据泄露的严重事件,但Oliver回家的时候确实签了一笔换锁账单。
和扰民的情况相比,更让人毛骨悚然的要数Alexa“凌晨的笑声”了。多位Amazon Echo的用户表示,Alexa错听了类似于“Alexa, laugh”的命令,从而发出了笑声。在这场公关危机下,亚马逊迅速修改命令为“Alexa, can you laugh?”,以减少此类误听情况的发生。
由此可见,语音助手的智能不应该只体现在能听懂“播放音乐”的命令,而是应该提供更人性化的用户体验,毕竟凌晨3点用11档音量播放音乐的命令并不合理。本期全媒派将聚焦语音搜索的“尴尬”症结,以期呈现语音搜索的多面图景,以及探索可行的技术方向。
语音搜索难解复杂问题
同任何一种搜索工具一样,语音搜索并非完美。目前语音搜索能解决的领域主要集中在:何人(who)、何事(what)、何时(when)、何地(where)等有具体答案的问题,但难以搞定为什么(why)和怎么样(how)等抽象问题。
复杂问题仍回归文字搜索
举例,如果Sneh Ratna想知道珠穆朗玛峰有多高、在印度班加罗尔哪里可以买到梳子。但她患有腕关节疾病,为了减少手机键入,因此她求助了语音助手。对于她的第一个问题,谷歌助手会立即回答“8848米”,但对于第二个问题,她得到了无关的答案:谷歌助手显示了她附近的化妆品店和美容沙龙,Siri显示了附近的药店,然而这些都不是她要找的。
“当问题变长时,语音助手就不理解我的话了。我试着把话说慢、说清楚,但话又说回来,有这个时间的话,我早就手动输入查找问题了,这样找到答案的速度要快得多。”
语音搜索擅长简单主题:琐事、天气和新闻
Manifest的研究发现,用户使用语音搜索查找的前三类信息包括:琐事和术语定义(67%)、天气(46%)和新闻(32%)等事实类信息。例如:杂货店营业至几点?从我家到医院诊室要花多长时间?电视节目中的这位女演员是谁?电影什么时候上映?周日球赛的最终成绩是多少?迈克尔·乔丹有多高?室外的温度是多少?
健康服务机构PHS的数字营销经理James Watkins认为,用户通常使用语音搜索来查找所谓的“非重要信息”,例如天气或附近的咖啡店。如果答案不正确,那也不会带来太大的不便和损失。向语音助手询问天气是一种低风险的搜索,如果答案有误,可以使用传统的搜索方法进行验证。
出其不意的误解和回应
尽管称其为“人工智能”,但语音搜索作为一个程序,仍然在问题的理解上有着固定的程式,产生的误解也层出不穷。在Reddit论坛上,“Alexa不懂我(Alexa misunderstanding me)”的主题下面有着众多吐槽,附议跟帖的用户也不在少数,读来颇让人有些哭笑不得。
我(悄悄):Alexa,我明天的闹钟设的几点?
Alexa(最大音量):我认为你刚才在对我说悄悄话,从现在开始当你对我悄悄说话时我也会用悄悄话回应,你可以说“关闭悄悄话模式”来关闭这一功能。(悄悄)明天没有设闹钟。
(差点把我全家都吵醒了???)
Twitter上的此类吐槽也是常态,甚至有人会在语音助手的话题词后面打上#stupid的标签。
——有趣,我刚让Siri把我的导航APP关了,结果她回复我怎么手动关掉APP……(要关闭一个APP,请从手机底部向上滑……)Siri,我在开车啊,你的工作难道不是直接关掉这个APP?
——我问Siri下一届冬奥会是什么时候,它回复了我挪威在上一届冬奥会获得的奖牌数。谢谢你。
语音助手的“迷之唤醒”
缺乏语境理解
Joshua Liljenquist是明尼苏达州立大学的大四学生。他仍然记得大二那年,有一次教授走进教室,正准备开始讲述教学大纲,这位教授禁止学生在上课期间拍照做笔记,否则要开除学生。Liljenquist很震惊,低声对他旁边的人说,“这家伙有点……”而就当教室里一片寂静时,突然,Liljenquist的Siri试图“提供帮助”,它说:“我找不到关于‘这家伙有点……’的结果。”
“我牛仔裤上捏出的一条褶一定是Siri弄出来的。我的脸变得通红,想抓起我的东西冲出教室,”Liljenquist表示,“Siri应答的时机简直不能再糟糕了。”
Liljenquist并不是特例——64%的语音搜索用户都曾意外唤起过语音助手。
“虽然过去几年深度学习取得了巨大进步,软件比以往任何时候都能更好地理解语音和图像,但仍然存在很多限制。”社交软件Conversocial的创始人Joshua表示,“虽然语音助手可以识别你说的话,但它们并不能真正理解背后的含义或意图。人类世界很复杂,如今的人工智能系统都还只能处理非常具体、狭隘的问题。”
例如,我们人类有很多方法来确定某句话是冲我们说的,比如语气,或者说话人注视方向等视觉上的线索。然而,Alexa预设任何包含“A”字的句子都是在对它下指令,这也是用户经常意外触发的原因。
语音搜索将何去何从?
前景预期&技术探索
1952年,贝尔实验室(Bell Labs)的语音识别系统奥德丽(Audrey)问世,这是第一台能够理解语音的机器,虽然只能识别0-9个数字。至今,语音搜索已经取得了长足的进步,但上述每一个或搞笑或无奈的故事都提醒着我们,这一技术仍有提升的空间。不过我们也可以看到,研究人员的优化进程正在迅速推进。
机器学习“更懂人话”
人工智能和机器学习皆在进步,这对我们与智能设备的交互、我们在互联网上的搜索方式都产生了巨大的影响。谷歌的Rank Brain就是一个很好的例子,它重点在识别单词和短语上,以期学习和更好地预测输出。当Rank Brain遇到一个它以前从未听说过的短语时,它实际上会对搜索者的意思和意图做出最好的“猜测”,然后提供适当的匹配答案。这种“思考”的能力使诸如Rank Brain之类的AI,在处理意外搜索查询方面更加有效。
当AI驱动的设备日益普及,这意味着语音搜索算法必须不断发展,不仅要适应机器学习,而且还要适应我们在日常生活中使用这些设备的独特用语。
语音搜索改变SEO
Google的语音识别已经具有95%的准确率,而且Google并不是唯一一家致力于完善语音识别以利用语音搜索的科技公司,整个行业已发展得如火如荼。在这个链条里,与语音搜索紧密相连的除了C端的用户,还有SEO(搜索引擎优化)的营销人员,他们需要定期调整其SEO策略,以针对语音搜索进行优化。
对于如何针对语音搜索进行优化,以下方法可供参考:
使用自然语言以及对特定问题提供直接答案;
架构标记和丰富的代码段可以将查询和答案保存在让搜索引擎更容易理解的语境中;
由于语音搜索通常用于进行本地搜索,因此对于商家来说,重要的是要在Google My Business列表和电商店铺中,都使用最新的运营信息;
删除重复的页面、过时的联系信息和旧的营业时间,确保内容是优化后的最新版;
域名权重和传统搜索排名对于出现在语音搜索结果中,起着重要作用。
1818年,一位叫德莱斯的德国看林人,借着一个偶然的想法制作了一辆木轮车。他在前轮上加上了一个控制方向的车把,可以改变前进的方向,但是骑车时依然要用两只脚蹬地,才能推动车子向前滚动。当时的德莱斯骑着他的“小马崽”上路试验时,遭到了不少人的嘲笑,而他们之中,谁又能料想到未来的发展。
如今,语音搜索的“笨拙”与“无知”也像极了这初生的“小马崽”,但从中我们也不难瞥见研究者对未知世界的不懈探索和追求。语言搜索技术未来的发展将会走向何方,只有时间能够验证。