加声纹识别抢夺市场？阿里音箱这步棋其实很悬

　　导读：不出所料，阿里还是发布了智能音箱。从亚马逊三年前的无心插柳到今天阿里的入局，智能音箱市场的爆发让人始料未及，但这的确发生了。

　　Echo已累计销售近2000万台，谷歌、微软、苹果随之跟进，之后的一段时间里，国内的软件厂商、硬件产商、内容厂商争相进入，好不热闹。

　　而直到本月初，阿里才正式发布智能音箱天猫精灵X1，既出乎意料又在情理之中，使得语音入口的争夺战因为阿里的入局变得更加有趣。

　　其实，499元的天猫精灵在发布前一天，雷锋网就曾写过一篇题为[为何中国版Echo还未问世，明天阿里的AI新品能带来惊喜吗]的文章。

　　那么，阿里的智能音箱到底带来了哪些有别于其他同类产品的惊喜？

　　眼前一亮的“惊喜”

　　此前有媒体称，为了这款智能音箱，阿里巴巴甚至将马云投入上亿美元的Pepper机器人项目中止，把人员队伍拆分划进人工智能实验室。而花了这么大代价出来的产品好像似乎与Echo等音箱并无本质上的差异，所含功能大致包括播音乐、叫外卖、查天气、设闹钟、智能家电操控等。

　　根据天猫精灵对外宣传的卖点，其中非常重要一点就是连Echo都不具备的声纹识别功能。

　　阿里称，通过声纹识别技术，音箱可以分辨家里的每一个人，并且根据每个人的喜好而设定推送不同的内容，目前最多可以识别6个人的身份;另外，用户还可通过自己的声音完成购物支付验证环节。而Echo在分辨人的身份上，还需要通过进一步操作来获取用户的个人信息。

　　让雷锋网好奇的是，如此酷炫的功能为何亚马逊至今都还没用在Echo上。

　　据悉，亚马逊很早就想应用这项技术，但据亚马逊员工介绍，从声纹识别领域的硬件和软件公司中得到的反馈看来，让这些语音控制设备去识别不同用户的声音比想象中要艰难很多。

　　“由于设备需要去除噪音，回声，混响，使得它难以对听到的发声者的身份进行识别。”Conexant语音部门副总裁Vineet Ganju说道。

　　那么拥有声纹识别的天猫精灵真的能撑起它所重点诉求的这个卖点吗?

　　我看悬。

　　声纹识别功能为什么悬？

　　先从声纹识别算法层面讲，声智科技创始人陈孝良博士此前在接受雷锋网专访时表示，声纹识别还是一个比较窄的学科，应用也相对较少。现在大部分研究都是有关动态实时检测，动态检测的方法自然要利用静态检测的各种原理方法，同时也需要增加其他很多算法，比如VAD、降噪、去混响等。VAD的目的是检测是不是人的声音，降噪和去混响是排除环境干扰。

　　VAD常用两个方法，基于能量检测和LTSD(Long-Term Spectral Divergence)，当前用的较多是LTSD，另外特征提取方面还需要：动态时间规整(DTW)、矢量量化 (VQ)、支持向量机 (SVM)，模型方面则需要隐马尔可夫模型(HMM)和高斯混合模型 (GMM)。

　　从上面模型不难看出，声纹识别还是一种基于数据驱动的模式识别问题，因为所有模式识别存在的问题声纹都存在，而且声纹识别还有一些不太好解决的物理和计算问题。

　　声纹识别的唯一性很好，但实际上现有的设备和技术仍然很难做出准确分辨，特别是人的声音还具有易变性，易受身体状况、年龄、情绪等的影响。若在环境噪音较大和混合说话人的环境下，声纹特征也是很难提取和建模的。现阶段，远场声纹识别理论并不成熟，研究进展也不大。

　　陈孝良认为，深度学习带给模式识别极大的提升，甚至还有开源的相关算法，但是声纹识别的研究进展仍然不大，这仍然受制于声纹的采集和特征的建立。

　　声纹识别提供商SpeakIn资深科学家陈东鹏博士谈到，从声纹识别这一单项技术来讲，容易受到真实环境下的各种影响，包括：噪音问题、多人说话、身体状况、情绪影响等，现在确实很棘手。包括他们在内的一些公司也在大力通过软、硬件算法去优化这些行业通用问题，在深度学习的加持下，整个行业的进步也比以往更快。陈博士补充到，声纹识别只是一个环节，效果判断还需看产品本身和使用场景等因素。

　　在产品层面，刚刚发布“小雅”智能音箱的喜马拉雅表达了他们的看法。喜马拉雅副总裁李海波表示，对于声纹识别的应用，公司内部也攻关了很久，但无法做到完全准确，目前还只是实验阶段，效果一般。

　　在谈及阿里天猫精灵时，他讲到，远场语音识别通常在三米到五米内有效，降噪是在70dB左右，环境噪音和音响声音大于这个标准就很难唤醒。而远场声纹识别在同等距离下就更加不稳定，目前客厅、电视机、厨房、床头是智能音箱的四个常用场景，而除了床头外，其他三个常用场景实际距离通常情况均超过三米，所以阿里音箱声纹识别的具体实用性还不可得知。

　　至于亚马逊Echo为何至今还没用这个功能，李海波认为该技术还不成熟，虽然很炫但风险很大。

　　另外，Sensory公司的CEO Todd Mozer也认为对Echo这样的远场语音设备来说，识别谁在说话是很困难的。随着信号/噪声比例提高，设备的表现随之变差。

　　“降噪和从噪声中分离语音的处理对于用户身份的识别有非常大的影响，目前为止，市场上还没有产品同时处理好用户身份识别，远场语音和噪声处理。”Mozer说道。

　　再从远场声纹识别的实际应用情况来看，中科院自动化所、极限元资深智能语音算法专家刘斌向雷锋网谈到了他的看法。刘博士表示，远场语音识别受到噪声、回声、混响的干扰，无论是语音识别还是声纹识别都很具有挑战性。

　　目前远场语音识别可靠的识别距离大约是3-5米;对于声纹识别还要更难一些。因为语音识别的目的是理解语音信号中的言语内容，言语内容信息跟共振峰高度相关，共振峰主要集中在低频带，语音信号低频带能量较高，受外部干扰相对较小，而说话人相关特征更多集中在高频带，语音高频带能量相对较低，更容易收到各种干扰的影响，因此远距离声纹识别更具挑战。他随即说到，因为每个人说话特征会随着不同因素而变化，例如感冒时发音跟正常时肯定有所差异，所以近场声纹识别还不敢保证特别成熟，远场条件下肯定不太容易实用。总体来说，对于大多数用户，声纹识别应用于智能音箱并不是刚需，从技术角度分析，声纹识别尚不成熟。

　　那么，相比远场语音识别来说，更加不成熟的远场声纹识别技术为何会被阿里急着应用到音箱中呢?

　　除了用此技术满足用户的个性化需求寻求差异化抢占市场外，刘博士还提到，介于阿里在电商领域的一些积累和优势，应用在电商身份认证也是阿里重点推进的方向。

　　阿里基于淘宝、天猫巨大的资源优势将购物场景引入音箱中听上去无可厚非，但从之前亚马逊将此场景应用在Echo上来看，用户用其购物的使用频率并不高，使用体验也不理想。

　　科大讯飞执行总裁胡郁此前接受雷锋网采访就说到，从整个市场来看，购物场景应用于音箱中还非常不成熟。真需求一定是用来满足用户刚需行为的功能，虽然Echo现在卖的很好，但调查后发现，用户真正用得比较多的工具不过是设个提醒、查个天气等等。之前亚马逊大力推的Echo语音购物功能并没有做起来，当用户用语音交互的形式去买东西时，会发现里面各个环节和场景挺麻烦，还不如直接在屏幕操作来的方便。

　　所以这也是很多企业一直在强调语音交互要和视觉呈现的原因，因为用户在面对没有视觉呈现的情况下，你获得的信息不够，这时候很难完成一些复杂的操作。所以有些功能和场景都是我们自己凭空想出来的，直到真正投入实际使用时却发现用户的思维与行为习惯并不是产品设计的那样。

　　这里可以看出，如果用户连使用电商功能的习惯都尚未养成，且声纹技术问题重重，那么在电商中加入声纹识别的诉求，目测也很难以经得住市场考验。

　　总体来看，阿里此次在智能音箱中加入声纹识别的出发点很好：大打Echo和京东叮咚都没有的功能营销牌，在同质化产品浪潮中，用前沿技术来提升竞争力。

　　但在整个技术和市场尚未成熟之际，阿里在音箱中嫁接声纹识别，这步棋怕是走早了一步。

　　智能电视/盒子资讯欢迎关注智能电视资讯网news.znds.com，以及ZNDS君的微信公众号zndscom，官方微博智能电视网，欢迎投（sao）喂（rao）。