小米官方揭秘小米AI技术一文看懂小爱同学进化的奥秘

　　2020年，小米AI技术持续发展背后，藏着无数位工程师们的付出和坚持

　　在2020年小米开发者大会（MIDC）上，小米集团副总裁、集团技术委员会主席崔宝秋宣布小爱同学5.0正式上线。小爱同学由语音助手正式升级为智能生活助手。

　　在小爱同学持续进化的背后，是小米AI技术的强大支撑和不断深耕，也离不开小米AI实验室工程师们的努力。

　　2020年，小米AI实验室克服多项技术难点，在计算机视觉、计算机语音、计算机声学、自然语言处理、知识图谱、机器学习、论文与竞赛等方面均卓有成效。小米自研AI技术已经全面赋能了小米各项业务——手机、AIoT、互联网等，HDR技术助力小米10 Pro/至尊纪念版夺得DXOMARK评测第一。

　　小米公司2020，小米AI努力前行，突破边界，在自研创新的路上越来越坚定。2021，我们希望用人工智能的技术和产品，为你带来更美好和更智能的生活。

　　一、计算机语音

　　计算机语音，就是对人说的话进行处理，这是一个很常用的技术，在小爱同学里面的语音交互、语音生成等都用到了计算机语音技术。

　　2020年，小米AI实验室做了大量的工作，在语音的唤醒、识别、生成等方面取得了重大的突破。

　　1、语音唤醒

　　2020年，小米自研两麦语音唤醒、低功耗语音唤醒方案分别上线了小爱音箱Art、小爱音箱Art电池版和Redmi小爱触屏音箱Pro 8英寸电池版，技术上取得了重大突破。

　　我们通过技术升级，让误唤醒率降低了25%、唤醒延迟优化了33%，Redmi小爱触屏音箱Pro 8英寸电池版在唤醒性能没有降低的情况下，待机时长增加了30%。

　　在唤醒方面，小米语音唤醒技术为了兼顾低功耗与高性能，采用了双级唤醒策略。低功耗待机唤醒词检测模型，利用子采样与共享隐含层等技术，减少模型资源消耗的同时保证召回率在一个较高的水平。

　　高性能误唤醒检测模型，采用粗粒度建模单元，结合局部信息与长时上下文信息，高效抑制误唤醒。通过从海量数据中自动挖掘高区分度训练样本，再经过数据扩充技术，提高唤醒模型在低信噪比与小音量场景下的鲁棒性。

　　2、语音识别

　　2020年，小米语音识别在技术创新和业务应用上均取得了明显的进步，主要包括4个方面：

　　第一，多通道端到端语音识别算法的研究取得一系列重要进展。论文《MULTI-CHANNEL AUTOMATIC SPEECH RECOGNITION USING DEEP COMPLEX UNET》作为研究成果之一已入选IEEE信号处理协会的旗舰活动 SLT 2021会议。

　　文章实验结论表明，提出的算法与亚马逊AI团队最近提出的神经波束形成方法相比具有约10%的性能提升。论文发布后，此研究继续取得突破，相比于经过工业界长期验证的远场语音识别传统解决方案，自研多通道端到端方案取得20%的相对提高，并入选小米集团年度技术大奖前20位。

　　第二，包括手机、音箱、电视等线上主要业务业务识别准确率大幅提高，相比去年同期识别错误率下降50%+。为小爱同学提供了更加精准的环境感知能力，进一步提升了小爱同学用户语音交互体验。

　　第三，在细分人群和细分场景等方面取得了明显的改进。2020年，小米语音对音乐点播、翻译查词等头部场景的中英文混合识别能力进行了专项优化，英文歌曲识别准确率较改善前提升100%，翻译查词识别准确率提升50%。另外，针对儿童等细分人群识别准确率低的问题也进行了专门的声学调教，童音识别准确率提升近10个百分点。第四，动态识别、并行推理等新技术应用改善了线上服务能力。动态识别技术极大地提高了对突发或新增内容的支持力度，对新热资源、网络新梗、突发名词等已实现分钟级动态增强。在语音识别业务 batch 推理优化方面，小米的在线语音识别业务通过深度优化 Kaldi 中模型推理模式，将原来的单序列模式改为 batch 模式，帮助业务的吞吐量提升3倍。

　　3、语音合成

　　2020年，小爱同学在声音体验上做了很多创新，如奶萌泡芙童声、多情感语音、粤语合成、定制声音等，不仅满足了用户对声音情感化以及多样化的需求，还通过黑科技带给用户更个性化的声音体验。小爱同学声音体验升级的背后，其实正是小米自研语音合成技术的迭代创新。

　　语音合成的工程师们付出了很大的努力，对端到端语音合成技术的框架做了重大升级，也就是“第二代端到端语音合成技术”，只需目标发音人少量的录音数据，便可实现在音色和情感自然度等层面的合成效果高保真还原。

　　此外，工程师们进行了创新性探索，首先通过在模型中加入声纹编码和风格编码，使得目标音色在利用其他数据完善自己对各类型文本驾驭能力的同时，保存了本真声音特点，如童声的奶萌，青葱和茉莉的开心、关心；其次，我们上线了基于深度神经网络的声码器，使得生成的声音在音质上和对细节的刻画上更趋于自然饱满。

　　用心打磨粤语整体链路体验，我们对超过两万句回复做了符合粤语表述的优化，只为让粤语功能更地道、更好用。粤语功能将跟随小爱同学5.0在手机端上线，小米小爱音箱、小爱音箱Pro、小爱音箱Art、小爱音箱Art 电池版四款音箱已全量上线。

　　2020年2月，在小米10发布会上亮相了黑科技“定制声音”，用户只需要20句话就能够复刻自己、恋人、亲人的声音。作为目前行业内唯一一家大规模落地语音助手场景的公司，我们在不断给用户带来温情和爽点功能的背后，也曾面临各种挑战，例如如何基于少量低音质数据、如何实现海量声音模型云端智能调度、如何降低服务成本等，是这个功能落地背后工程师们一直致力解决的“难题”。

　　但在小米投资企业深声科技的帮助下，小爱同学的工程师们花了大量时间精力打磨优化，在短短几个月时间攻克了难题，最终带给用户更流畅更逼真的效果体验。

　　4、声纹识别

　　2020年，声纹识别技术持续扩充新能力，优化提升关键指标，以覆盖更多应用场景。扩充新能力层面，我们新增了儿童细粒度识别，进一步保护儿童内容健康。此外，我们将声纹的注册成本由原先的5句降低到3句，大幅降低了用户的注册成本。

　　近期，小米声纹的工程师更进一步，通过前沿的深度学习技术，直接将3句降成0句，用户几乎零注册成本就可以使用声纹能力。目前该技术已在小米电视5上线，大大提高了声纹用户覆盖率。

　　在识别准确率与误识率层面，经过一年的迭代优化，我们达到了业界领先水平。

　　目前小米自研的声纹能力，已落地在手机、音箱、电视等多种设备上，诞生了声纹锁、个性化聊天响应、声纹追剧、声纹支付等很多用户非常喜爱的场景功能。

　　二、计算机声学

　　小米声学技术致力于研发业界领先的智能声学技术，以物理声学、心理听觉、信号处理、深度学习为理论基础，开展阵列增强、通话降噪、智能感知、音频声场、声学测量等技术领域的研究工作，全面支持小米集团各个业务线的声学算法需求，其中通话降噪、麦克风阵列、协同唤醒、组合立体声、全屋播放、扬声器均衡等算法达到行业领先水平，已在多款小爱同学产品上线。

　　1、协同唤醒

　　大家都知道，当我们只有一个智能设备时，下达指令非常简单且直接。但随着用户家里的智能设备越来越多，在使用和操作方面也变得更加复杂，小米一直在思考如何让智能生活变得足够简单轻松、没有负担和门槛——小爱同学5.0，就是那个能帮你决策最佳执行设备的“智能生活助手”。

　　小米希望通过全场景智能协同，为用户提供多设备跨场景的灵活应答和执行能力，能够智能地选出最符合预期的设备唤醒应答、调起能力最匹配的设备执行指令、通过最适合的设备触达提醒。

　　首先在协同唤醒方面，当你用语音唤醒小爱同学时，小爱同学将会从设备距离、活跃状态、形态等综合条件判断，选择最优的设备应答并倾听，避免一呼百应。在控制功耗、不增加时延的同时，实现与其他设备的高效协同，突破原本“就近唤醒原则”的限制，实现根据场景不同唤醒不同设备的协同唤醒。

　　其次是协同响应方面，小爱同学解决了空间位置关系感知、设备能力统一建模、用户上下文状态管理等方面的技术难题，让小爱同学在接收并理解你指令后，自主选择出设备能力最能满足当前语义需求的设备，更好的满足你的需求。

　　最后是协同提醒方面，借助小米IoT生态的优势，小爱同学会即时通过海量小米智能设备获知环境状态，加上对用户家居控制习惯的学习记忆，预测你潜在的设备控制需求，适时主动为你作出提醒和建议，例如说晚安提醒你关灯，温度高时提醒你开空调或风扇。

　　2、阵列增强

　　在日常生活场景中，如果说话的人距离智能设备的麦克风较远，加上周围存在的噪声、多径反射和混响，会导致麦克风收取信号的质量下降，严重影响语音识别率。

　　针对这一问题，2019年，小米声学与语音团队联合推出了自主研发的阵列唤醒算法，并于2月20日上线小米AI音箱，有效提升噪声场景平均唤醒率及回声场景平均唤醒率。

　　9月20日发布的小爱音箱Pro及小爱音箱全量采用六麦自主研发的阵列唤醒算法，成为小米首款落地的全自主研发的智能音箱。

　　2020年，小爱音箱Art、小爱音箱Art电池版、Redmi小爱触屏音箱Pro 8英寸电池版陆续发布，均搭载了小米自研两麦阵列增强技术，采用两麦盲源分离降噪前端，通过盲源分离、降噪、回声消除等技术，在多声源的嘈杂环境、音箱自身播放音乐时，都能结合语音增强技术，消除噪音的强干扰，获得干净、准确的人声音频。

　　未来，这项技术将应用到更多的小米设备中。

　　3、组合立体声/全屋播放

　　小米AI实验室声学团队，依托自研分布式技术，持续研发出了基于Wi-Fi组网的分布式放音技术，并实现了国内智能音箱首次落地组合立体声的放音能力。

　　2020年，声学团队分布式放音技术全面升级，跟随小爱音箱Art发布立体声2.0，持续在全屋播放场景深挖技术，打通了设备端与云端的复杂信息同步，创新性地实现了语音支持全屋播放，用户只需说一句“全屋播放XXX的音乐”，即可实现同账号同Wi-Fi下的所有设备自动组网、并自动同步播放相同音频。在实现语音自动组网的同时，也仍然支持APP内操作组建播放组，满足用户不同场景的不同播放需求。

　　除此以外，组合立体声功能在2020年还实现了支持蓝牙、Auxin场景，用户可以通过蓝牙或Auxin模式，自由地在组合立体声上播放自己喜爱的音乐。

　　4、声学标准

　　结合小米在硬件产品上的交互经验和数据累积，2020年，声学实验室完成了《智能语音设备声学硬件准入标准和设计建议》企业标准报批，并且作为起草单位参与了《信息技术智能语音交互测试》国家标准和《智能家居终端技术要求及等级评估方法》IEEE标准的制定。

　　建立适用于智能语音交互产品的远场语音前端系统测评规范，旨在从用户体验角度建立一套科学完善的系统性能测评标准，为技术改进和方案选型提供有力支撑，促进语音技术产业良性发展。

　　三、自然语言处理

　　1、MiNLP平台

　　经过两年多的打造，小米AI实验室从0到1，推出了一个技术领先、应用广泛、有小米特色的自然语言处理平台（下称MiNLP平台）。目前MiNLP平台已经升级到了3.0版本，包含数十项NLP功能，已有30多个业务使用该平台，每天调用量达到80亿次。2020年11月，我们开源了MiNLP平台中文分词工具，后续还将陆续开源词性标注、命名实体识别、句法分析、语义分析工具。

　　分词是自然语言处理的基础，对小爱同学理解用户意图起着重要的作用。小爱同学之前采用开源分词，准确性不高且未针对业务场景进行优化。MiNLP平台通过对分词功能进行升级，在语料自动标注、领域数据增强、深度学习模型、人工干预机制、多端支持等方面有了很大的创新，先进的MiNLP平台为小爱同学提供强大基础技术支撑。

　　2、机器翻译

　　我们经常遇到的翻译是语音输入——大家说话然后把它翻译成其他语言。在机器翻译过程中，第一步是通过语音识别系统将语音识别成文字，然后通过文字翻译系统，将文字翻译成另外一种文字。在这个过程当中，语音识别系统可能会发生错误，且错误率一直较高。

　　针对这个问题，小米AI实验室给出了一些解决方法，其中，提出了基于对抗训练的抗噪语音翻译技术，简单来说，就是训练时尽量构造一些可能出错的句子一起加入训练。

　　同时，小米通过技术探索，对现有主流的神经机器翻译模型进行了优化，在移动端设备上实现了基于低计算能力CPU的高质量低延时的离线翻译。

　　3、多模态内容理解

　　“多模态”，简单来说就是：拥有各种传感器的智能设备，除了能听（耳）会说（嘴）外，同时还能利用摄像头（眼）观察、利用底盘云台（脚）移动等，从而全面的理解用户意图，和用户进行沟通，满足用户的需求。

　　作为多模态融合的应用场景之一，小米在视觉模块上投入了较多精力，全面扩充了小爱同学的视觉能力，包括集成键盘输入、语言输入、图像输入的多模态输入能力，自动截屏进行翻译、识物的语音与屏幕融合能力，还有新版扫一扫集成的六大核心功能：扫文档、翻译、扫码、识物、扫题、名片，全新的小爱同学5.0实现了多场景视觉能力提升，小爱同学的“眼睛”更好用了。

　　从语音输入走向视觉输入，未来的人工智能不仅会是生活的工具，也将会朝着人机交互、情感交互的的趋势发展，而如你我所见，小米的人工智能，一直在追求更自然地交互、更懂用户的需求的方向上努力，从未停下脚步。

　　4、人机对话

　　语音交互中的全双工连续对话能力，是目前业界比较关注的热点。全双工语音交互的特点是具备“边说边听，可随时打断”的能力。小爱同学是首个在手机上实现自然连续对话的智能语音助理。作为小米人工智能应用前沿探索的先锋，小爱同学经历了几代的技术积累与成长，也正朝着人文化、智能化的方向迈进。

　　小爱同学5.0的对话式主动智能，改变过去语音助手有问才有答的产品形态，小爱同学将会自己和你沟通，像人一样发起问题来增进对你的了解，拥有了关于你的记忆，背后强大的全场景主动服务能力也得以更好的施展。

　　为了让小爱同学能像人一样，拥有“记忆”，小米克服了很多难点，首先，有赖于小米NLP技术支持的30多个业务场景、日调用次数达80亿的深厚积累，用户对小爱同学说过的话会经过NLP分析处理，并主动学习其中关于用户的知识，另外，小爱同学还能计算哪些问题可以主动向用户提问，并在合适的时机加入到对话式主动智能的沟通队列中。

　　然后是记忆的存储，用户专属的小爱同学云端大脑会为用户建立多维度的个人画像，实现了全设备个人信息互联互通，每次交互都可以结合个人画像进行计算，产生出面向用户的个性化结果。

　　四、知识图谱

　　知识图谱，简单理解就是知识库，包括小爱同学的问答、搜索、推荐等能力都有涉及。知识图谱对小爱应用场景支持更广泛，除了知识问答场景外，支持音乐、视频、古诗、菜谱、复杂推理、闲聊等场景。我们还在小爱同学中增加了字、词、篇章、古诗的教育类能力，强化了“世界之最”以及“十万个为什么”知识专项。

　　小爱同学背后的知识图谱技术的提升主要体现在以下几个方面：

　　知识融合：多源异构知识融合技术不仅支持了文本知识融合还支持了多模态知识的融合；

　　知识构建：知识自动构建技术已经可以支持用户定制及敏捷扩展，可以更高效的支撑更多的业务；

　　知识关联：目前已经可以支持复杂的关系推理和知识推荐场景；

　　概念图谱：概念图谱体系持续扩展，目前概念体系扩展到了97%的实体；

　　实体链接：实体链接技术更加成熟，效果在小爱场景上准召都到98%以上。

　　2021年，小米将打造更自动化的知识图谱构建技术、更智能化的知识表示和知识推理应用、更开放化的知识图谱社区、更特色化的知识内容。

　　2020年，小米AI技术持续发展背后，藏着无数位工程师们的付出和坚持，也融合着小米期望将AI科技融入智能生活的美好愿景。

　　未来，小米AI实验室将继续攻克一个又一个难题，探索科技新高度，用人工智能的技术和产品，为每一个人带来更美好和更智能的生活。