阿里达摩院:AI语音场景如何做到精益细化? 2022-07-20 11:21:36

在一些可支持语音识别和语音交互功能的智能硬件(例如扫地机器人、智能音箱、智能服务机器人等),无可避免会受到噪音的干扰。除非在一个绝对安静的环境,否则这些带语音识别功能的智能机器人都会受到其他声音的干扰挑战,影响语音的正确识别。

 

为了优化和精益AI语音识别功能,阿里达摩院在智能硬件语音识别技术方案上,也增加了不同的算法,同时也细化了麦克风阵列的选择(数字麦或模拟麦),芯片选型、对于功耗的控制云能力对接,包括端上的信号的处理、回声消除、降噪波束形成、声源定位,包含端侧的唤醒命令值、快捷指令,包括硬件层面声学硬件的设计跟服务等。

 

当厂商去集成语音交互能力的时候,能够使用标准的接口跟API去对接,能够大幅降低语音AI能力开发的难度,同时能对智能硬件进行二次的开发,更好的去满足特定产品的需求。

 

云端上有很多传统的语义理解、对话管理、语音合成、声纹识别,在这个过程中会聚焦在核心的技术方向上,持续的去投入跟建设,尽量去推动技术边界的扩展、技术深度的提升。

 

前端的智能硬件来看主要负责语音接收和反馈,包括回声消除、噪声降噪、自动增益控制,我们更多的会去结合信号处理的滤波,把回声消除的线性部分,后处理部分跟降噪的部分,还包括自动增益控制的部分,使用 hybrid的架构,去把它融合,发挥模型的非线性建模的能力,以及自适应滤波对环境对资源开销小的优势。同时,我们会基于盲源分离的方案去把混响回声消除、声源分离,都通过盲源分离理论去统一起来。


同时我们在这一块不仅会把前端的不同任务通过统一的框架去处理,也会跟语音唤醒去做进一步的联合,使得唤醒的信息能够反馈到智能硬件上,能够指导前端,让盲源分离能够处理得更好。


speakers-502889_960_720.jpg


多模态模组会面向公众空间,刚才讲的像地铁车站它噪声非常强,有些受人流的噪声影响也很大。我们就会把本地的视觉的能力跟前面模态融合的前端算法融合起来。它核心特点就是性能比较高。


我们通过统一的建模方法,把混响完全分离,回声消除都通过分离方案进行构造的话,它就能够用比较低复杂度的设计,使得算法能够在小的资源的芯片上能够得到高性能。

 

TAG:语音识别|机器人|人工智能|语音交互|阿里达摩院


(来源自网络,有节选,侵权即删)