前端语音识别声学建模模块的优化过程及优化方法解析

前端增强模块通常包括波达方向 (DOA) 和波束成形 (BF)。DOA技术主要用于估计目标声源的方向,而BF技术则利用目标声源的方位信息来增强目标信号并抑制干扰信号。

后端语音识别声学建模模块将对这个增强的语音信号进行深度学习建模。这个建模过程与手机近场语音识别的建模过程完全相似,只是输入到建模过程中的信号不是手机麦克风采集到的近场信号,而是经过增强的基于麦克风阵列的数字信号处理技术。一路增强信号。

近年来,前端语音增强技术逐渐开始将深度学习用于波达方向(DOA)和波束形成(BF)。许多论文和产品也提到了使用深度学习技术来代替麦克风阵列系统。传统的数字信号处理技术也得到了一些改进。

但,

1)光束区域拾取方法有局限性。上述语音增强技术大多采用基于MSE的优化准则声音识别算法源代码,使波束内的语音更清晰,波束外的背景噪声从听觉感知上更小。但听觉感知和识别率并不完全相同。当噪声内容也是语音内容时(例如当电视和人在同一方向时),这种方法会显着降低。

2)增强和识别模块优化目标不一致。前端语音增强模块的优化过程独立于后端识别模块。这个优化目标与后端识别系统的最终目标不一致。目标不一致很可能导致前端增强模块的优化结果在最终目标中不理想。

3)真实产品环境复杂,传统方式会影响用户体验。由于实际产品中声源环境复杂,大多数产品首先通过DOA确定声源方向,然后利用波束赋形在该方向形成波束声音识别算法源代码,以提高波束中信号的信噪比,而抑制来自光束外噪声的干扰。这样的机制使得整个系统的工作效果在很大程度上依赖于声源定位的准确性。同时,当用户第一次说出唤醒词或语音命令时,很难准确地使用第一次语音的波束信息(智能音箱没有眼睛,也不知道什么方向当你第一次醒来的时候。

二、集成的端到端识别

2017年,谷歌团队首次提出使用神经网络解决前端语音增强和语音声学建模的集成建模问题。

文章从信号处理的Filter-and-Sum方法入手,先推导时域的模型结构,再推导频域的模型结构FCLP(Factored Complex Linear Projection),相比于时域模型。计算的金额。

该结构依次通过空间滤波和频域滤波从多声道语音中提取多个方向的特征,然后将特征送入后端识别模型,最终实现网络的联合优化。

Google 提出的 FCLP 结构仍然以信号处理方法为出发点,起源于延迟和和滤波器,使用深度学习网络对信号束进行模拟和逼近,因此也受到一些先验假设的限制。信号处理方法。

例如,FCLP的最底层没有挖掘频段间的相关信息,存在多通道麦克风信息利用不足的问题,影响深度学习建模过程的模型精度。

又例如,定义波束观察方向的数量小于10个,主要对应于数字信号处理过程中的波束空间划分。这种必须符合数字信号处理过程的深度学习模型结构设计,严重影响了深度学习技术在这个方向上的发展和延伸,限制了深度学习模型模型结构的演进,制约了创新和技术的发展。.

最后,Google Scholar 报道称,通过这种方法,与传统的基于数字信号处理的麦克风阵列算法相比,获得了 16% 的相对错误率降低。

三、百度的解决方案

图片[1]-前端语音识别声学建模模块的优化过程及优化方法解析-老王博客

百度采用了类似的思路,就是做“语音增强与语音声学建模的集成”的端到端建模,但他们使用的是“基于复杂的卷积神经网络”。

与Google的方法相比,该方法完全摒弃了数字信号处理学科的先验知识,将模型结构设计与数字信号处理学科完全解耦,充分发挥了多层结构和多通道特征提取的优势CNN网络的。

具体来说,在模型的底部,以复杂的CNN为核心,利用复杂的CNN网络挖掘生理信号本质特征的特征。采用复杂CNN、复杂全连接层、CNN等多层网络,直接从原始多声道语音信号中提取多尺度、多层次的信息,充分利用频段间的关联耦合信息.

该模型在保留原始特征相位信息的前提下,同时实现前端声源定位、波束赋形和增强特征提取。将模型底层的CNN抽象出来的特征直接馈入端到端的流式多级截断注意力模型(SMLTA),从而实现从原始多通道麦克风的端到端集成建模识别目标文本的信号。.

整个网络的优化准则完全依赖于语音识别网络的优化准则,以提高识别率为目标对模型参数进行调优。

贾磊说:“我们的模型可以提取生物信号的本质特征。为了比较,谷歌的系统假设两个麦克风信号对应的频段之间的信息产生了关系,没有挖掘频段之间的信息。这也是谷歌系统识别率低的原因。”

如前所述,相比于百度智能音箱在线产品中使用的传统的基于数字信号处理的前端增强模块和后端语音识别声学建模过程,这种基于复杂卷积神经网络的语音增强方法和声建模集成端端到端建模技术,错误率降低30%以上。

此外,贾磊在演讲中还列出了这种端到端语音识别的5个特点:

这里值得一提的是,百度的集成建模解决方案已经集成到百度新发布的洪湖芯片中,占用不到200K的内存。

四、结束

30%的降低,这也是近期深度学习远场识别技术中最大的产品性能提升。贾磊认为,这揭示了“端到端建模”将是远场语音识别行业应用的重要发展方向。

贾磊接着补充道:

“本质上,人的语音交互都是远场的。近场语音交互,手机的麦克风放在嘴巴附近,只是人们最初进行语音识别时的一个限制,因为他们无法解决远场识别的问题。

如果未来三年远场语音技术成熟,所有语音都将处于远场唤醒模式。唤醒后可进行任意连续输入,任何家电或车载设备均可搭载语音交互功能进行该领域的查询。因此,这项技术的成熟意味着远场语音识别将走进千家万户。在我们看到的所有设备中,远场语音交互将是主体。如果我们配合芯片的开发,语音识别和语音合成将是一体的。解决人端交互,我觉得可以期待。”

雷锋网年度评选——寻找19大行业最佳AI落地实践

创立于2017年的《年度AI最佳掘金榜》是业界首创的AI商业案例评选。从商业用途的角度,雷锋网寻找人工智能在各个行业的最佳实施实践。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论