
【12月公开课预览】,进群直接获取报名地址。12月11日晚8点直播。直播主题:人工智能消化道病理辅助诊断平台——从方法到落地12月12日晚8点直播:使用容器技术Building AI公司技术12月17日晚8点直播主题:可重构计算:能效比率,多功能性,一个不能少
作者 | 只是
在3米甚至5米的距离内,用户与智能音箱的对话是典型的远场语音识别应用场景。
在远场环境下,目标声源距离拾音器较远,导致目标信号衰减严重。此外,环境嘈杂,干扰信号多,最终导致信噪比低,语音识别性能差。为了提高远场语音识别的准确率,一般采用麦克风阵列作为拾音器。采用多路语音信号处理技术,增强目标信号,提高语音识别准确率。
然而,传统的数字信号处理技术已经无法满足技术发展的需要,在麦克风阵列系统中利用深度学习技术替代传统的数字信号处理开始成为行业主流。然而,此前业界提出的解决方案需要符合数字信号处理过程的深度学习模型结构设计,严重影响了深度学习技术在该方向的使用和扩展,制约了深度学习模型结构的演进。学习模式,制约着技术创新和发展。
在近日举行的百度大脑语音能力引擎论坛上,百度语音首席架构师贾雷提出了一种基于复杂卷积神经网络(Convolutional Neural Network,CNN)的集成端到端建模技术,用于语音增强和声学建模,它摒弃了数字信号处理学科和语音识别学科的各种先验假设,模型结构设计与数字信号处理学科完全解耦。它利用了CNN网络的多层结构和多通道特征提取,同时充分发挥了深度学习学科模型设计灵活自由的学科优势。
据介绍,与传统的基于数字信号处理的麦克风阵列算法相比,该方法的误码率降低了30%以上,并且已经集成到百度最新发布的百度洪湖芯片中。
基于传统数字信号处理的技术
目前,语音识别技术在高信噪比场景下表现良好,但在低信噪比场景下表现往往不稳定。
典型的语音识别场景包括目标声源、非目标声源、拾音器和语音识别软件系统。以家庭场景中的智能音箱产品为例。目标声源是向扬声器发出指令的用户;非目标声源是周围的声音干扰,如家用电器噪声;拾音和语音识别软件系统是智能音箱。在拾音器拾取的信号中,来自目标声源的信号称为目标信号,来自非目标声源的信号称为干扰信号。目标信号强度与干扰信号强度之比称为信噪比。
远场语音识别是典型的低信噪比场景。目前在售的大部分智能音箱产品系统所使用的多声道语音识别系统由前端增强模块和后端语音识别声学建模模块串联而成:
前端增强模块通常包括到达方向估计(DOA)和波束生成(BF)。DOA技术主要用于估计目标声源的方向,而BF技术则是利用目标声源的方位信息来增强目标信号并抑制干扰信号。常用的DOA技术包括基于到达延迟的定向算法和基于空间谱估计的定向算法。
常用的 BF 技术包括最小方差无失真响应波束成形 (MVDR BF)、线性约束最小方差波束成形 (LCMV BF) 和广义旁瓣消除波束成形 (GSC BF)。这些BF技术实质上是提高了波束方向的目标声源方向信号的信噪比,尽可能抑制波束外的非目标方向信号。经过前端增强模块处理后,会生成单个麦克风信号,并输入到后面的后端语音识别声学建模模块中。
后端语音识别声学建模模块将对这个增强后的语音信号进行深度学习建模。这个建模过程与手机近场语音识别的建模过程完全相似,只是建模过程中输入的信号不是手机麦克风采集的近场信号,而是经过数字信号增强基于麦克风阵列的处理技术,一路增强信号。
近年来,前端语音增强技术逐渐开始将深度学习用于到达方向估计(DOA)和波束生成(BF)。许多论文和产品也提到使用深度学习技术来替代麦克风阵列系统。传统的数字信号处理技术也得到了一些改进。
然而,上述类型的语音增强技术大多采用基于MSE的优化标准,使得波束内的语音从听觉感知上更清晰,波束外的背景噪声更小。但是听觉感知和识别率并不完全相同。而且,当噪声内容也是语音内容时,这种方法的性能会急剧下降。另外,前端语音增强模块的优化过程独立于后端识别模块。这个优化目标与后端识别系统的最终目标不一致。目标的不一致很可能导致前端增强模块的优化结果在最终的目标中是次优的。
另外,由于实际产品情况下声源环境复杂,大多数产品首先通过DOA确定声源方向,然后利用该方向的波束生成,形成波束,提高信号的信噪比在光束中。同时抑制了波束外噪声的干扰。这样的机制使得整个系统的工作效果在很大程度上取决于声源定位的准确性。同时,当用户第一次说出唤醒词或语音命令时,难以准确使用第一声束信息,影响首次唤醒率和首句识别速度。
2017年,谷歌团队首次提出使用神经网络解决前端语音增强与语音声学建模的集成建模问题。文章从信号处理的Filter-and-Sum方法出发,首先推导出时域中的模型结构。然后进一步推导出频域中的模型结构FCLP(Factored Complex Linear Projection),与时域模型相比,大大减少了计算量。这种结构依次使用空间滤波和频域滤波从多声道语音中提取多个方向的特征,然后将特征发送到后端识别模型数字信号处理难不难学,最终实现网络的联合优化。
Google 提出的 FCLP 结构仍然以信号处理方法为出发点,起源于延迟求和滤波器,使用深度学习网络对信号束进行模拟和近似,因此也会受到一些先验假设的限制信号处理方法。比如最低层的FCLP没有挖掘频段间的相关信息,存在多通道麦克风信息利用不足的问题,影响了深度学习建模过程的模型精度。
又如,波束方向(视向)的数量定义为小于10个,主要对应于数字信号处理过程中的波束空间划分。这种必须符合数字信号处理过程的深度学习模型结构设计,严重影响了深度学习技术向该方向的发展和延伸,制约了深度学习模型的模型结构演进,制约了技术创新和发展。最终,谷歌学术报告,通过这种方法,与基于数字信号处理的传统麦克风阵列算法相比,获得了16%的相对错误率降低。
基于复杂CNN的语音增强和声学建模端到端集成建模技术
贾雷透露了基于复杂卷积神经网络(Convolutional Neural Network,CNN)的语音增强和声学建模的端到端集成建模技术的更多细节。
具体来说,模型底层以复杂CNN为核心,利用复杂CNN网络挖掘生理信号的本质特征,利用复杂CNN、复杂全连接层、CNN等多层网络直接相乘原始多路语音信号。大规模、多层次的信息提取,充分挖掘频段间相关联的耦合信息。在保留原始特征相位信息的前提下,同时实现前端声源定位、波束形成和增强特征提取。将模型底部的CNN抽象出来的特征直接输入到百度独有的端到端流式多阶段截断注意力模型中,从而实现了从原始多路麦克风信号到目标文本识别的端到端一体化构建。模具。整个网络的优化标准完全依赖于语音识别网络的优化标准,模型参数调优完全是为了提高识别率。
除了模型结构,这种方法要想成功实现产品,还必须解决多个麦克风训练数据的获取和建模问题。应该知道,目前商用语音识别系统的训练数据主要依赖于从数据公司购买的手机上记录的近场语音数据采集。远场多通道麦克风数据由于采集设备难度大,周围噪声环境难以控制,很难获得,而且很少有大规模的训练集。
百度开发了一种利用近场数据模拟远场训练数据生成的方法:模拟一个信号到多个麦克风的信号传输过程,应用混响噪声和环境加性噪声。使用这种方法,他们在远场房间环境中制作了数百万个远场多通道麦克风信号的仿真数据,并成功训练了一个可以达到产品线级别的集成声学模型。
论坛上,全新发布了三款基于搭载该语音技术的洪湖语音芯片的硬件产品:芯片模块DSP芯片+Flash、Android开发板DSP芯片+RK3399、RTOS开发板DSP芯片+ESP32。此外,贾雷还介绍了基于洪湖语音芯片的端到端软硬件一体化远场语音交互解决方案,以及新发布的智能家居、智能汽车、智能物联网设备三场景解决方案。
此外,今年年初数字信号处理难不难学,百度提出了截断注意力模型SMLTA,显着提升了整句识别率、方言识别率、中英文混合识别率,实现了大- 语音识别领域注意力模型的工业级在线产品。
在语音合成领域,百度首创Tacotron+wavRNN联合训练,大大提升了云端合成的速度。百度地图的20句语音导航技术是基于百度原创风格传递技术的Meetron模型。其特点主要体现在音色转换、多情感阅读和韵律传递三个方面,从而大大降低了语音合成的门槛。
基于深度学习和行业应用加速突破,百度语音技术已在百度App、百度地图、小度音箱、百度输入法等产品中落地。百度CTO王海峰也在会上宣布,百度大脑通过AI开放平台开放了228项技术能力,接入开发者超过150万,语音技术日均通话量超过100亿。
请登录后发表评论
注册
社交帐号登录