从自监督预训练方法看语音任务生成式amp框架(组图)

编者按:尽管近年来深度神经网络模型在各种语音任务中取得了进展,但它们仍然依赖于大量的标注数据。自监督训练方法的出现和发展在一定程度上缓解了这个问题。近日,来自微软亚洲研究院和微软 Azure Speech Group 的研究人员提出了一种新的 Denoising Masked Speech,该方法是由研究院的自然语言计算组基于判别式自监督预训练方法和自然语言预训练的 Transformer 模型架构。研究所。建模框架。用 94,000 小时的英语语音进行预训练,通用语音预训练模型 WavLM 在所有 13 项 SUPERB 语音任务上均优于以往所有模型,排名第一,

近两年来音频信号主要物理参数有,预训练模型在自然语言处理和计算机视觉领域引起了学术界和工业界的广泛关注。在大规模无监督数据上训练的预训练模型具有非常好的泛化能力,只需对小规模的标记数据进行微调,就可以在相应的任务上得到改进。虽然之前预训练的模型在语音处理方面取得了一些进展,但它们只在语音识别任务上得到了验证。

为此,来自微软亚洲研究院和微软 Azure Speech Group 的研究人员提出了一种通用的语音预训练模型 WavLM。通过 Denoising Masked Speech Modeling 框架,研究人员将 WavLM 应用于 17 个任务并取得了非常好的效果,将语音预训练模型的有效性从语音识别任务扩展到了非内容识别语音任务。基于对 94,000 小时无监督英语数据的训练,WavLM 在多个语音相关数据集上也取得了最先进的结果。目前该模型已经开源并集成到Hugging Face的Transformer框架中,方便用户使用。

论文链接:

开源链接:

拥抱脸集成链接:

自监督预训练方法视角下的语音任务

生成式和判别式自我监督预训练方法

在过去的几年里,虽然深度神经网络模型在语音的各种任务上取得了突破,但仍然受限于模型训练所需的大量标记数据。自监督预训练方法的出现在一定程度上缓解了这个问题。该方法首先使用大规模无监督数据进行预训练,然后在小规模标注数据上对训练好的模型进行微调。已经表明,使用自我监督的预训练可以提高各种语音任务的性能。

根据预训练目标的不同,自监督预训练方法可以分为生成式和判别式。生成方法包括通过连续或离散的潜在变量恢复原始语音特征,例如可以预测未来时刻的自动编码器或掩码覆盖的语音特征。判别式通过对比学习或预测离散化指数(id)对模型进行预训练,例如 wav2vec2.0 和 HuBERT。在对 60,000 小时的数据进行预训练 wav2vec2.0 和 HuBERT 后,可以发现它在语音识别数据集 Librispeech 上达到了最先进的性能。两种方法都使用声波作为模型输入,并通过 CNN 模块进行下采样。下采样的特征被随机屏蔽并输入到 Transformer 编码器中。wav2vec2 使用对比学习进行模型训练,通过引入向量量化器对 unmasked CNN 输出进行离散化,并计算 Transformer 在掩蔽位置的输出表示上的 InfoNCE loss,其中正样本来自离散化向量,负样本来自来自语音序列中其他地方的离散化向量。另一方面,HuBERT 借用了 BERT 中掩码语言模型的损失函数,利用 Transformer 预测掩码位置的离散 id 来训练模型。HuBERT 使用迭代方法来生成训练目标,即每帧的离散 id。微软亚洲研究院的研究人员首先对语音的 MFCC 特征进行了 k-means 聚类,生成离散 id 用于学习第一代 HuBERT 模型,然后对训练好的上一代模型的输出表示进行聚类,生成一个新模型。下一轮学习的id。

尽管 wav2vec2.0 和 HuBERT 取得了非常好的进展,但它们的性能仅在语音识别任务上得到验证,只能处理单说话人任务,而说话人分离等多说话人任务在任务上表现不佳. 此外,由于这两个模型使用音频电子书 LibriLight 数据集作为预训练集,因此模型在域外下游任务上的表现并不理想。

新的去噪掩蔽语音建模框架

继微软亚洲研究院自然语言计算组在自然语言预训练中的Transformer模型架构之后,研究院的研究人员提出了Denoising Masked Speech Modeling的预训练方案。如下图所示,WavLM 模型包含一个卷积编码器(CNN Encoder)和一个 Transformer 编码器。其中,卷积编码器共有7层,每层包含一个时间卷积层、一个层归一化层和一个GELU激活函数层。在 Transformer 编码器中,研究人员使用了门控相对位置偏差,将相对位置引入到注意力网络的计算中,以更好地建模局部信息。训练时,WavLM 会随机变换输入的 wav,例如:混合两个 wav,或添加背景噪音。之后,随机覆盖大约 50% 的音频信号,并在输出端预测覆盖位置对应的标签。WavLM 遵循 HuBERT 提出的思想,通过 Kmeans 方法将连续信号转换为离散标签,并将离散标签建模为目标。形式上来说,给定一个输入语音X,首先提取其标签Y,然后对X添加噪声和掩码,生成X̂,而Transformer模型需要输入X̂来预测被掩码位置的标签Y。

图1:WavLM模型网络结构

大规模训练数据

WavLM 使用 94,000 小时的英语语音进行了预训练,这是可用于开源英语模型的最大训练数据。来自不同领域的大规模无监督语音数据有助于 WavLM 提高模型的鲁棒性。大多数先前的研究仅使用 LibriSpeech 或 LibriLight 数据集进行预训练,这限制了预训练模型的泛化能力,因为输入数据都是从有声读物中提取的。而且,电子书中的语音环境与真实场景中的不同,往往伴随着更多的噪音。

因此,研究人员用两个额外的数据集扩展了训练数据:

(1) 从电子书、播客和 YouTube 收集的 10,000 小时 GigaSpeech 数据,涉及艺术、科学、体育等不同主题。

(2) VoxPopuli 数据。这是一个大规模的多语言未标记音频数据集,包含 23 种语言的超过 400,000 小时的音频,收集自 2009-2020 年欧洲议会(EP)的录音。研究员我们只使用了 24,000 小时的英语来自 VoxPopuli 的数据用于预训练。

结合 LibriLight 的电子书数据,研究人员共收集了 94,000 小时的数据(包括 LibriLight、VoxPopuli 和 GigaSpeech)。微软亚洲研究院的研究人员认为,丰富的数据集可以提高模型的鲁棒性,因为它包含不同的音频上下文、更多的说话者和不同的内容。研究人员将数据集称为 Mix 94k hr 以简化描述。

任务评估和实验结果

SUPERB (13 言语任务评估)

Speech processing Universal PERformance Benchmark (SUPERB) 是由台大、麻省理工学院、卡内基梅隆大学和 Meta 公司联合提出的评估数据集,包含 13 个语音理解任务,用于评估预训练模型的性能。坏的。13 项任务包括:说话人识别、自动说话人验证、说话人分类、说话人日志、音素识别、自动语音识别和关键字识别。词检测)、按示例查询口语词检测 (QbE)、意图分类、槽填充、情感识别、语音分离、语音增强和语音翻译。

在对模型进行微调的过程中,不允许更新预训练模型的参数,以衡量预训练模型是否能够在预训练中学习到相应的信息。评估结果表明,WavLM 优于以前的预训练模型,并且在具有较少参数的基础模型的情况下优于以前最好的 HuBERT 大型模型。

图 2:SUPERB 排行榜上的 WavLM 性能

扬声器验证

Speaker Verification 任务主要是验证两个声音是否是同一个人说的,在语音领域有重要的应用。研究人员使用 VoxCeleb 2 作为训练集,在 VoxCeleb 1 上进行测试,分为三个测试集:Vox1-O、Vox1-E 和 Vox1-H。在这项任务中,研究人员选择了经典的 ECAPA-TDNN 作为下游模型,证明了预训练模型可以大大降低说话人验证任务的错误率。

表 1:WavLM 在说话人验证任务 Vox1-O、Vox1-E 和 Vox1-H 上的性能

可以看到,使用预训练模型后,ECAPA-TDNN模型的Equal Error Rate下降了50%以上,大大提高了模型的准确率;而且,在这项任务中,WavLM 仍然比 HuBERT 好。该模型具有更好的结果。

由于在说话人验证任务上的出色表现,Hugging Face 使用 WavLM 作为种子进行微调,并做了一个在线演示来检测两个语音是否来自同一个说话人。

演示链接:

图 3:演示截图

扬声器分类

说话人区分任务也称为声纹分割聚类和说话人分割聚类,主要要解决的问题是“何时和谁在说话”。也就是说,给定一个包含多个人交替发言的演讲,该任务需要确定每个时间点谁在发言。例如,对于客户和客服之间的通话记录,任务需要知道客户在哪个时间段说出了语音,以及客服在哪个时间段说出了语音。

表 2:WavLM 在说话者日志任务 CALLHOME 数据集上的性能

研究人员使用 CALLHOME 数据集对模型进行评估,并选择 EEND-vector clustering 作为 Diarization 的整体流程,分为说话人向量提取和聚类模块。从实验结果可以看出,WavLM模型可以大大降低speaker log的分类错误率。

语音分离

语音分离任务的目标是分离一段包含多人的语音,确保每个输出源只包含一个人的一段语音。研究人员使用 LibriCSS 数据集评估语音分离任务,该数据集使用 ASR 模型测试语音分离模型的单词错误率 (WER),以隔离音频。研究人员选择Conformer模型作为Downstream模型,实验结果如下图所示:

表 3:WavLM 在 LibriCSS 数据集上用于语音分离任务的性能

可以看出,WavLM可以大大提高分离模型输出的音频质量。在 40% 重叠和 0 重叠时,它超过了基线的性能。

语音识别

语音识别(Speech Recognition)任务的目标是将一段语音转换为文本。在这项任务中,研究人员使用包含总共 960 小时有声读物录音的 Librispeech 数据集来验证 WavLM 的预训练效果。研究人员考虑了四个不同大小的监督子集进行微调:train-1h、train-10h、train-clean-100h 和所有 960h Librispeech音频信号主要物理参数有,并在标准测试集 test-clean 和 test-other 上进行了比较。下表显示了在 1h、10h 和 100h 上的结果,可以看出,在没有语言模型的情况下,WavLM 明显优于 wav2vec2.0 的结果。再加上不同语言模型的联合解码,WavLM 的结果与 wav2vec2.0 和 HuBERT 的结果相当甚至更好。

表 4:WavLM 在语音识别任务 Librispeech 数据集 1h、10h 和 100h 上的结果

下表显示了对整个 960h Librispeech 数据集进行微调的结果。结果表明,WavLM 优于所有受监督的训练模型,并取得了与 wav2vec2.0 和 HuBERT 相当的结果。实验结果表明,虽然 WavLM 在预训练时引入了人工噪声和多说话人输入,提高了其在多说话人任务上的性能,但并没有损害模型在单说话人语音识别任务上的性能。,但在多个微调子集场景中优于基线,证明了 WavLM 预训练的有效性。

表 5:WavLM 在语音识别任务 Librispeech dataset 960h 上的结果

未来,微软亚洲研究院的研究人员将继续探索如何训练更大规模的模型以获得更好的性能,并探索压缩模型的方法,使模型能够在低资源设备上快速推断。此外,研究人员还将就如何联合训练大规模无监督语音数据和文本数据进行更多的讨论和研究。

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论