西工大音频语音与语言处理研究组(ASLP)一直致力于提升语音合成音质

文本到语音(TTS),也称为文本到语音转换技术,是一种将文本转换为自然语音的技术。它是语音交互、信息广播、音频阅读等任务的核心技术。TTS 是一个典型的序列到序列 (Seq2Seq) 任务。然而,与机器翻译等 NLP 中的 Seq2Seq 任务相比,TTS 任务更具挑战性,因为它是一个严重的不等长序列映射任务。“你好”这样的短词可能对应800个样本点,人类的听觉对合成语音的音质和自然度有着非常严格的要求。为了应对“严重不等长序列映射”的任务,目前的TTS框架通常采用两级结构——由两部分级联组成,声学模型和声码器。声学模型负责从文本序列中预测低分辨率(帧级)的中间表示,而声码器从中间表示中重新生成波形样本。通常这些帧级的中间表示是人为设计的声学参数,如梅尔谱、BFCC等。

NPU的音频语音与语言处理研究组(ASLP@NPU)一直致力于提高语音合成的音质。去年,它提出了一种基于子带的 MelGAN 声码器——Multi-band MelGAN [1]。近日,实验室与腾讯AI LAB合着的论文《Glow-WaveGAN: Learning Speech Representations from GAN-based Variational Auto-Encoder For High Fidelity Flow-based Speech Synthesis》被顶级语音研究会议INTERSPEECH2021录用[ 2]。在这项工作中,不同于以往大多数研究中使用预先设计好的声学中间表示(如常用的 Mel 谱),论文提出直接使用 VAE(Variational Auto-Encoder)结合 GAN(Generative Adversarial Network)中间表示是从语音中学习的,然后使用基于流的声学模型对潜在中间表示的分布进行建模。实验结果表明,基于流的声学模型可以准确地对学习到的语音表示的分布进行建模在语音子带编码方案中,并且提出的 TTS 框架,即 Glow-WaveGAN,合成音频质量优于使用梅尔谱作为中间表示模型的主流模型。现将本文简要解读和分享。合成音频质量优于使用 mel 频谱作为中间表示模型的主流音频质量。现将本文简要解读和分享。合成音频质量优于使用 mel 频谱作为中间表示模型的主流音频质量。现将本文简要解读和分享。

论文题目: Glow-WaveGAN: Learning Speech Representations from GAN-based Variational Auto-Encoder For High Fidelity Flow-based Speech Synthesis

1. 背景动机

由于文本和语音音频在时间分辨率上的巨大差异,大多数方法将 TTS 过程分为两个阶段,即声学模型和声码器。声学模型首先从给定的字符或音素序列生成帧级中间表示,而声码器从中间表示生成音频。尽管最近随着深度学习的应用在声学模型和神经声码器方面取得了进展,但这两个阶段之间仍然存在不匹配,这可能导致在推理过程中对合成语音进行推理。缺陷。我们认为其中一个重要原因是从声学模型预测的特征和从语音中提取的特征在不同的分布上。减轻不匹配的一种直观方法是使用声学模型生成的中间表示来训练或微调神经声码器。除此之外,将声学模型和声码器集成到“端到端”模型中是另一种可能的解决方案 [3,4,5,6],但此类模型在训练过程中往往难以快速收敛。

为了解决上述“不匹配”问题,本文提出了 Glow-WaveGAN。与使用预先设计的声学特征的现有方法不同,我们通过变分自动编码器 (VAE) 直接从语音中学习隐藏表示作为声学模型的预测目标。在这里,VAE 的编码器可以看作是一个特征提取器,它从音频中提取中间表示 Z,而 VAE 的解码器从中间表示 Z 中重建音频。此外,我们应用了生成对抗网络 (GAN)输出以提​​高重建语音的质量。此外,我们使用基于流的声学模型来估计来自文本的中间表示 Z 的分布。

2. 提案

图 1 显示了我们提出的 Glow-WaveGAN 框架。该架构由一个 WaveGAN 模块组成,该模块旨在通过波形重建来学习潜在的语音表示,以及一个 Glow-TTS [7] 模块,该模块旨在将输入文本映射到由 WaveGAN 模块表征提取的语音隐藏层。为了学习语音的潜在表示,我们使用变分自动编码器 (VAE) 进行特征提取和重建,并添加 GAN 来提高重建音频的质量。为了提取更稳健的中间表示 Z,我们进一步引入音高预测作为辅助任务。最后,我们利用基于流体的声学模型 Glow-TTS 来学习从编码器中提取的潜在表示的分布 Z。

图 1 Glow-WaveGAN 框架

2.1 通过 VAE 提取语音表示并重建音频

我们使用 VAE 以无监督的方式学习语音表示。这里 VAE 由编码器和解码器组成,其中编码器将输入音频 w 编码为不可见特征 z,解码器从 z 重构回 w:

VAE 的优化目标由重建损失函数和先验正则化项组成。我们采用多分辨率STFT损失函数[8]作为重建损失函数。

所提出的用于学习语音表示的 VAE 的详细架构如图 2 所示。编码器由一堆采样卷积层组成,后跟一个残差块,用于总结语音中的抽象信息。在编码过程之后,我们将得到的均值和方差视为学习的潜在分布 q(z|w) 的统计量。解码器的结构是编码器的镜像对称,我们使用转置卷积将采样的 z 上采样为语音。由于基本频率信息对于自然语音合成很重要,并且 z 将作为声学模型的目标,我们进一步建议使用基本频率信息来增强潜在表示 z。为了实现这一点,我们引入了一个基频预测器来预测来自 z 的真实基频,

其中 p 表示提取的对数基频,f(·) 是具有两个卷积层和一个线性输出层的预测器,基频提取中的帧移取决于采样倍数。

图2 本文使用的VAE结构

2.2 通过GAN重构高质量音频

我们进一步使用 GAN 来提高上述 VAE 重建的语音质量。如图 1 所示,上述带有基频预测器的 VAE 作为生成器,因此生成器首先将波形编码为中间表示 z,然后从 q(z|w) 的样本 z 生成语音。鉴别器网络对真实音频样本和生成的音频样本做出决定。至于对抗训练,我们使用 LSGAN 作为损失函数来稳定训练。GAN 生成器和判别器的损失函数定义为:

其中G代表VAE编码和解码部分,D代表多分辨率频谱鉴别器[9]。此外,我们使用特征匹配损失 [9] 作为额外损失来训练生成器。最后,WaveGAN 的总损失函数为:

我们在实验中设置 λ1=10, λ2=1, λ3=1, λ4=1, λ5=20。鉴别器使用对抗性损失进行优化。整个训练过程总结在算法 1 中。

算法1 WanGAN训练过程

值得注意的是,WaveGAN 架构如果只结合了 VAE 中的解码器和判别器,并使用传统的梅尔谱作为输入,则可以看作是基于 GAN 的声码器。我们将这种组合声码器称为 InnerGAN,并在后续实验中对其进行比较。

2.3 基于流的声学模型

使用带有 VAE 和 GAN 的 WaveGAN,我们可以获得一个用于提取潜在表示的提取器和一个用于从表示中合成波形的声码器。因此,声学模型旨在对潜在表示 z 的分布进行建模,为此我们使用基于流的声学模型 Glow-TTS 通过应用可逆变换来直接最大化 z 的概率。因此,我们整个TTS训练过程如下:

用音频和提取的基频训练 WaveGAN;

使用训练好的 WaveGAN 提取音频的中间表示 Z;

Glow-TTS 使用提取的中间表示 Z 作为 Glow-TTS 的目标分布进行训练。

3. 实验验证

我们在英语单人数据LJSpeech和英语多人数据集VCTK上进行了实验来评估本文提出的语音合成方法,同时比较了多个模型:

最先进的基于 GAN 的声码器 HiFi-GAN [10];

Inner-GAN 声码器(结合了 VAE 解码器和提到的鉴别器);

Glow-WaveGAN(本文提出的方法)。

3.1 语音合成结果评估

我们在 LJSpeech 和 VCTK 的测试集上进行了自然度和音质的 MOS 测试,MOS 得分如表 1 所示。可以看出,无论是从真实语音表示(复制合成)或文本到语音(TTS)。而 Glow-WaveGAN text-to-speech 和 Copy Synthesis 的 MOS 差距仅为 0.08,明显低于 HiFi-GAN 的 0.6。这意味着具有更准确分布的语音表示已经学习了语音的真实分布,并且对于声学模型,这种学习到的语音表示的分布更容易预测。与 Inner-GAN 的结果相比,进一步验证 Glow-WaveGAN 带来的 MOS 增益并不是因为模型结构的变化。同时,我们发现音高预测的重要性,没有音高预测结构得到的MOS分数会明显变差。

表 1. VCTK 和 LJSpeech 的 MOS 分数;SR 是特征表示,其中 ^ 表示声学模型预测。

3.2 对看不见的说话者的概括

为了测量我们的模型对看不见的说话者的泛化能力,我们使用从 VCTK 保留的 9 个随机选择的说话者进行测试。请注意,对于 Vocoder 和 WaveGAN 的训练,未见说话者的数据被完全排除在训练集中,但对于训练 Glow-TTS,只排除了 MOS 测试的测试集。结果如表 2 所示。可以看出,我们提出的模型的 MOS 得分优于其他模型,甚至接近看到的说话者,这表明提出的模型可以很好地推广到看不见的说话者。

表 2 VTCK 上未见过的发言者的 MOS 分数;SR为特征表示,带^的表示声学模型的预测

3.3 综合示例

LJSpeech TTS 示例

VCTK TTS 示例

– 看过演讲者

-看不见的扬声器

中文 TTS 样本

4. 结论

在这项工作中,我们提出了 Glow-WaveGAN,它可以从文本中合成高保真语音,而无需使用预先设计的 Mel 谱作为中间表示。具体来说,我们使用结合了 VAE 和 GAN 的 WaveGAN 的编码器来提取可以由解码器重建回波形的潜在语音表示。为了预测声学模型中潜在表示的分布,我们利用 Glow-TTS 从文本中估计 Z 的分布。结果表明,我们提出的模型合成的音频质量优于使用 mel 频谱作为中间表示的最先进的模型。

参考

[1] G. Yang、S. Yang、K. Liu、P. Fang、W. Chen 和 L. Xie,“Multi-Band Melgan:Faster Waveform Generation for High-Quality Text-To-Speech”,2021 年 IEEE 口语语言技术研讨会 (SLT),2021 年,第 492-498 页

[2] J. Cong, S. Yang, L. Xie, D. Su.,“Glow-WaveGAN:从基于 GAN 的变分自动编码器中学习语音表示,用于基于高保真流的语音合成”,Interspeech2021,布尔诺,捷克共和国,2021 年 8 月 30 日至 9 月 3 日

[3] Y. Ren、C. Hu、X. Tan、T. Qin、S. Zhao、Z. Zhao 和 T.-Y。刘,“FastSpeech 2:快速和高质量的端到端文本到语音”,在 Proc。ICLR, 2021.

[4] J. Donahue、S. Dieleman、M. Binkowski、E. Elsen 和 K. Simonyan,“端到端对抗性文本到语音”,arXiv 预印本 arXiv:2006.03575, 2020.

[5] RJ Weiss、R. Skerry-Ryan、E. Battenberg、S. Mariooryad 和 DP Kingma,“Wave-tacotron:无频谱图的端到端文本到语音合成”,Proc。ICASSP,2021 年,第 5679–568 页3.

[6] C. Miao、S. Liang、Z. Liu、M. Chen、J. Ma、S. Wang 和 J. Xiao,“EfficientTTS:一种高效且高质量的文本转语音架构”,arXiv预印本 arXiv:2012.03500, 2020.

[7] J. Kim、S. Kim、J. Kong 和 S. Yoon,“Glow-TTS:通过单调对齐搜索实现文本到语音的生成流程”,Proc。NeurIPS, 2020.

[8] R. Yamamoto、E. Song 和 J. Kim,“Parallel wavegan:基于具有多分辨率频谱图的生成对抗网络的快速波形生成模型”在语音子带编码方案中,Proc。ICASSP,2020 年,第 6199–620 页 3.

[9] W. Jang、D. Lim 和 J. Yoon,“Universal MelGAN:用于在多个域中生成高保真波形的稳健神经声码器”,arXiv 预印本 arXiv:2011.09631, 2020.

[10] J. Kong、J. Kim 和 J. Bae,“Hifi-GAN:用于高效和高保真语音合成的生成对抗网络”,Proc。NeurIPS, 2020.

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论