Logan Liu's Blog

Tacotron 2

摘要

本文介绍 Tacotron 2 ，一个神经网络架构的语音合成模型。该系统由一个seq2seq的特征预测网络和基于 WaveNet 的 vocoder 构成。该模型的 MOS 值可以达到4.53，非常接近专业录音的 4.58。为了验证使用 mel spectrugram 作为 vocoder 输入的有效性，我们和 linguistic, duration, 以及 F0 特征作为输入进行了对比。此外，我们进一步展示了使用 compact acoustic intermediate representation 即 mel spectrugram 作为输入可以大大减小 WaveNet 的参数量。

Glow-TTS

摘要

之前的非自回归模型在训练时往往需要额外的对齐知识（如fastspeech先蒸馏出一个duration predictor，fastspeech2使用MFA工具），而在本文中使用Flow和动态规划搜索最可能的文本与语音表示之间的单调对齐(monotonic alignment)路径。最终的结果表明这种强制单调硬对齐(enforcing hard)可以使TTS更加鲁棒，而Flow的使用可以使合成的语音更快、多样(diverse)以及可控(controllable)。此外，在合成质量差不多的情况下，Glow-TTS的生成速度比自回归的Tacotron2快了一个数量级。

Flow Model

摘要

GAN和VAE都没有显式地（explicitly）对真实数据的概率密度函数（probability density function，PDF） $p(\mathbf{x}),\mathbf{x}\in\mathcal{D}$ 进行建模，而是采用对抗训练或优化上界（Evidence Lower Bound，ELBO）的方式避开概率计算，因为 $p(\mathbf{x})$太难算了！以带隐变量的生成模型 $p(\mathbf{x})=\int p(\mathbf{x}\mid\mathbf{z})p(\mathbf{z})d\mathbf{z}$ 为例，因为不可能遍历所有的潜在编码 $\mathbf{z}$，所以 $p(\mathbf{x})$的计算是非常困难的（intractable）。

VALL-E

背景

随着LLM的发展，TTS也从传统的phoneme → mel-spectrogram → waveform路径转向phoneme → discrete code → LM → waveform。 VALL-E便是这个背景下的产物。

Google-USM

摘要

与whisper采用弱监督方式在多语言数据集上训练的方式不同的是USM采用无监督+微调的方式进行语音识别，无监督数据包含300个语种上的1200w小时的数据（whisper是68w小时的弱监督数据）。结果表明，即使只使用1/7的whisper的训练数据进行微调，在in-domain以及out-of-domain语种上都能获得更好的效果。

Whisper

摘要

语音识别中有监督数据比较稀少，如何利用大规模的弱监督数据是比较有意义的研究方向；