0%

摘要

本文介绍 Tacotron 2 ,一个神经网络架构的语音合成模型。该系统由一个seq2seq的特征预测网络和基于 WaveNet 的 vocoder 构成。该模型的 MOS 值可以达到4.53,非常接近专业录音的 4.58。为了验证使用 mel spectrugram 作为 vocoder 输入的有效性,我们和 linguistic, duration, 以及 F0 特征作为输入进行了对比。此外,我们进一步展示了使用 compact acoustic intermediate representation 即 mel spectrugram 作为输入可以大大减小 WaveNet 的参数量。

Read more »

摘要

之前的非自回归模型在训练时往往需要额外的对齐知识(如fastspeech先蒸馏出一个duration predictor,fastspeech2使用MFA工具),而在本文中使用Flow和动态规划搜索最可能的文本与语音表示之间的单调对齐(monotonic alignment)路径。最终的结果表明这种强制单调硬对齐(enforcing hard)可以使TTS更加鲁棒,而Flow的使用可以使合成的语音更快、多样(diverse)以及可控(controllable)。此外,在合成质量差不多的情况下,Glow-TTS的生成速度比自回归的Tacotron2快了一个数量级。

Read more »

摘要

GAN和VAE都没有显式地(explicitly)对真实数据的概率密度函数(probability density function,PDF) $p(\mathbf{x}),\mathbf{x}\in\mathcal{D}$ 进行建模,而是采用对抗训练或优化上界(Evidence Lower Bound,ELBO)的方式避开概率计算,因为 $p(\mathbf{x})$太难算了!以带隐变量的生成模型 $p(\mathbf{x})=\int p(\mathbf{x}\mid\mathbf{z})p(\mathbf{z})d\mathbf{z}$ 为例,因为不可能遍历所有的潜在编码 $\mathbf{z}$,所以 $p(\mathbf{x})$的计算是非常困难的(intractable)。

Read more »

背景

随着LLM的发展,TTS也从传统的phoneme → mel-spectrogram → waveform路径转向phoneme → discrete code → LM → waveform。 VALL-E便是这个背景下的产物。

Read more »

摘要

与whisper采用弱监督方式在多语言数据集上训练的方式不同的是USM采用无监督+微调的方式进行语音识别,无监督数据包含300个语种上的1200w小时的数据(whisper是68w小时的弱监督数据)。结果表明,即使只使用1/7的whisper的训练数据进行微调,在in-domain以及out-of-domain语种上都能获得更好的效果。

Read more »

摘要

语音识别中有监督数据比较稀少,如何利用大规模的弱监督数据是比较有意义的研究方向;

Read more »