摘要
本文介绍 Tacotron 2 ,一个神经网络架构的语音合成模型。该系统由一个seq2seq的特征预测网络和基于 WaveNet 的 vocoder 构成。该模型的 MOS 值可以达到4.53,非常接近专业录音的 4.58。为了验证使用 mel spectrugram 作为 vocoder 输入的有效性,我们和 linguistic, duration, 以及 F0 特征作为输入进行了对比。此外,我们进一步展示了使用 compact acoustic intermediate representation 即 mel spectrugram 作为输入可以大大减小 WaveNet 的参数量。