Google-USM

摘要

与whisper采用弱监督方式在多语言数据集上训练的方式不同的是USM采用无监督+微调的方式进行语音识别，无监督数据包含300个语种上的1200w小时的数据（whisper是68w小时的弱监督数据）。结果表明，即使只使用1/7的whisper的训练数据进行微调，在in-domain以及out-of-domain语种上都能获得更好的效果。