Google-USM 摘要 与whisper采用弱监督方式在多语言数据集上训练的方式不同的是USM采用无监督+微调的方式进行语音识别,无监督数据包含300个语种上的1200w小时的数据(whisper是68w小时的弱监督数据)。结果表明,即使只使用1/7的whisper的训练数据进行微调,在in-domain以及out-of-domain语种上都能获得更好的效果。