当前位置:静雅生活网 > 数码百科 >

谷歌的野心:通用语音识别大模型已经支持 100+ 语言

导读:选自 googleblog  机器之心编译  编辑:小舟、杜伟  谷歌表示,推出通用语音模型(USM)是其未来支持 1000 种语言的关键一步。  去年 11 月,谷歌宣布

  选自 googleblog

  机器之心编译

  编辑:小舟、杜伟

  谷歌表示,推出通用语音模型(USM)是其未来支持 1000 种语言的关键一步。

  去年 11 月,谷歌宣布推出「1000 种语言计划」,旨在构建一个机器学习 ( ML ) 模型,支持世界上使用最广泛的 1000 种语言,从而为全球数十亿人带来更大的包容性。然而,其中一些语言的使用人数不到两千万,因此核心挑战是如何支持使用人数相对较少或可用数据有限的语言。

  现在,谷歌公开了更多有关通用语音模型 ( USM ) 的信息,这是支持 1000 种语言的第一步。USM 包含一系列 SOTA 语音模型,带有 20 亿参数,经过 1200 万小时的语音和 280 亿个文本句子的训练,涵盖 300 多种语言。USM 不仅可以对英语和普通话等广泛使用的语言执行自动语音识别(ASR),还可以对阿姆哈拉语、宿雾语、阿萨姆语、阿塞拜疆语等使用人数很少的语言执行自动语音识别。

  谷歌证明了利用大型未标记的多语言数据集来预训练模型的编码器,并用较小的标记数据集进行微调,能够让模型识别使用人数非常少的语言。此外,谷歌的模型训练过程可以有效地适应新的语言和数据。

谷歌的野心:通用语音识别大模型已经支持 100+ 语言

  USM 的整体训练流程。

  第一步中谷歌使用了 BEST-RQ,因为它已经在多语言任务上展示了 SOTA 结果,并且在使用大量无监督音频数据时被证明是有效的。

  在第二步中,谷歌使用了多目标有监督预训练来整合来自额外文本数据的知识。USM 模型引入了一个额外的编码器模块将文本作为输入,并引入了额外的层来组合语音编码器和文本编码器的输出,然后再在未标记语音、标记语音和文本数据上联合训练模型。

  凭借在预训练期间获得的知识,最后一步 USM 模型仅需来自下游任务的少量有监督数据即可获得良好的模型性能。

  主要结果展示

  

  YouTube Captions 测试集上不同语言的性能

  谷歌的编码器通过预训练整合了 300 多种语言,并通过在 YouTube Caption 多语言语音数据上微调证明了该预训练编码器的有效性。监督式 YouTube 数据包括 73 种语言,每种语言平均具有不超过 3000 小时的数据。尽管监督数据有限,USM 仍在 73 种语言中平均实现了低于 30% 的词错率(WER,越低越好),这是以往从未实现的里程碑。对于 en-US,与当前谷歌内部 SOTA 模型相比,USM 的 WER 相对降低了 6%。

  谷歌还与 OpenAI 近期发布的大模型 Whisper ( large-v2 ) 进行了比较,后者使用超过 400k 小时的标注数据进行训练。为了便于比较,谷歌仅使用 Whisper 可以成功解码且 WER 低于 40% 的 18 种语言。结果如下图所示,USM 的平均 WER 比 Whisper 低了 32.7%

谷歌的野心:通用语音识别大模型已经支持 100+ 语言

  对于下游 ASR 任务的泛化性能

  对于公开可用的数据集,USM 在 CORAAL(非裔美国人土语)、SpeechStew(en-US)和 FLEURS(102 种语言)数据集上显示出了较 Whisper 更低的 WER。USM 在接受和没有接受域内数据训练的情况下都实现了更低的 WER。具体结果如下图所示。

谷歌的野心:通用语音识别大模型已经支持 100+ 语言

  自动语音翻译(AST)性能

  对于语音翻译,谷歌在 CoVoST 数据集上进行微调。谷歌的模型(包括通过 pipeline 第二阶段的文本)在有限监督数据下实现了 SOTA 性能。此外,为了评估模型性能的广度,谷歌根据资源可利用性将 CoVoST 数据集中的语言分为了高(high)、中(medium)和低(low),并计算相应的 BLEU 分数(越高越好)。

  如下图所示,USM 在所有语言细分中超越了 Whisper

谷歌的野心:通用语音识别大模型已经支持 100+ 语言

  未来将支持 1000 种语言

  USM 的开发是实现「谷歌组织全球信息并使人人皆可访问」使命的关键努力。谷歌相信,USM 的基础模型架构和训练 pipeline 奠定了将语音建模扩展到未来 1000 种语言的根基。

  更多细节请参阅相关论文:https://arxiv.org/abs/2303.01037v2

  原文链接:https://ai.googleblog.com/2023/03/universal-speech-model-usm-state-of-art.html

谷歌的野心:通用语音识别大模型已经支持 100+ 语言

   THE END

  转载请联系本公众号获得授权

  投稿或寻求报道:content@jiqizhixin.com

版权声明:本文部分来自互联网,由小编精心所写,本文地址:http://www.zhubian88.cn/smbk/80136.html,如需转载,请注明出处!

联系我们

在线咨询:点击这里给我发消息

微信号:weixin888

工作日:9:30-18:30,节假日休息