首页游戏资讯击败OpenAI!谷歌公布20亿参数通用语音模子,撑持100+语种检测翻译

击败OpenAI!谷歌公布20亿参数通用语音模子,撑持100+语种检测翻译

misa2 04-11 4次浏览 0条评论

击败OpenAI!谷歌公布20亿参数通用语音模子,撑持100+语种检测翻译

智工具(公家号:zhidxcom)

编译 | 吴菲凝

编纂 | 李水青

智工具3月7日报导,根据谷歌官网,谷歌的通用语音模子USM目前已实现晋级,撑持100多个语种内容的主动识别检测。

往年11月,谷歌曾方案创建一个撑持1000个语种的AI模子USM。谷歌将其描述为“更先进的通用语音模子”,拥有20亿个参数,颠末涵盖1200万小时的语音、280亿个句子和300多个语种数据集的预操练。

USM的强大效果目前已在Youtube的字幕生成中展示出来,可主动翻译和检测如英语、汉语等支流语种,还能识别出阿萨姆语那种小寡语种,能够说“熟知方言”。

根据谷歌博客,与OpenAI的大型通用语音模子Whisper比拟,USM的数据操练时长更短,错误率更低。

一、可主动检测翻译100+语种,USM面对两大挑战

当微软和谷歌还在为谁家的AI聊天机器人更智能而争论不休时,我们需要清晰,语音模子的用处远不行于此。

外媒The Verge的记者称,除了相传将在本年的I/O开发者大会中展现的20多款AI驱动产物之外,谷歌目前还在朝着更高目标迈进——构建一个撑持1000种语种的机器进修模子。

在周一发布的更新中,谷歌分享了更多有关USM的信息,谷歌称,那是构建撑持1000种语言的通用语音模子的“关键第一步”。

USM已被YouTube用于生成字幕,它还撑持主动语音识别(ASR),可主动检测和翻译语言,不只包罗通俗话、英语等普遍利用的语言,还包罗阿姆哈拉语、宿务语、阿萨姆语等冷门语言。

展开全文

目前,谷歌称USM可撑持检测100多个语种,并将做为构建更大的系统的“根底”。不外,那项手艺似乎还有些远远,谷歌在I/O开发者大会期间对阿拉伯语的错误表述就已证明。

谷歌研究院科学家张宇(Yu Zhang)和软件工程师詹姆斯·秦(James Qin)在谷歌博客上发文称,为了实现USM那个雄心壮志的目标,他们目前需要处理ASR面对的两个严重挑战。

一是传统的进修办法的欠缺可扩展性。语音手艺扩展到多语种的一个根本挑战是需要足够的数据来操练高量量的模子,利用传统办法时,需要手动将音频数据停止标识表记标帜,既耗时又价格昂扬,关于那些小寡冷门的语种而言,也更难找到预先存在的来源搜集。因而,研究院后续预备将传统进修办法改变为自我监视进修,操纵纯音频来搜集数据。

二是在扩展语言笼盖范畴和量量的同时,模子必需以计算效率更高的办法来改进。那就要肄业习算法愈加乖巧、高效、泛化。那些算法需要利用来源普遍的数据,并在不消完全操练的情状下更新模子,再妥帖到新的语言中。

二、三个步调降低识别错误率,击败OpenAI

据该团队颁发的论文称,USM利用的是原则的编码器-解码器架构,此中解码器是CTC、RNN-T和LAS,编码器利用的是Conformer或卷积加强变更器。此中,Conformer利用的关键组件是Conformer块,由重视力模块、前馈模块和卷积模块构成,利用一系列Conformer块和投影层以最末嵌进。

据论文展现,关于USM的操练共分为三个步调。

第一步是利用BEST-RQ来对涵盖数百种语种的语音音频停止自我监视进修,已经在多语言使命上展现了更先进的成果,在利用了大量的无监视音频数据后的证明成果是有效的。

第二步需要利用多目标监视预操练来整合来自于其他文本数据的信息。该模子引进了一个额外的编码器模块来输进文本,并引进额外层来组合语音编码器和文本编码器的输出,并在未标识表记标帜语音、标识表记标帜语音和文本数据上结合操练模子。

最初一步需要USM对下流使命停止微调,包罗ASR(主动语音识别)和AST(主动语音翻译)。

▲USM的整体培训渠道

击败OpenAI!谷歌公布20亿参数通用语音模子,撑持100+语种检测翻译

关于USM的有效性,团队通过Youtube Caption的多语言语音数据停止微调来验证。

受监视的Youtube数据包罗有73种语种,每个语种的数据不到3000小时。虽然监视的数据有限,但USM在73个语种傍边实现了均匀低于30%的单词容错率(WER),与当前内部更先进的模子比拟降低了6%。与停止了近40万小时数据操练的大型模子Whisper比拟,USM的错误率更低,它在18个语种中的解码错误率仅有32.7%,而Whisper有40%。

▲在WER低于40%的情状下,USM在其撑持的语言上优于Whisper

击败OpenAI!谷歌公布20亿参数通用语音模子,撑持100+语种检测翻译

在公开可用的数据上,与Whisper比拟,USM在CORAAL(非裔美国人利用的英语)、SpeechStew和FLEURS那三个语言数据集上都展现出了更低的单词容错率。

▲在ASR基准上比力USM(有或没有域内数据)和Whisper的成果。

击败OpenAI!谷歌公布20亿参数通用语音模子,撑持100+语种检测翻译

关于语音翻译,团队在CoVoST数据集上微调USM,在有限的监视数据上实现了更好的性能。为了评估模子性能的广度,他们根据资本可用性将CoVoST数据集中的语言分为高、中、低三类,并计算每个部门中的BLEU分数(机器翻译评判目标),根据最末展现出的成果,USM在所有细分市场上的表示都优于Whisper。

他们认为,谷歌若想实现毗连全球信息并使每小我都能自在拜候的愿景,USM的开发将会是关键的一步,USM的根底模子框架和操练通道已经打下了一个根底,他们要做的就是在此根底上将语音模子扩展至1000种语言。

结语:AI打破语言障碍,助全球突破信息茧房

目前,USM已撑持100多个语种,将来将继续扩展到1000多个,届时将会吸引到更大一部门用户停止体验,实正实现将信息分发到全球各个角落。

信息时代,科技朝上进步将会进一步搀扶帮助各个国度地域的语言和文化打破地区的限造,很大水平上处理信息茧房带来的困扰。

来源:The Verge、谷歌博客

博客软件
原创 难怪苹果造车!通用汽车停行供给苹果CarPlay和Android汽车办事! 比尔盖茨:人工智能是他一生中的第二次革命性手艺朝上进步
相关内容
发表评论

游客 回复需填写必要信息