Meta 最近发布了其大规模多语言语音 AI,一种能够识别 4,000 多种口头语言的庞大多语言模型,并已将其开源,从而推动语言研究界进一步保护众多现有语言。
这一突破远远超过了去年首发的语音翻译技术,将闽南话直接翻译成英语。现在,Meta 的扩展多语言模型可以容纳 4,000 多种口头语言,这个数字是现有技术的 40 倍。这一进步可以应用于增强现实和虚拟现实场景,让人们可以用他们喜欢的语言进行交流。
在介绍该模型时,Meta 已确认该技术可以保存大多数口头传播的语言,从而保护丰富的文化遗产。
该技术起源于传统的文本转语音和语音转文本技术领域。最初只支持100种语言,现在可以转换1100多种语言,甚至可以识别4000多种口头语言,方便不同语言用户之间的顺畅交流。
这项技术的背后是被翻译成多种语言、被广泛阅读和研究的宗教经文。例如,在全球范围内广泛阅读和翻译的圣经是用于培训该技术的文本来源之一。

利用翻译成1100种语言的新约圣经音频读物,每种语言的音频数据平均长度为32小时,随后加入无注释的基督教音频读物,训练数据对应4000多种语言。
虽然收集到的数据主要是男声,但经过训练的模型仍然能够准确识别男声和女声所表达的内容。此外,尽管训练数据中宗教内容占主导地位,但生成的模型不会自动生成额外的宗教内容。
Meta表示,它打算坚持扩大多语言模型的范围,以支持更广泛的语言之间的识别和翻译,并克服与当前技术证明具有挑战性的方言相关内容。
相关文章
U盘装系统(http://www.upzxt.net) 版权所有 (网站邮箱:78435178@qq.com)
本站资源均收集与互联网,其著作权归原作者所有,如侵犯到您的权益的资源,请来信告知,我们及时撤销相应资源