Meta 推出无缝交流:人工智能驱动的实时语音翻译的飞跃

时间:2023-12-22 所属栏目:技术前沿 浏览:137
探索 Meta 的突破性人工智能翻译模型“无缝交流”,它以令人印象深刻的2秒延迟彻底改变了实时语音翻译。这一系列模型,包括SeamlessExpressive、SeamlessStreaming 和 SeamlessM4T v2。

Meta 最近推出了最先进的人工智能翻译模型,该模型拥有卓越的功能,特别是在实时语音翻译方面,延迟小于两秒。该模型不仅速度快,而且保持了与离线模型相当的高精度。它的独特之处在于它能够复制语音的细微差别,例如停顿、语气、速度和情感,为人工智能翻译带来更接近人类的质量。

无缝交流

该模型系列名为“无缝交流”,有四个不同的版本:SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless。每个型号都具有独特的功能。例如,SeamlessExpressive可以保留跨语言的复杂语音功能,而SeamlessStreaming则提供近100种输入语言和36种输出语言的低延迟语音和文本翻译。

这些模型由 fairseq2 提供支持,fairseq2 是一个轻量级建模工具包,用于与 PyTorch 生态系统兼容的序列到序列任务。此外,这些模型还采用了名为 UnitY2 的新架构和非自回归文本到单元解码器,从而增强了语音输出的生成。

选择非自回归架构是因为,与随序列长度增加而扩展性较差的自回归模型不同,非自回归模型可以预测每个片段的持续时间,从而允许每个片段的并行解码。

这些模型的关键组成部分是 EMMA,这是一种算法,可以智能地决定何时有足够的信息可用于生成下一段语音或目标文本。该模型还可以从离线模型中进行微调以提高准确性。

为了增强翻译表现力,Meta 将 SeamlessM4T v2 中的 HiFi-GAN 声码器单元替换为 PRETSSEL,PRETSSEL 是一种语音到单元生成器,可根据源语音条件来传输音调和情感表达等质量。

Meta 还实现了额外的功能来缓解潜在问题。例如,为了解决翻译中的毒性挑战,他们引入了一种在翻译过程中自动检测和调整有毒词的方法。这种主动方法显着减少了有毒翻译的发生,同时保持了质量。

此外,为了防止误用,Meta 还在翻译后的音频中引入了音频水印。这些水印是人耳无法察觉的,可以使用专门的模型来检测,并且对各种攻击具有鲁棒性。

除了模型之外,Meta 还发布了一套广泛的元数据、数据和数据对齐工具。元数据包括 76 种语言的 585,000 小时的语音文本对,使其成为最大、最多样化的语音语料库之一。

Meta的这一发展标志着人工智能翻译领域的重大进步,有可能彻底改变我们跨越语言障碍的沟通方式。它为更加无缝和更具表现力的跨语言互动铺平了道路,让语言差异不再对全球交流构成重大挑战。

更多行业动态、技术前沿、AI数字人及AI教程等资讯,尽在智慧大脑!我们将持续为您提供最新资讯和深度见解,欢迎定期回访,以保持知识的更新。如果您有任何问题、建议或反馈,请随时与我们联系,再次感谢您一直以来的支持与关注!

文章标签: AI翻译 AI模型