微信扫码
添加专属顾问
我要投稿
Meta开源史上最强语音识别模型,支持1600+种语言,打破数字鸿沟,让全球语言无障碍交流成为可能。核心内容: 1. Omnilingual ASR模型套件的突破性功能与开源意义 2. 70亿参数wav2vec 2.0架构的创新设计与性能表现 3. 社区驱动模式如何实现语言覆盖的持续扩展
刚刚,Meta AI FAIR团队发布了其在自动语音识别(ASR)领域的最新成果:Omnilingual ASR
这是一个模型套件,能为超过1600种语言提供自动语音识别能力,其规模和质量都达到了新的水平。
值得关注的是,该框架被设计为社区驱动,世界各地的人们只需提供少量自己的样本,就能将Omnilingual ASR扩展到新的语言
同时开源的,还有一系列相关:
Omnilingual ASR Corpus:一个包含350种服务欠缺语言的转录语音的大型数据集
Omnilingual wav2vec 2.0:一个扩展到70亿参数的、大规模多语言语音表征模型
语言探索Demo:一个可供人们探索模型所覆盖语言的演示
目前,大多数ASR系统都集中在互联网上资源丰富的一小部分语言上,这加剧了低资源语言使用者面临的数字鸿沟
Meta FAIR团队推出的Omnilingual ASR,旨在通过一个通用转录系统,让高质量的语音转文本技术能够惠及代表性最不足的语言社区。其最终目标是打破语言障碍,实现跨语言和文化背景的交流
下载:
https://aidemos.atmeta.com/omnilingualasr/language-globe
转录工具:
https://huggingface.co/spaces/facebook/omniasr-transcriptions
paper:
尽管ASR技术近年来在许多高资源语言上已接近完美,但扩大语言覆盖范围一直是一项资源密集型任务,现有AI架构对数据的需求过高,难以实现通用扩展。
Omnilingual ASR通过引入两种架构变体来解决这一研究瓶颈。
首先,团队首次将其wav2vec 2.0语音编码器扩展到70亿参数,从原始、未转录的语音数据中生成了丰富的、大规模多语言语义表征。
接着,团队构建了两种解码器变体,将这些表征映射到字符序列:
1.一种依赖传统的连接主义时间分类(CTC)目标。
2.另一种利用了在LLM中常见的传统Transformer解码器。
这种被称为LLM-ASR的方法,在ASR性能上实现了阶段性提升,尤其是在长尾语言上。
结果显示,其7B-LLM-ASR系统在超过1600种语言上达到了SOTA性能,其中78%的语言字符错误率(CER)低于10
除了扩展到1600多种语言外,Omnilingual ASR还改变了引入新语言的范式。
在大多数现有系统中,添加新语言需要专家驱动的微调。而Omnilingual ASR引入了首个能够仅凭少量上下文示例就扩展到全新语言的大规模ASR框架
这得益于其受LLM启发的系统,该系统从大语言模型领域引入了上下文学习能力
在实践中,这意味着一个使用不支持语言的用户,只需提供少数几个成对的音频-文本样本,就能获得可用的转录质量——无需大规模训练数据、专业知识或高端计算资源
此次,Meta发布了一整套模型和一个数据集,为利益相关者扩展和改进任何语言的语音技术提供了所需的一切。
模型家族:提供两种解码器变体,从专为低功耗设备设计的轻量级300M版本,到为各种用例提供顶级精度的强大7B模型
基础模型:通用语音基础模型wav2vec 2.0也提供多种尺寸,可用于ASR之外的其他语音相关任务。
所有模型均在许可宽松的Apache 2.0许可下发布,数据则在CC-BY许可下提供。这些资产基于FAIR的开源fairseq2框架构建
Omnilingual ASR的训练语料库在数量和语言多样性上都是为ASR组建的最大语料库之一,整合了公开可用的数据集和通过多个合作伙伴关系收集的社区来源语音记录。
为了覆盖那些几乎没有数字足迹的语言,团队与当地组织合作,招募并补偿母语者,通常是在偏远或记录不足的地区。这部分委托收集的训练语料库作为Omnilingual ASR Corpus发布。迄今为止,这是有史以来最大的超低资源自然语音ASR数据集,覆盖了数百种ASR系统前所未见的语言。
此外,通过语言技术合作伙伴计划,团队与Mozilla基金会的Common Voice和Lanfrica/NaijaVoices等组织合作,直接与当地社区协作。这些合作关系为Omnilingual ASR注入了深厚的语言学知识和文化理解,确保技术能满足当地需求
参考:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-12
开源 AI 呼叫中心“王炸”!基于 Azure + GPT-4.1,AI 帮你接电话、填保单、跑业务!
2025-11-12
我们为什么选择 Spring AI 开发智能体,而不是 Dify?
2025-11-11
用AI写文档,又害怕隐私泄露?不慌,Libra拯救你!
2025-11-11
仅3B激活参数,更强的多模态理解与推理能力,百度文心 ERNIE-4.5-VL-28B-A3B-Thinking正式开源!
2025-11-11
Aiops探索:基于 Dify + Kubernetes MCP Server 的智能运维实践
2025-11-11
Vibe Coding 何必只在桌面 IDE,多端智能体协同的思考与设计
2025-11-11
只用 Claude Skills,打造专属 AI 伴侣|附完整教程
2025-11-11
Step-Audio-EditX:用大语言模型“雕琢”声音,开启音频编辑新视界!
2025-08-20
2025-09-07
2025-08-20
2025-08-26
2025-08-22
2025-09-06
2025-10-20
2025-08-22
2025-09-08
2025-10-27
2025-11-12
2025-11-10
2025-11-03
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17