我要投稿

Meta开源史上最强语音“基座模型”：一口气支持1600+种语言

发布日期：2025-11-12 07:56:57 浏览次数： 2366

作者：AI寒武纪

微信搜一搜，关注“AI寒武纪”

刚刚，Meta AI FAIR团队发布了其在自动语音识别（ASR）领域的最新成果：Omnilingual ASR

这是一个模型套件，能为超过1600种语言提供自动语音识别能力，其规模和质量都达到了新的水平。

值得关注的是，该框架被设计为社区驱动，世界各地的人们只需提供少量自己的样本，就能将Omnilingual ASR扩展到新的语言

同时开源的，还有一系列相关：

Omnilingual ASR Corpus：一个包含350种服务欠缺语言的转录语音的大型数据集

Omnilingual wav2vec 2.0：一个扩展到70亿参数的、大规模多语言语音表征模型

语言探索Demo：一个可供人们探索模型所覆盖语言的演示

目前，大多数ASR系统都集中在互联网上资源丰富的一小部分语言上，这加剧了低资源语言使用者面临的数字鸿沟

Meta FAIR团队推出的Omnilingual ASR，旨在通过一个通用转录系统，让高质量的语音转文本技术能够惠及代表性最不足的语言社区。其最终目标是打破语言障碍，实现跨语言和文化背景的交流

下载：

https://github.com/facebookresearch/omnilingual-asr

语言探索demo：

https://aidemos.atmeta.com/omnilingualasr/language-globe

转录工具：

https://huggingface.co/spaces/facebook/omniasr-transcriptions

paper：

https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages/

前所未有的语言覆盖范围与性能

尽管ASR技术近年来在许多高资源语言上已接近完美，但扩大语言覆盖范围一直是一项资源密集型任务，现有AI架构对数据的需求过高，难以实现通用扩展。

Omnilingual ASR通过引入两种架构变体来解决这一研究瓶颈。

首先，团队首次将其wav2vec 2.0语音编码器扩展到70亿参数，从原始、未转录的语音数据中生成了丰富的、大规模多语言语义表征。

接着，团队构建了两种解码器变体，将这些表征映射到字符序列：

1.一种依赖传统的连接主义时间分类（CTC）目标。
2.另一种利用了在LLM中常见的传统Transformer解码器。

这种被称为LLM-ASR的方法，在ASR性能上实现了阶段性提升，尤其是在长尾语言上。

结果显示，其7B-LLM-ASR系统在超过1600种语言上达到了SOTA性能，其中78%的语言字符错误率（CER）低于10

自带语言（Bring Your Own Language）

除了扩展到1600多种语言外，Omnilingual ASR还改变了引入新语言的范式。

在大多数现有系统中，添加新语言需要专家驱动的微调。而Omnilingual ASR引入了首个能够仅凭少量上下文示例就扩展到全新语言的大规模ASR框架

这得益于其受LLM启发的系统，该系统从大语言模型领域引入了上下文学习能力

在实践中，这意味着一个使用不支持语言的用户，只需提供少数几个成对的音频-文本样本，就能获得可用的转录质量——无需大规模训练数据、专业知识或高端计算资源

一套面向不同用例的模型

此次，Meta发布了一整套模型和一个数据集，为利益相关者扩展和改进任何语言的语音技术提供了所需的一切。

模型家族：提供两种解码器变体，从专为低功耗设备设计的轻量级300M版本，到为各种用例提供顶级精度的强大7B模型

基础模型：通用语音基础模型wav2vec 2.0也提供多种尺寸，可用于ASR之外的其他语音相关任务。

所有模型均在许可宽松的Apache 2.0许可下发布，数据则在CC-BY许可下提供。这些资产基于FAIR的开源fairseq2框架构建

与全球合作伙伴共建

Omnilingual ASR的训练语料库在数量和语言多样性上都是为ASR组建的最大语料库之一，整合了公开可用的数据集和通过多个合作伙伴关系收集的社区来源语音记录。

为了覆盖那些几乎没有数字足迹的语言，团队与当地组织合作，招募并补偿母语者，通常是在偏远或记录不足的地区。这部分委托收集的训练语料库作为Omnilingual ASR Corpus发布。迄今为止，这是有史以来最大的超低资源自然语音ASR数据集，覆盖了数百种ASR系统前所未见的语言。

此外，通过语言技术合作伙伴计划，团队与Mozilla基金会的Common Voice和Lanfrica/NaijaVoices等组织合作，直接与当地社区协作。这些合作关系为Omnilingual ASR注入了深厚的语言学知识和文化理解，确保技术能满足当地需求

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-24

OpenClaw 全球最火的AI助手，到底是什么神仙？

2026-02-23

OpenClaw背后的英雄Pi-mono

2026-02-22

GLM-5 技术报告全解读｜a16z：“最好的开源模型”

2026-02-22

AI创业半年复盘：开源我踩过的坑。

2026-02-22

OpenClaw源码解读系列：自动回复管线

2026-02-22

OpenClaw源码解读系列：插件系统

2026-02-22

如何在Mac mini M4上为OpenClaw接入iMessage

2026-02-20

拆解 OpenViking：把 Agent 上下文从"向量碎片"变成"可操作文件系统"

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

给自己搭一个 AI 搭档：OpenClaw 安装使用全记录

2026-02-06

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

重磅开源！Kimi K2.5 本地部署全攻略：手把手教你跑通 1T MoE 巨兽

2026-01-30

SkillsMP：一个聚合了 5 万+ AI Agent 技能的开源社区

2026-01-12

2025-12-22

实测Kimi K2.5，这是一款厌丑的开源模型

2026-01-27

ClawdBot 火爆全网，手把手教你如何部署，还能直接用钉钉操作！

2026-01-28

豆包手机同款AutoGLM硬核开源：AI如何用“眼睛+大脑+手”接管你手机

2025-12-10

我把Claude Code换成GLM-4.7用了6小时，我竟然没发现明显区别

2025-12-23

大家都在问

OpenClaw 全球最火的AI助手，到底是什么神仙？

2026-02-24

OpenClaw近一半用户来自中国，大家在FOMO什么？

2026-02-11

Clawdbot 如何实现像人一样的长期记忆？

2026-02-05

一夜爆火，Clawdbot是否才是真正的AI入口产品？

2026-01-28

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

速递 | DeepSeek突然扔出MODEL1，这到底是V4还是R2？

2026-01-21

DeepSeek-R2要来了？

2026-01-21

TranslateGemma-27B谷歌开源翻译模型有多强？

2026-01-20

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean