我要投稿

小米发布 MiMo-Audio：用 1 亿小时音频预训练打造“通用语音大模型”

发布日期：2025-11-18 08:50:43 浏览次数： 2004

作者：Halo咯咯

微信搜一搜，关注“Halo咯咯”

当下大家谈论大模型，更多关注点还停留在文本和多模态。但在语音领域，真正能兼顾理解和生成的通用模型却凤毛麟角。最近，小米 MiMo 团队带来了一个重量级新品——MiMo-Audio，一个参数量高达 70 亿的音频语言大模型。它的特别之处在于：不仅能“听懂”语音，还能像 GPT 一样做“下一步预测”，实现跨语种语音翻译、声音风格转换、语音续写等复杂任务。

更让人惊讶的是，MiMo-Audio 的训练规模突破了 1 亿小时音频，相当于一个人连续听 1.1 万年才走完的时长。这背后不仅是算力堆砌，更是架构和训练策略上的深度创新。

一、为什么 MiMo-Audio 值得关注？

1. 语音 AI 的短板

过去的语音 AI 模型往往各司其职：ASR（自动语音识别）负责转文字，TTS（语音合成）负责生成语音，中间要经过复杂的任务堆叠。问题是：一旦换任务，就得重新设计和微调。更别提语音里包含的情感、语调、身份特征，大多数模型都会在“压缩—还原”的过程中丢失。

2. 小米的破局思路

MiMo-Audio 的核心理念很直接：统一一切，只做下一步预测。它没有设计复杂的多头任务网络，也没有分散成 ASR、TTS 等子任务，而是把语音转化成高保真离散 token，与文本 token 混合，交给大模型统一建模。这意味着，模型既能像 GPT 预测下一个字，也能预测下一个语音片段。

这种方法听起来简单，但背后是极高的工程难度：如何在不丢失语音细节的情况下，把声音变成大模型可理解的“字母表”？

二、关键技术突破

1. 高保真 RVQ Tokenizer

MiMo 团队自研了一套 残差向量量化（RVQ）分词器，每秒生成约 200 个 token，能完整保留语音的音色、韵律和说话人特征。相比传统声学 token，这种方法几乎没有信息损失，堪称“无损语音分词”。这让大模型第一次可以真正“理解”一个人的声音，而不仅是把它转成文字。

2. Patch 化序列建模

语音的时间维度远比文字密集。MiMo-Audio 通过把 4 帧语音合成一个 patch，把 25Hz 的语音流压缩到 6.25Hz，让 70 亿参数的语言模型能在可控的长度内处理超长音频。这种“打包压缩—再解压”的方式，既保持了语音细节，又避免了计算爆炸。

3. 单一目标函数：下一步预测

MiMo-Audio 不再人为区分“理解”还是“生成”，而是把所有训练都统一成下一步预测（next-token prediction）。无论是语音续写、翻译，还是语音编辑，模型都能在统一框架下完成，大幅降低了架构复杂度。

三、从“规模”到“涌现”

Xiaomi 在报告里强调：“规模本身就是算法。” MiMo-Audio 的训练分为两个阶段：

第一阶段只关注文本和语音交织的 token 预测，让模型学会对齐语音与语义；
第二阶段则引入语音生成损失，覆盖语音续写、语音翻译、语音到语音对话等任务。

在数据规模超过 1 亿小时之后，模型突然出现了“涌现能力”：

语音续写：像小说续写一样，模型可以自然地补全一段未说完的话，保留原说话人的声音与情绪；
声音转换：输入一句话，就能把普通话变成天津话、英语口音，甚至直接模仿另一位说话人的声音；
情绪迁移：把平淡的语音变成愤怒、悲伤或愉快的版本；
跨语种翻译：直接实现语音到语音翻译，不必中转成文本。

这种能力并非任务驱动调教的结果，而是大规模预训练下自然涌现的现象，和 GPT-3 在文本领域的 few-shot 能力非常相似。

四、性能与评测

MiMo-Audio 在多个公开基准上取得了领先成绩：

SpeechMMLU：语音理解推理任务，得分超越 GPT-4o-Audio；
MMAU：综合音频理解基准，缩小了语音与文本任务之间的差距，仅剩 3.4 分；
多语音对话：在 Big Bench Audio、MultiChallenge Audio 上表现优异，能流畅参与多语境的语音对话。

更重要的是，小米还开源了 MiMo-Audio-Eval 工具包，让研究者和开发者可以自行复现评测结果。

五、应用场景的想象空间

MiMo-Audio 的设计不仅是学术突破，还非常契合落地需求：

语音助手升级过去的语音助手主要是“听懂—执行—播报”，声音单调缺乏个性。MiMo-Audio 可以直接用用户的语气续写对话，让助手听起来更“像人”。
内容创作播客、小说、有声书主播，可以通过简单的语音片段生成完整长篇录音，还能自由切换语音风格。
跨语种沟通实时语音到语音翻译，无需中转文本，保留情绪和韵律，更适合跨境会议和多语言场景。
游戏与虚拟人角色配音不再需要大量录音，只要几分钟音频，就能生成千变万化的对话，极大降低成本。

六、开放生态与未来趋势

MiMo 团队已经开源了：

Tokenizer：高保真语音分词器；
模型权重：基础版与指令微调版；
评测工具包：MiMo-Audio-Eval；
在线 Demo：展示语音续写、情绪迁移、语音翻译等功能。

在语音 AI 的发展路径上，MiMo-Audio 提供了一种极具启发的方向：用统一的大模型架构替代分散的任务堆叠。这意味着未来的语音 AI 可能会像今天的 GPT 一样，成为一个“万能基座”，开发者只需在其上做轻量化微调，就能快速适配各种语音应用。

七、总结与思考

MiMo-Audio 的突破可以概括为三点：

技术上：通过 RVQ 高保真分词器 + Patch 化建模 + 单一目标函数，解决了语音理解与生成的统一问题；
规模上：1 亿小时训练数据带来了涌现能力，让模型具备了少样本学习的通用语音智能；
生态上：开源权重与工具，推动语音 AI 从实验室走向产业化。

对于开发者而言，这不仅是一个研究课题，更是一个新机会：下一代语音应用的想象力，可能正被小米这样的大模型一步步点燃。

你觉得，未来几年里，语音 AI 会不会像今天的文本大模型一样，成为新的“超级入口”？

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-18

Claude Sonnet 4.6 编程实测：免费用户也能用Opus级编程能力

2026-02-18

Google 悄悄升级了 Deep Think，ARC-AGI-2 直接干到 84.6%

2026-02-18

谷歌上线Gemini in Chrome，想免费使用还需打怪升级

2026-02-18

Jeff Dean 访谈：一页备忘录催生 Gemini 与万 Token 时代

2026-02-18

大年初二炸场！Claude Sonnet 4.6 突发上线：拥有 Opus 水平，编程能力史诗级进化

2026-02-17

OpenClaw多Agent实操：一个人指挥一支AI军队

2026-02-17

追赶 OpenClaw，Manus 把 Agent 塞进了聊天框

2026-02-16

突发！OpenClaw之父宣布加入OpenAI，小扎抢人失败

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

Codex 史诗级更新！引入 Skills 技能库，直接兼容 Claude 生态，开发效率原地起飞

2025-12-09

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

深度解读：OpenClaw 架构及生态

2026-02-03

Claude Code Skills 国内实践全指南：从安装部署到高阶开发

2026-01-09

Nano Banana Pro 最全实测：强到离谱！

2025-11-21

大家都在问

一切皆可Agent Skills，无处不在的AI Agent会替代业务流程吗？

2026-02-14

context是什么？怎么用？

2026-02-13

模型能力、提示词、Skill、工作流、Vibe Coding——到底都是什么？

2026-02-12

谷歌Chrome深夜爆更，Agent不用「装」人了！前端最后防线崩了？

2026-02-12

刚刚，DeepSeek悄悄测试新模型：百万token上下文、知识库更新，V4要来了？

2026-02-11

AI推理：如何实现吞吐翻倍、时延降90%与GPU资源节省26%？

2026-02-11

当我们谈论 AI 推理的 KV Cache，我们在说什么？

2026-02-11

Claude Code，它为何这么狠？

2026-02-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean