免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


超越GPT-4o和Gemini 2.5!小米MiMo-Audio音频大模型真香

发布日期:2025-09-22 13:46:49 浏览次数: 1536
作者:算泥

微信搜一搜,关注“算泥”

推荐语

小米MiMo-Audio音频大模型震撼开源,1亿小时预训练数据打造多模态音频处理新标杆!

核心内容:
1. MiMo-Audio在7B参数规模下实现开源音频模型SOTA性能
2. 独创音频-语言统一架构突破多模态交互瓶颈
3. 革命性分词器与思维机制赋能少样本学习能力

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

小米在通用音频智能领域扔出一颗“重磅炸弹”:小米MiMo-Audio大模型,预训练数据规模直接干到1亿多小时的狠角色。

在MMSU(多模态语音理解)、MMAU(多模态音频理解)、MMAR(多模态音频推理)、MMAU-Pro(多模态音频理解-专业版)这些业内公认的基准测试里,它成了开源7B(70亿参数)模型里的“天花板”,也就是SOTA(State-Of-The-Art,当前最佳)。

小米把所有相关资源都给开放了,包括分词器、模型本身、评估方法,甚至未来的扩展计划。

音频模型,先得有个好耳朵

一个好的音频分词器,最重要的就是两点:一是要能把音频还原得像模像样,保真度要高;二是要让它生成的token方便后面的语言模型处理。

基于这两点,小米推出了MiMo-Audio-Tokenizer。

这个分词器有12亿参数,用的是Transformer架构。里面分三部分:编码器、离散化层和解码器。

它的帧速率是25Hz(赫兹),通过8层RVQ(残差向量量化)技术,每秒能生成200个token。用1000万小时的音频数据,从头开始训练这个分词器。

训练的时候,既考虑语义目标,也考虑重建目标。

结果很喜人,它不仅重建质量高,而且生成的token也特别适合语言模型。

小米音频大模型的秘密武器

MiMo-Audio本质上是一个统一的生成式音频-语言模型。

它厉害的地方在于,能把文本和音频的token序列放在一起建模。

这意味着,它既能接收文本和音频token作为输入,也能自回归地预测文本或音频token。

所以,无论是文本到音频,音频到文本,还是音频到音频,甚至文本到文本,它都能搞定。

为了更高效地处理高token速率(200 token/秒)的序列,并且解决语音和文本之间长度不匹配的问题,小米搞了一个全新的架构。

这个架构有三部分:patch encoder(补丁编码器)、LLM和patch decoder(补丁解码器)。

补丁编码器会把连续四个时间步的RVQ token(残差向量量化标记)打包成一个patch(补丁),这样就把序列下采样到了6.25Hz的表示形式,方便后面的LLM处理。

接着,补丁解码器再自回归地把完整的25Hz RVQ token序列生成出来。

1亿小时数据,炼出个“天才”

MiMo-Audio的预训练数据规模达到1亿多小时。模型在各种音频任务里,都展现出了惊人的少样本学习能力。

在训练完成后,还精心打造了一个多样化的指令微调语料库,并在音频理解和生成任务中引入了“思维机制”。

最终,MiMo-Audio在音频理解基准测试(MMSU、MMAU、MMAR、MMAU-Pro)、口语对话基准测试(Big Bench Audio、MultiChallenge Audio)以及指令驱动文本到语音(Instruct-TTS)评估中,全部拿下了开源模型的SOTA(State-Of-The-Art,当前最佳)。

它的性能多个基准上超越了那些闭源模型。

整体表现非常出色。

能说会道,还能懂你

MiMo-Audio在口语对话方面,展现了全面的能力。

它能进行非常自然的对话交流,深度理解你的意思,还能给出恰当的回应。

能识别情绪,避免不当言论。能听懂各种指令,并准确执行。普通话、多种方言,都不在话下。多种外语能力非常强,能纠正发音语法错误等,可用于外语学习。上知天文,下知地理,知识渊博。


各方面,它的表现都堪称优秀。

由于在大规模语音语料库上进行了生成式预训练,MiMo-Audio拥有了通用的语音续写能力。

你给它一段音频作为提示,它就能接着生成连贯、符合上下文的后续内容。


而且,它还能保留说话人的身份、说话的腔调、环境音等关键的声学特征。

各种语音风格的续写,它都能轻松搞定。

MiMo-Audio还设计了少样本上下文学习(ICL,In-Context Learning)评估任务。

目的就是想看看,在不更新模型参数的情况下,只靠上下文中的语音示例,它能不能完成语音到语音的生成任务。

这个基准测试,就是为了系统性地评估模型在语音理解和生成方面的综合潜力。

结果显示,在风格转换、语音转换、语音翻译、语音编辑方面表现优秀。

多亏了大规模预训练、接触了海量数据集,以及精心设计的SFT(监督微调)数据,小米的这个模型展现出强大的音频理解能力。

同时,它还具备一定的推理能力,能从声音中发现隐藏的信息。

它能对不同领域、不同场景下的音频内容,进行非常详细的描述,就像给你画了一幅声音的画。

音频描述示例:

指令:给出这段音频的详细描述。

生成描述:

音频内容详细描述如下:

• 对峙与施压:

◦ 对话: 一位年轻男子称呼一位年长男子为“吴总管”。年长男子(吴总管)对此非常不满,他质问年轻男子,自己费了那么大劲把他“捞出来”,他为什么还用这个称呼。他强调“出了这个门”和“进了这个门”要有不同的规矩,暗示在这里必须使用更亲密的称呼。

◦ 氛围: 这段对话的背景音乐是低沉、悬疑的弦乐,营造出一种紧张不安的氛围。吴总管的语速缓慢,声音低沉而充满压迫感,显示出他绝对的控制地位。年轻男子的语气则显得胆怯和犹豫。

• 转折与诡异的接纳:

◦ 对话: 在吴总管的威逼下,年轻男子终于改口,带着一丝胆怯叫了一声“爹”。这个称呼的转变是关键。吴总管听后,发出了一阵低沉、沙哑且充满算计的笑声,这笑声并非喜悦,而是掌控一切后的得意,听起来令人毛骨悚然。

◦ 氛围: 随着年轻男子叫出“爹”,音乐的紧张感达到顶峰。吴总管的笑声和持续的背景音乐共同营造出一种极度诡异和扭曲的氛围,表明这段“父子”关系并非建立在亲情之上,而是一种权力的强迫和控制。

• 控制的建立:

◦ 对话: 吴总管让年轻男子起来,并评价他“不傻”,表示对他的顺从感到满意。年轻男子再次叫“爹”,吴总管则用一种居高临下的“温和”语气回应:“行了行了,儿子起来吧。”

◦ 氛围: 对话在一种扭曲的“温情”中结束。吴总管的语气虽然听起来像是在安抚,但充满了不容置疑的权威。背景音乐持续渲染着压抑感,暗示着年轻男子从此将被牢牢控制,成为吴总管的棋子或附属品。

总结:

这段音频描绘了一个权力不对等的场景。年长、阴沉的吴总管通过威逼,强迫年轻男子承认他们是“父子”关系,以此来建立一种绝对的控制。整个过程充满了紧张、压迫和诡异的气氛,人物关系的建立并非基于情感,而是纯粹的权力操控。

它具备先进的音频推理能力,能深入理解和分析复杂的音频内容。

包括识别语境,进行逻辑推理,简直就是个“福尔摩斯”的耳朵。

对于那些长篇大论的音频内容,这个模型也能全面理解。

它能保持持续的注意力,连贯地处理和分析冗长的音频序列,让你听小说,看电影,都不会错过任何细节。

你的“专属配音师”

MiMo-Audio还集成了指令驱动文本到语音(Instruct TTS,指令文本转语音)功能。

并且融入了“思维模式”,这样生成出来的结果会更加符合指令要求的表达效果。

来个例子:

文本:所以你三年的梦想和努力全放弃了,是吗?

指令:高声质疑不公的愤怒记者。

生成音频:

怎么样,小米这次的MiMo-Audio,是不是有点东西?

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询