免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

来自MiniMax M2.5的震撼 :小尺寸几乎打平opus4.6,巨便宜,巨能干活,速度巨快

发布日期:2026-02-13 05:57:15 浏览次数: 1533
作者:AI寒武纪

微信搜一搜,关注“AI寒武纪”

推荐语

MiniMax M2.5以超小尺寸媲美Opus4.6,低成本高速度重新定义AI模型性价比!

核心内容:
1. 性能突破:在SWE-Bench等关键测试中超越行业标杆
2. 架构思维:展现软件架构师级别的系统规划能力
3. 成本革命:每小时仅1美元实现100token/秒的高效运行

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


↑阅读之前记得关注+星标⭐️,😄,每天才能第一时间接收到更新


 

MiniMax M2.5 正式发布了,可以肯定的说这一个非常优秀的国产模型,国产模型每一家都有自己的聚焦,MiniMax在进行的是极致优化,没有过多花哨的技术实验,专注于推出的是一款极其方便部署,价格具实惠,能干活,性能对标世界顶尖的模型

我先放两张图大家感受一下

MiniMax的进化,看一下MiniMax M系列的来时路:

尺寸对比,这就有意思了,感觉具有极高的可用性,非常适合家庭实验室部署,据说推理服务提供商或许能在这个模型上挖掘出惊人的每秒token生成速度

我们来看看MiniMax M 2.5 做到了什么以及如何做到的

MiniMax M 2.5做到了什么

首先看硬指标,它在各项SOTA性能上表现抢眼:MiniMax 测试了Agent工作流程中最重要的三项基准测试:SWE-Bench(它能否真正修复真实代码库中的真实错误)、BrowseComp(能否搜索网络并找到正确的信息)和 BFCL(能否可靠地调用工具)。测试结果分别为 80.2%、76.3% 和 76.8%

针对复杂任务,M2.5进行了执行效率的优化,速度提升了37%,速度提升听起来似乎只是锦上添花,但当你运行一个Agent循环,模型在每个任务中调用自身 50 次以上时,速度的提升就显得至关重要了

每秒100token运行,每小时成本仅需1美元,这让长周期Agent的无限扩展在经济上成为了可能。

具体来看,M2.5在以下几个维度实现了突破。

像架构师一样思考的代码能力

在编程评估中,M2.5相比前代产品有了显著提升,达到了SOTA水平,尤其是在多语言编程任务中表现突出。

与以往最大的不同在于,M2.5展现出了软件架构师的思维与规划能力。在训练过程中,模型涌现出了编写规格说明书的倾向:在敲下第一行代码前,它会主动从资深架构师的视角出发,对项目的功能、结构和UI设计进行拆解与规划。

在超过20万个真实世界环境中,针对Go、Rust、Python、Java等10多种编程语言进行了训练。这使得M2.5的能力远超简单的代码修复,而是覆盖了复杂系统的完整开发生命周期:从0到1的系统设计与环境搭建,到1到10的开发,再到后续的功能迭代、代码审查和系统测试。

它能处理跨Web、Android、iOS和Windows的全栈项目,涵盖服务端API、业务逻辑和数据库,而不仅仅是前端网页的演示。

在更复杂的VIBE-Pro基准测试中,M2.5的表现与Opus 4.5持平。

在SWE-Bench Verified评估集的Droid和OpenCode不同代码代理框架下,M2.5的得分分别为79.7和76.1,均超越了Opus 4.6。

更精准的搜索与工具调用

为了应对更复杂的任务,高效的工具调用和搜索能力是必选项。

在BrowseComp和Wide Search等基准测试中,M2.5均取得了业界领先的成绩。即便面对不熟悉的脚手架环境,它的表现也更加稳定。

针对现实中专业人士不仅仅是使用搜索引擎,而是需要在信息密集的网页中进行深度探索的特点,MiniMax构建了RISE评估体系。结果显示,M2.5在真实场景下的专家级搜索任务中表现优异。

更重要的是决策效率的提升。相比前代M2.1,M2.5在解决同类任务时使用的轮次减少了约20%。这意味着模型不再仅仅是找对答案,而是在用更高效的路径进行推理。

真正的办公场景交付

M2.5在训练之初就确立了产出可交付成果的目标。

通过与金融、法律和社会科学领域的资深专家深度合作,将行业隐性知识注入模型训练流程。这使得M2.5在Word、PowerPoint和Excel金融建模等高价值工作场景中能力显著提升。

在内部构建的Cowork Agent评估框架GDPval-MM中,通过对交付物质量和代理轨迹专业性的双重评估,M2.5在与主流模型的对比中取得了59.0%的平均胜率。

极致的效率与成本控制

现实世界充满各种deadline,速度即正义,现在模型都太贵了,我们急需要一款能打的便宜的模型

M2.5的原生服务速度达到每秒100 token,几乎是其他前沿模型的两倍。加上强化学习对高效推理的激励,其在复杂任务上的时间节省效果明显。

以运行SWE-Bench Verified为例,M2.5完成每个任务平均消耗352万token,端到端运行时间从31.3分钟缩短至22.8分钟,速度提升37%。这一速度与Claude Opus 4.6相当,但单任务总成本仅为后者的十分之一。

为了实现智能不仅强大而且便宜到无需计费的愿景,M2.5推出了两个版本:

M2.5-Lightning:稳定吞吐量每秒100 token,每百万输入token 0.3美元,输出2.4美元。

M2.5:吞吐量每秒50 token,价格减半。

这意味着,以每秒100 token的速度连续运行一小时仅需1美元。如果以每秒50 token运行,价格降至0.3美元。换算下来,只需1万美元,就可以让4个M2.5实例连续运行一整年。

从去年10月下旬至今,M2系列经历了三次迭代,改进速度超出了预期,特别是在SWE-Bench Verified基准上,进步速度明显快于Claude、GPT和Gemini系列。

MiniMax M 2.5如何做到的

这一切进步的核心驱动力来自于强化学习的规模化。

MiniMax将公司内部的任务和工作空间转化为RL训练环境,目前已有数十万个此类环境。

为了支持这种规模的训练,团队自研了代理原生RL框架Forge。该框架引入中间层,将底层训练推理引擎与代理完全解耦,支持任意代理集成,并优化了模型在不同脚手架和工具间的泛化能力。通过优化异步调度策略和树状结构的样本合并策略,训练速度提升了约40倍。

在算法层面,沿用了CISPO算法以确保MoE模型在大规模训练中的稳定性,并引入过程奖励机制来解决长上下文中的信用分配难题。

M2.5的实战演练

目前,M2.5已全面部署在MiniMax Agent中。

通过将核心信息处理能力提炼为标准化的Office技能,当处理Word格式化、PPT编辑和Excel计算等任务时,Agent会自动加载相应技能。用户还可以结合特定领域的行业SOP与Office技能,构建针对特定场景的专家。

例如在行业研究中,Agent可以严格遵循成熟的研究框架SOP,配合Word技能,自动抓取数据、梳理逻辑并输出格式规范的研究报告,而非简单的文本堆砌。

在MiniMax公司内部,M2.5已经承担了日常运营中30%的任务,覆盖研发、产品、销售、HR和财务等部门。在编码场景中,M2.5生成的代码更是占到了新提交代码量的80%。

参考:

https://www.minimax.io/news/minimax-m25

 


--end--


最后记得⭐️我,每天都在更新:如果觉得文章还不错的话可以点赞转发推荐评论


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询