我要投稿

实测百万token上下文模型MiniMax-M1：RAG真的要被淘汰了？

发布日期：2025-06-19 08:14:23 浏览次数： 2229

作者：云中江树

微信搜一搜，关注“云中江树”

昨晚12点，我还在电脑前测试一个新模型，突然意识到一个问题让我兴奋得睡不着觉。

你有没有想过，如果AI能"记住"一整本书的内容，会发生什么？不是那种似是而非的"记住"，而是真正的、完整的、一字不漏的记住。

前两天，MiniMax发布了最新模型——MiniMax-M1，直接把上下文拉到了一百万token！

这是什么概念？我花了一晚上测试，发现它相当于能一次性"读完"300页的书，而且全程几乎不忘记任何细节。

从卡兹克的文章DeepSeek了。" data-itemshowtype="0" linktype="text" data-linktype="2">MiniMax深夜开源首个推理模型M1，这次是真的卷到DeepSeek了。也可以看出，M1的长上下文"大海捞针"能力确实有明显的进步！

作为一个每天都要处理大量文档的人，我当时的第一反应是：卧槽，这不是要革命了吗？

更劲爆的是，这个消息一出，连VentureBeat这种美国顶级科技媒体都专门报道了。

要知道，VentureBeat可是"美国前十科技网站"之一，能被他们关注说明这事儿确实不小。

为什么百万上下文让我这么激动？

说实话，我等这样的模型等了很久很久。

很多时候，我想让AI帮我分析一份上百页的调研报告。结果呢？DeepSeek模型直接甩给我一句"达到对话长度上限"。

那一刻我就想，什么时候AI能像人一样，可以完整地读完我提供的全部资料再和我交流？

你们肯定也遇到过这种情况：想让AI总结一篇50页的论文，它告诉你太长了；想分析一个完整的项目代码，它说放不下；想处理一份详细的商业计划书，还是放不下...

或者即使可以放下，但经常感觉给你的回答是碎片式的，遗漏了一大块重要内容。

因为这些功能背后每次都得用RAG（检索增强生成），需要把文档切成小块，让AI一点点处理。

但说句心里话，这就像让一个人戴着眼罩摸象——只能感知局部，很难把握全貌。

遇到这种要上传资料的场景，我经常怀疑AI是不是真的理解了我要表达的完整意思。

现在好了！百万token直接把整头大象都塞给AI，让它完整地"看"和"理解"。这种感觉，就像给AI做了近视手术，突然世界都清晰了。

国内也有公司吹过百万上下文，但我都试过，很多都是用RAG做的假象。

这次M1是真正原生的百万Token上下文！我这两天测试下来，真的是又惊又喜。

性能到底怎么样？

从MiniMax的报告可以看到，在长上下文理解的评测标准MRCR上，M1的表现稳稳进入第一梯队，几乎和谷歌Gemini比肩！

但数字是一回事，实际体验又是另一回事。

我最感兴趣的是TAU-bench（代理工具使用场景）的表现。这个测试很有意思，专门测试AI在复杂多轮对话中调用工具的能力。

结果让我眼前一亮：M1不仅领跑所有开源模型，还战胜了Gemini-2.5 Pro，和OpenAI O3分数接近，只是稍逊于Claude 4 Opus。

要知道，OpenAI O3、Gemini-2.5 Pro、Claude 4 Opus都是海外顶级闭源模型，每个都是"神仙"级别的存在。

M1开源地址：https://github.com/MiniMax-AI/MiniMax-M1

M1不但完全开源，性能还能接近这些大佬，作为一个开源爱好者，我内心真的很激动。

这意味着什么？意味着我们终于有了一个既开源又强大的选择，不用再受制于海外闭源模型的各种限制了！

成本控制更是绝了

更让人震惊的是训练成本。

得益于他们独创的闪电注意力机制和CISPO强化学习算法，整个强化学习阶段只用了512块H800三周时间，总花费53.47万美金。

这个成本低到什么程度？比预期少了一个数量级！

API价格也很亲民，32k上下文下，百万Token不到1块钱。还采用了分段计费，用多少付多少。

如何体验？

第一时间，我就跑去了官方网站：https://chat.minimax.io/

这里有个小细节要注意：一定要选择chat模式并打开Thinking模式，我开始就是因为没注意这个设置，还在纳闷怎么效果一般般。

我用官方的案例做了个迷宫生成器测试，效果真的让我眼前一亮。

我用了下面的提示词：

Create a maze generator and pathfinding visualizer. Randomly generate a maze and visualize A* algorithm solving it step by step. Use canvas and animations. Make it visually appealing.

没想到它真的做出来了，而且效果比我想象的还要好！

还有一个惊喜是他们的Agent模式。我受到沃垠文章我用MiniMax Agent做PPT，实在太爽了的启发，试了试让AI做PPT，结果做得还真不错。

我把链接贴出来给大家看看：https://agent.minimax.io/share/281365721911444

老实说，看到这个生成的PPT时，我在电脑前愣了好一会儿——页面简洁干净，审美居然还挺在线的。

我们也可以用官方API调用，官方的API性价比和稳定性都是最好的。

官方API：https://platform.minimaxi.com/document/platform%20introduction

四大实用场景

01 在Cherry Studio中调用

说实话，配置Cherry Studio的时候，我内心是忐忑的。因为之前试过太多模型，总是在关键时刻掉链子。

但M1真的给了我惊喜。我把它配置为主模型，搭配了联网MCP、Arxiv论文MCP、代码MCP、下载MCP等好几个工具。

然后我做了个大胆的尝试：丢给它一个超级复杂的任务——"搜索多智能体系统相关论文，下载第一篇PDF，然后读取并总结要点"。

说完这句话，我就去刷了个短视频，心想："看看这次又会在哪里卡住。"

结果呢？当我回来的时候，M1不仅完成了任务，还给了我一个意外惊喜：它在Arxiv搜索失败后，竟然自己想办法，切换到联网搜索找到了相关论文，然后下载、翻译、总结，一气呵成！

那一刻我真的有点感动，就像看到一个聪明的助手不仅完成了任务，还超额完成了。这种感觉，用过的人都懂。

02 Claude Code的长文本平替

说到Claude Code，我的心情很复杂。

一方面它确实很强大，但另一方面门槛实在太高了：

费用贵得让我心疼（每个月光API费用就要几百刀）
需要海外信用卡和"特殊"网络（你懂的）
最要命的是随时面临封号风险，我有朋友用了半年突然就没了

前几天我熬夜整理了一份claude-code终极平替指南，当时对于长上下文模型推荐的是Gemini方案。但说实话，网络问题依然让人头疼。

Claude Code 平替指南：https://github.com/yzfly/claude-code-deepseek-quickstart

现在有了M1，我终于可以松一口气了！不用翻墙，不用担心封号，性能还不差，这种感觉真的很爽。

我昨晚就把配置改了，跑了几个项目测试，体验还不错。

如果你也想尝试一下Claude Code，建议试试下面这个配置：

{
    "OPENAI_API_KEY": "sk-xxx",
    "OPENAI_BASE_URL": "https://api.deepseek.com",
    "OPENAI_MODEL": "deepseek-chat",
    "Providers": [
      {
        "name": "deepseek",
        "api_base_url": "https://api.deepseek.com",
        "api_key": "sk-xxx",
        "models": ["deepseek-reasoner", "deepseek-chat"]
      },
      {
        "name": "MiniMax",
        "api_base_url": "https://api.minimaxi.com/v1",
        "api_key": "xxx",
        "models": ["MiniMax-M1"]
      }
    ],
    "Router": {
      "background": "deepseek,deepseek-chat",
      "think": "deepseek,deepseek-reasoner",
      "longContext": "MiniMax,MiniMax-M1"
    }
}

03 告别Trae排队烦恼

用Trae自带模型总是遇到排队，浪费时间：

配置M1后，编程场景下的长上下文处理能力大大提升：

我日常用DeepSeek和Qwen-Max，现在又多了一个优秀选择。

04 无需RAG的长文MCP Server

关于"上下文能否取代RAG"这个话题，我和很多朋友争论过。但这次用了M1之后，我更加坚信：当模型上下文足够长时，很多复杂的RAG场景真的会变得极其简单。

为什么这么说？我给你举个真实的例子。

前两周，我需要分析一篇50页的技术论文。按照以前的做法，我得把PDF切成几块，然后让AI分别处理，最后再人工整合。光是这个流程就要折腾1个多小时，而且效果还不一定好。

有了M1的百万上下文，我直接把整个PDF的内容丢给它："帮我总结这篇论文的核心观点、技术创新点和潜在应用场景。"然后我就去干别的事情了，几分钟后回来发现它已经给了我一份详细的分析报告。

那一刻我想：这不就是我一直期待的AI助手吗？

于是我花了一个通宵，基于M1的长上下文能力做了这个MCP：

GitHub链接：https://github.com/yzfly/fullscope-mcp-server

功能很简单，但很实用：

超长网页一键总结（再也不用害怕长文章了）
超长PDF一键总结（学术论文、报告都不在话下）
AI信息抽取和主题汇总（找资料的效率提升了10倍）

使用下面的配置就可以配置这个MCP Server，记得换成你自己的MiniMax API Key：

{
  "mcpServers": {
    "fullscope-mcp": {
      "command": "uvx",
      "args": ["fullscope-mcp-server"],
      "env": {
        "OPENAI_API_KEY": "xxx",
        "OPENAI_BASE_URL": "https://api.minimaxi.com/v1",
        "OPENAI_MODEL": "MiniMax-M1",
        "MAX_INPUT_TOKENS": "900000",
        "MAX_OUTPUT_TOKENS": "8000"
      }
    }
  }
}