我要投稿

Qwen3-Max：阿里巴巴的万亿参数模型，真正意义上的“思考模式”来了

发布日期：2025-09-29 07:49:52 浏览次数： 3659

作者：Halo咯咯

微信搜一搜，关注“Halo咯咯”

在过去两年，大模型的迭代节奏越来越快，从 GPT-4 到 Claude、Gemini，再到国内的百花齐放，大家早已见怪不怪。但就在 2025 年 9 月，阿里巴巴正式发布了 Qwen3-Max ——一个超过 万亿参数（1T+） 的 Mixture-of-Experts（MoE）大模型。

与以往的“预览版”不同，这一次，阿里直接把它推向了生产级落地。不仅在 Qwen Chat 面向普通用户开放，还通过 阿里云 Model Studio API 提供开发者调用。这意味着，它已经不只是实验室里的新鲜玩具，而是真正能跑在业务里的“大模型引擎”。

今天，我们就来拆解一下：Qwen3-Max 到底带来了哪些突破？它和前一代相比，有什么质的变化？又为什么特别强调“思考模式（Thinking Mode）”？

一、规模与架构：从 360 亿 Token 到万亿参数的跨越

阿里官方明确表示，Qwen3-Max 是迄今为止最强大的 Qwen 模型，不仅在规模上跨过了 1T 参数大关，还采用了 稀疏激活的 MoE 架构。

这里我们简单解释一下：

MoE（Mixture-of-Experts） 就像一个大型团队，每个专家只在需要时被调用，避免所有人都同时上场，从而既保证模型容量，又控制计算成本。
Qwen3-Max 在训练时使用了 36 万亿（36T）Token，大约是 Qwen2.5 的两倍。数据分布覆盖 多语言、代码、STEM 学科与推理任务，明显针对企业级场景做了优化。

训练后，它还遵循了 四阶段配方：

长链路推理冷启动（CoT cold-start）；
以推理为核心的强化学习（Reasoning RL）；
“思考模式”与“非思考模式”的融合训练；
通用领域的再强化（General RL）。

这套流程不仅是规模的堆砌，更是针对推理、编程和复杂任务定制的优化方案。

二、两种模式：Instruct 与 Thinking 的分工

Qwen3-Max 最大的亮点之一，就是明确区分了 两条产品线：

Qwen3-Max-Instruct

对标传统 ChatGPT 类体验
主打 聊天、代码生成、常规推理
追求低延迟、快速响应
Qwen3-Max-Thinking

面向复杂的 “Agent” 类场景
支持 多步推理、工具调用、长链路思考
适用于代码执行、搜索检索、任务规划

一个关键细节是：思考模式必须启用 incremental_output=true 的流式输出。如果开发者忘记设置这个参数，模型就不会进入真正的“深度思考”状态。这是阿里在 API 层面给出的明确契约，也避免了调用时的混乱。

换句话说：

Instruct 模式像一个聪明的助手，反应快但不“深度纠结”；
Thinking 模式则像一个团队智囊，需要多花点时间思考，但能把问题考虑得更透彻，甚至会主动调用工具解决难题。

三、性能实测：代码、Agent、数学全面升级

那么，这个“万亿参数 + 思考模式”的组合，实际表现如何？

1. 编程（SWE-Bench Verified）

Qwen3-Max-Instruct 在 SWE-Bench Verified 上拿到了 69.6 分。

这一成绩超过了 DeepSeek V3.1（非思考模式）的基线；
略低于 Claude Opus 4（非思考模式）。

要知道，SWE-Bench 不只是写几行代码，而是要在真实的代码库环境里完成修复和提交。能在这里站稳脚跟，说明 Qwen3-Max 的代码推理和上下文理解能力，已经不输国际一线大模型。

2. 智能 Agent（Tau2-Bench）

在 Tau2-Bench ——一个专门评测 工具调用与任务规划 的基准上，Qwen3-Max 取得了 74.8 分，领先于同类对手。

这背后的意义在于：

企业在搭建 AI Agent 时，不再需要写一堆“手工策略”；
模型本身已经学会了“什么时候该调用工具、调用哪个工具”。

对于想要部署 AI 客服、自动化运维、企业知识库的团队来说，这是一大好消息。

3. 数学与推理（AIME25 等）

Qwen3-Max-Thinking 模式在 AIME25 等数学基准上，几乎达到了“接近满分”的表现。

虽然这些结果目前大多是厂商披露或社区复现，还没有完整的技术报告支撑，但至少表明：通过延长推理链路 + 工具辅助，复杂任务的可解性显著提升。

四、如何看待这些提升？

从企业应用的角度，我们可以把 Qwen3-Max 的进步总结为三点：

代码层面： SWE-Bench 的提升，意味着它不仅能写“Demo 代码”，还能真正改动大型仓库，支持生产级代码辅助。
Agent 层面： Tau2-Bench 的成绩，意味着它能更好地替代“人工脚本”，让 AI 自己学会判断和选择。
推理层面：数学任务的突破说明，长链路推理 + 工具调用的结合，是未来大模型的必经之路。

换句话说，Qwen3-Max 的价值不在于简单对话，而在于它能直接作为“企业 AI 中台”的核心引擎。

五、实用示例：如何调用 Qwen3-Max？

阿里云开放的 API 已经支持开发者调用，我们来看一个 Python 示例：

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3-max",
    messages=[
      {'role': 'user', 'content': 'Give me a short introduction to large language model.'}
    ]
)

print(completion.choices[0].message)

如果你要开启“思考模式”，只需要在调用时添加：

completion = client.chat.completions.create(
    model="qwen3-max-thinking",
    messages=[ ... ],
    incremental_output=True
)

注意：

qwen3-max-instruct 与 qwen3-max-thinking 是不同的模型名；
思考模式必须启用流式输出，否则无法进入长链路推理。

六、未来展望：阿里的大模型战役

Qwen3-Max 的发布，至少释放了三个信号：

国内厂商已经能量产万亿参数模型，并不再停留在“实验室阶段”；
思考模式将成为大模型的必备特性，未来更多 Agent 应用都会依赖这种长链路推理；
开放生态正在形成：从 Qwen Chat 到 Model Studio API，阿里在积极吸引开发者加入。

对于企业来说，现在正是尝试的最佳时机。无论是代码自动化、Agent 智能体，还是数学推理、知识库问答，Qwen3-Max 都提供了一个高性能的起点。

结语

过去我们说大模型像“万能的聪明助手”，而 Qwen3-Max 的思考模式，更像是一个会反复推敲、会自己动手找工具的“超级智囊”。

它的价值，不仅仅在于分数和参数，而在于能否成为企业真实场景中的可靠底座。

阿里已经迈出了第一步，接下来，就看开发者和企业如何把这台“万亿级引擎”跑起来。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-01-05

刚刚，蝉联Future X全球榜首的MiroMind发布全球最强搜索智能体模型

2026-01-05

这大概就是Skills能够降维打击n8n的原因吧！

2026-01-05

HiMarket 重磅升级：Agent 的下一站，AI 开放平台

2026-01-05

Skills比MCP更重要？更省钱的多！Python大佬这观点老金测了一周终于懂了

2026-01-05

对比 GLM 4.7 和 MiniMax 写代码，我看到了不同的 AI 人格

2026-01-04

字节Seed：大概念模型来了，推理的何必是下一个token

2026-01-04

MIT团队推出递归语言模型！不改架构、不扩窗口，上下文处理能力扩展百倍

2026-01-04

MIT发现让AI变聪明的秘密，竟然和人类一模一样

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

马斯克 Grok imagine 完整使用指南：工具、案例、提示词，看这一篇就够了！

2025-10-26

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

2025-10-20

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

从spec-kit到OpenSpec：规格驱动开发如何解决项目迭代痛点？

2025-10-18

英特尔发布“2纳米级”工艺CPU，你的AI PC性能即将暴涨50%

2025-10-11

实测｜DeepSeek-V3.2-Exp三大升级：长文本、多轮对话、开发支持

2025-10-21

ChatGPT 成人模式要来了，但作为成年人我一点都不高兴

2025-10-15

一万两千字，教你用ClaudeCode，解锁10倍生产力。

2025-10-09

我错了，Gemini 做PPT不是“一般”，是“封神”。（尤其挖到第3层功能后…）

2025-11-03

大家都在问

2025四大AI怎么选？每月20美金，谁能当你的“全能外挂”？

2026-01-02

AGI的终极形态，是分布式集体智能？

2025-12-31

Manus联合创始人张涛：智能体Agent的终极形态是什么？

2025-12-31

Claude skills 底层逻辑是什么？

2025-12-31

LLM、RAG、微调、多模态，这些概念的「产品意义」是什么？

2025-12-30

谷歌没想到：Antigravity 竟成了 Claude Code 的“免费充电宝”？

2025-12-30

为什么大多数 Agent 项目，最终都没能跑进核心业务系统？

2025-12-25

一口气看完了200+企业的300多个AI案例，我发现了什么？

2025-12-25

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean