微信扫码
添加专属顾问
我要投稿
阿里最新发布的Qwen3-Max-Thinking模型在推理能力上实现重大突破,通过"慢思考"机制显著提升逻辑推理和工具调用能力。核心内容: 1. Qwen3-Max-Thinking的创新技术:Test-Time Scaling和自适应工具调用 2. 在数学、编程和Agent任务上的性能突破 3. 与OpenAI API兼容的便捷部署方案
大家好,我是 Ai 学习的老章
11 月写过一篇迄今为止最强的中文模型 Qwen3-Max,实测,略失望,当时觉得作为年度旗舰,Qwen3-Max 在复杂逻辑上并没有展现出碾压级的优势,甚至在某些 coding 场景下还不如 R1 惊艳。
昨天深夜阿里发布了有思考能力的 Qwen3-Max-Thinking ,上了 Test-Time Scaling(推理时扩展)和 自适应工具调用,号称要在逻辑推理和 Agent 能力上全面对标 GPT-5.2 和 Claude-Opus 4.5。
去年测试时我最常用的测试题目表现很拉垮,没有识别 4 次背影,样式很丑,不如 M2,更别提 Claude 了
Qwen3-Max-Thinking重试了这道题,表现确实牛逼太多
时间紧张,其他题目没有深入测试,倒是在各种 wx 群看到大家对其 Coding 能力有些失望,我暂时没有发言权,只能确信地说,它比 Qwen3-Max 预览版强许多。
简单来说,Qwen3-Max-Thinking 是 Qwen3-Max 的“完全体”。
大家都在卷 Post-training(后训练)的时候,阿里这次把技能点点在了 Inference-time(推理时) 上。
什么意思呢?以前的模型也是“快思考”,看到题直接答;现在的 Qwen3-Max-Thinking 学会了“慢思考”,它会:
官方称这种策略为 Experience-Cumulative Test-Time Scaling Strategy (TTS),听起来很玄乎,翻译成人话就是:为了做对一道题,它愿意花更多时间去尝试和反思,而且越试越聪明。
来看看官方给出的成绩单(Benchmark):
核心功能与特点:
直接兼容 OpenAI API,意味着你现有的 LangChain、dify、One API 等等生态工具,改个 base_url 和 model 名字就能直接用,迁移成本几乎为零。
模型 ID:qwen3-max-2026-01-23
具体的 API 配置如下(记得把 sk-xxx 换成你的 DASHSCOPE_API_KEY):
import os
from openai import OpenAI
client = OpenAI(
# 若没有配置环境变量,请直接替换为 API Key
api_key=os.getenv("DASHSCOPE_API_KEY"),
base_url="https://dashscope-intl.aliyuncs.com/api/v2/apps/protocols/compatible-mode/v1",
)
response = client.responses.create(
model="qwen3-max-2026-01-23",
input="你好,请介绍一下 Qwen3-Max-Thinking 有什么新特性?"
)
# 获取模型回复
print(response.output_text)
注意:这里使用的是 client.responses.create,这是阿里云为了支持更丰富的输出(比如搜索结果、思维链)做的一个兼容接口,当然标准的 Chat Completions 接口理论上也是支持的,但官方文档推荐用这个以获得最佳体验。
这次 Qwen3-Max-Thinking 的核心就在于 Thinking。
在官方博客中,他们提到了一个很有意思的点:Adaptive Tool-Use(自适应工具使用)。
以前我们用大模型,通过 Prompt 告诉它“你可以用搜索”、“你可以用代码解释器”。Qwen3-Max-Thinking 则把这个内化了。它在思考过程中,会自动判断当前步骤是否需要联网检索最新信息,或者是否需要写一段 Python 代码来验证数学猜想。
这种 System 2(慢思考) 的能力,正是迈向真正 AGI 的关键一步。
这就好比一个学生,以前是靠死记硬背(Pre-training)考试,现在允许他带计算器、允许他查字典,还允许他在草稿纸上反复演算(TTS),那考分能不高吗?
从纸面参数和技术路线来看,Qwen3-Max-Thinking 确实是一次针对性的“雪耻”之作。它精准地打击了之前版本在逻辑推理和复杂任务调用上的痛点。
优点:
可能的顾虑:
如果你之前对 Qwen3-Max 感到失望,不妨再给这个 Thinking 版本一次机会。毕竟,一个会反思、会用工具的 AI,才更像我们期待的那个“超级助手”。
大家可以去 chat.qwen.ai 体验一下网页版,或者通过 API 接入实测。有任何好玩的发现,欢迎在评论区告诉我!
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-27
Claude 史诗级进化:直接在对话框里回 Slack、画 Figma,工作流彻底变了
2026-01-27
从安装到运行:手把手教你用Clawdbot完成第一个智能任务
2026-01-27
刚刚,阿里旗舰模型Qwen3-Max-Thinking发布,编程能力“踢馆”Gemini与Claude
2026-01-27
腾讯的社交实验:当 AI 混进人类「群聊」
2026-01-26
重磅!千问最强模型正式发布
2026-01-26
Claude Skills 与 Gemini Skills 格式对比与转换指南(含示例脚本 + GitHub 项目示例)
2026-01-26
从0到1玩转Clawdbot:我花了40小时,把这些坑都踩完了
2026-01-26
Skills 设计思路分享|一键实现 OneService 接口调用
2026-01-10
2025-11-19
2025-11-13
2025-11-03
2026-01-24
2026-01-01
2025-12-09
2025-11-12
2025-11-15
2025-11-21
2026-01-26
2026-01-26
2026-01-23
2026-01-23
2026-01-22
2026-01-22
2026-01-21
2026-01-21