免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

阿里Qwen3-Max-Thinking来了,加上TTS更强了,依然不开源

发布日期:2026-01-27 12:26:04 浏览次数: 1549
作者:Ai学习的老章

微信搜一搜,关注“Ai学习的老章”

推荐语

阿里最新发布的Qwen3-Max-Thinking模型在推理能力上实现重大突破,通过"慢思考"机制显著提升逻辑推理和工具调用能力。

核心内容:
1. Qwen3-Max-Thinking的创新技术:Test-Time Scaling和自适应工具调用
2. 在数学、编程和Agent任务上的性能突破
3. 与OpenAI API兼容的便捷部署方案

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
Qwen3-Max-Thinking
Qwen3-Max-Thinking

大家好,我是 Ai 学习的老章

11 月写过一篇迄今为止最强的中文模型 Qwen3-Max,实测,略失望,当时觉得作为年度旗舰,Qwen3-Max 在复杂逻辑上并没有展现出碾压级的优势,甚至在某些 coding 场景下还不如 R1 惊艳。

昨天深夜阿里发布了有思考能力的 Qwen3-Max-Thinking ,上了 Test-Time Scaling(推理时扩展)和 自适应工具调用,号称要在逻辑推理和 Agent 能力上全面对标 GPT-5.2 和 Claude-Opus 4.5。

去年测试时我最常用的测试题目表现很拉垮,没有识别 4 次背影,样式很丑,不如 M2,更别提 Claude 了

Qwen3-Max-Thinking重试了这道题,表现确实牛逼太多

时间紧张,其他题目没有深入测试,倒是在各种 wx 群看到大家对其 Coding 能力有些失望,我暂时没有发言权,只能确信地说,它比 Qwen3-Max 预览版强许多。

简介

简单来说,Qwen3-Max-Thinking 是 Qwen3-Max 的“完全体”。

大家都在卷 Post-training(后训练)的时候,阿里这次把技能点点在了 Inference-time(推理时) 上。

什么意思呢?以前的模型也是“快思考”,看到题直接答;现在的 Qwen3-Max-Thinking 学会了“慢思考”,它会:

  1. 自适应工具调用:遇到不懂的先 Search,遇到计算直接调 Python,不用你教。
  2. 多轮自我反思:以前错了就错了,现在它会在推理过程中“回头看”,积累经验,自我修正。

官方称这种策略为 Experience-Cumulative Test-Time Scaling Strategy (TTS),听起来很玄乎,翻译成人话就是:为了做对一道题,它愿意花更多时间去尝试和反思,而且越试越聪明。

来看看官方给出的成绩单(Benchmark):


有了TTS 后多个Benchmark更强了,这是什么原理?有懂行的兄弟解释一下吗?

核心功能与特点:

  • 数学能力炸裂:在 IMO-AnswerBench 上,开启 TTS 后得分从 83.9 飙升到 91.5,这可是奥数级别的提升。
  • 写代码更稳了:LiveCodeBench v6 分数达到 91.4,之前被诟病的 coding 能力这次算是补齐了短板。
  • Agent 能力质变:HLE(with tools)分数直接干到了 58.3,说明它不仅会思考,还更会用工具干活了。

接入

直接兼容 OpenAI API,意味着你现有的 LangChain、dify、One API 等等生态工具,改个 base_url 和 model 名字就能直接用,迁移成本几乎为零。

模型 IDqwen3-max-2026-01-23

具体的 API 配置如下(记得把 sk-xxx 换成你的 DASHSCOPE_API_KEY):

import os
from openai import OpenAI

client = OpenAI(
    # 若没有配置环境变量,请直接替换为 API Key
    api_key=os.getenv("DASHSCOPE_API_KEY"), 
    base_url="https://dashscope-intl.aliyuncs.com/api/v2/apps/protocols/compatible-mode/v1",
)

response = client.responses.create(
    model="qwen3-max-2026-01-23",
    input="你好,请介绍一下 Qwen3-Max-Thinking 有什么新特性?"
)

# 获取模型回复
print(response.output_text)

注意:这里使用的是 client.responses.create,这是阿里云为了支持更丰富的输出(比如搜索结果、思维链)做的一个兼容接口,当然标准的 Chat Completions 接口理论上也是支持的,但官方文档推荐用这个以获得最佳体验。

思考

这次 Qwen3-Max-Thinking 的核心就在于 Thinking

在官方博客中,他们提到了一个很有意思的点:Adaptive Tool-Use(自适应工具使用)

以前我们用大模型,通过 Prompt 告诉它“你可以用搜索”、“你可以用代码解释器”。Qwen3-Max-Thinking 则把这个内化了。它在思考过程中,会自动判断当前步骤是否需要联网检索最新信息,或者是否需要写一段 Python 代码来验证数学猜想。

这种 System 2(慢思考) 的能力,正是迈向真正 AGI 的关键一步。

这就好比一个学生,以前是靠死记硬背(Pre-training)考试,现在允许他带计算器、允许他查字典,还允许他在草稿纸上反复演算(TTS),那考分能不高吗?

总结

从纸面参数和技术路线来看,Qwen3-Max-Thinking 确实是一次针对性的“雪耻”之作。它精准地打击了之前版本在逻辑推理复杂任务调用上的痛点。

优点:

  • 推理能力强:TTS 带来的逻辑提升肉眼可见,数学和代码能力重回第一梯队。
  • 工具调用丝滑:原生支持 Search 和 Code Interpreter,Agent 开发者的福音。
  • 兼容性好:OpenAI 格式直接用,不折腾。

可能的顾虑:

  • 速度与成本:Thinking 模式意味着更多的 Token 消耗和更长的等待时间。对于实时性要求高的应用,可能需要权衡。
  • API 稳定性:新模型上线初期,往往伴随着并发限制和波动,建议大家先小范围测试。

如果你之前对 Qwen3-Max 感到失望,不妨再给这个 Thinking 版本一次机会。毕竟,一个会反思、会用工具的 AI,才更像我们期待的那个“超级助手”。

大家可以去 chat.qwen.ai 体验一下网页版,或者通过 API 接入实测。有任何好玩的发现,欢迎在评论区告诉我!

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询