我要投稿

阿里Qwen3-Max-Thinking来了，加上TTS更强了，依然不开源

发布日期：2026-01-27 12:26:04 浏览次数： 2199

作者：Ai学习的老章

微信搜一搜，关注“Ai学习的老章”

11 月写过一篇迄今为止最强的中文模型 Qwen3-Max，实测，略失望，当时觉得作为年度旗舰，Qwen3-Max 在复杂逻辑上并没有展现出碾压级的优势，甚至在某些 coding 场景下还不如 R1 惊艳。

昨天深夜阿里发布了有思考能力的 Qwen3-Max-Thinking ，上了 Test-Time Scaling（推理时扩展）和自适应工具调用，号称要在逻辑推理和 Agent 能力上全面对标 GPT-5.2 和 Claude-Opus 4.5。

去年测试时我最常用的测试题目表现很拉垮，没有识别 4 次背影，样式很丑，不如 M2，更别提 Claude 了

Qwen3-Max-Thinking重试了这道题，表现确实牛逼太多

时间紧张，其他题目没有深入测试，倒是在各种 wx 群看到大家对其 Coding 能力有些失望，我暂时没有发言权，只能确信地说，它比 Qwen3-Max 预览版强许多。

简介

简单来说，Qwen3-Max-Thinking 是 Qwen3-Max 的“完全体”。

大家都在卷 Post-training（后训练）的时候，阿里这次把技能点点在了 Inference-time（推理时） 上。

什么意思呢？以前的模型也是“快思考”，看到题直接答；现在的 Qwen3-Max-Thinking 学会了“慢思考”，它会：

自适应工具调用：遇到不懂的先 Search，遇到计算直接调 Python，不用你教。
多轮自我反思：以前错了就错了，现在它会在推理过程中“回头看”，积累经验，自我修正。

官方称这种策略为 Experience-Cumulative Test-Time Scaling Strategy (TTS)，听起来很玄乎，翻译成人话就是：为了做对一道题，它愿意花更多时间去尝试和反思，而且越试越聪明。

来看看官方给出的成绩单（Benchmark）：

有了TTS 后多个Benchmark更强了，这是什么原理？有懂行的兄弟解释一下吗？

核心功能与特点：

数学能力炸裂：在 IMO-AnswerBench 上，开启 TTS 后得分从 83.9 飙升到 91.5，这可是奥数级别的提升。
写代码更稳了：LiveCodeBench v6 分数达到 91.4，之前被诟病的 coding 能力这次算是补齐了短板。
Agent 能力质变：HLE（with tools）分数直接干到了 58.3，说明它不仅会思考，还更会用工具干活了。

接入

直接兼容 OpenAI API，意味着你现有的 LangChain、dify、One API 等等生态工具，改个 base_url 和 model 名字就能直接用，迁移成本几乎为零。

模型 ID：qwen3-max-2026-01-23

具体的 API 配置如下（记得把 sk-xxx 换成你的 DASHSCOPE_API_KEY）：

import os
from openai import OpenAI

client = OpenAI(
    # 若没有配置环境变量，请直接替换为 API Key
    api_key=os.getenv("DASHSCOPE_API_KEY"), 
    base_url="https://dashscope-intl.aliyuncs.com/api/v2/apps/protocols/compatible-mode/v1",
)

response = client.responses.create(
    model="qwen3-max-2026-01-23",
    input="你好，请介绍一下 Qwen3-Max-Thinking 有什么新特性？"
)

# 获取模型回复
print(response.output_text)