我要投稿

阿里发布Qwen3-Max预览版：万亿级参数兼具超高速与高质量

发布日期：2025-09-07 11:08:47 浏览次数： 3210

作者：图灵AI云

微信搜一搜，关注“图灵AI云”

最近，阿里通义团队发布了他们的新一代旗舰大模型——Qwen3-Max-Preview（Instruct），这个模型的参数规模超过了一万亿，是目前Qwen系列中最大、最先进的一个版本。它已经可以通过Qwen Chat、阿里云API、OpenRouter等平台访问，同时也作为默认模型集成在Hugging Face的AnyCoder工具中。

阿里Qwen3 开源：一夜刷屏，全球震动！ - 每时AI

从当前大模型的发展趋势来看，行业整体其实是在往“更小、更高效”的方向走，比如很多团队都在探索MoE架构下的稀疏激活、模型蒸馏、量化压缩等技术，力求在保持性能的同时降低推理成本。在这样的背景下，阿里选择继续向上突破，推出一个超大规模的模型，确实是一个值得深思的战略决策。这不仅体现了他们在底层算力调度、分布式训练等方面的技术积累，也反映出他们对“极致能力探索”这条路径的坚持。

那么，这个Qwen3-Max到底有多大？它的上下文窗口最长支持到262,144个token（其中输入最多258,048，输出最多32,768），这个长度在目前的商业模型中算是非常领先的，能够处理整本书、长篇代码库或者复杂的多轮对话历史。值得一提的是，它还引入了context caching机制，这个技术可以在多轮交互中缓存之前的上下文表示，从而显著提升响应速度，减少重复计算开销，对于实际应用体验的改善是比较明显的。

在性能方面，根据公开的评测结果，Qwen3-Max-Preview在多个权威基准测试中表现优异，包括SuperGPQA、AIME25、LiveCodeBench v6、Arena-Hard v2和LiveBench等。它不仅明显优于自家之前的Qwen3-235B-A22B-2507模型，而且在推理、编程和综合任务上，也能与Claude Opus 4、Kimi K2以及DeepSeek-V3.1这样的顶级模型正面竞争。有意思的是，虽然官方并没有特别强调这是一个“强推理”模型，但从早期使用反馈来看，它在复杂问题拆解和结构化推理方面展现出了不错的“emergent ability”——也就是所谓的“涌现能力”，这一点还是挺让人惊喜的。

不过，这次发布也有一些值得注意的变化。和之前Qwen系列一贯坚持的开源策略不同，Qwen3-Max目前是闭源的（not open-weight），也就是说，我们无法像以前那样下载权重、本地部署或进行深度研究。它的访问方式仅限于API和合作平台。这种转变，从商业角度看是可以理解的——毕竟这么大体量的模型，训练和运维成本极高，企业需要通过服务化来回收投入。但从科研社区的角度看，可能会对模型的可复现性、透明度以及进一步的学术探索带来一定限制。

在定价方面，阿里云采用了分层计费的方式，这对不同规模的应用场景影响差异较大：

• 0–32K tokens：输入每百万token 0.861美元，输出3.441美元
• 32K–128K：输入1.434美元，输出5.735美元
• 128K–252K：输入2.151美元，输出8.602美元

可以看到，对于常规任务来说，价格相对合理，性价比不错；但一旦涉及超长上下文处理，尤其是接近25万token级别的输入输出，费用就会明显上升。这对需要频繁处理长文档、大规模代码分析的企业用户来说，成本控制会成为一个实际问题。

总结一下，Qwen3-Max-Preview的发布，确实把国产大模型的“规模上限”又往上推了一步。万亿参数、26万token的上下文、强大的综合能力，这些指标都体现了阿里在大模型底层技术上的深厚积累。特别是在训练稳定性、长上下文优化和推理效率方面的工程能力，是值得肯定的。

但另一方面，闭源策略和阶梯式定价，也让这个模型更多地走向了“企业级服务”的定位，而不是面向大众开发者或研究者的开放平台。未来它的影响力，可能更多体现在商业落地和行业解决方案中，而在开源生态中的传播力或许会有所减弱。

作为长期关注大模型发展的技术人员，我觉得这样的探索是有价值的——无论是走“极致规模”的路线，还是追求“极致效率”的路径，都是推动技术进步的重要尝试。关键是要在能力、成本和开放性之间找到合适的平衡点。Qwen3-Max的出现，至少让我们看到，在这个多元化的时代，中国团队依然在用自己的方式，参与全球AI前沿的角逐。