微信扫码
添加专属顾问
我要投稿
开源大模型Qwen3-235B以"深度思考"为核心,在推理能力上直逼Gemini 2.5 Pro等顶尖闭源模型。 核心内容: 1. 混合专家架构实现高效推理:235B总参数仅激活22B 2. 强制性思考模式提升推理透明度与可靠性 3. 在数学、代码等复杂任务上达到SOTA水平
混合专家(MoE)
架构(激活22B/总235B参数)与强制性的“思考”模式。256K
超长上下文窗口和强大的 Agent
工具调用能力。阿里巴巴 Qwen3-235B-A22B-Thinking-2507 模型正式发布,它以 “Thinking”(思考) 作为核心特性,在多个高难度推理基准上刷新了开源模型的记录,其性能表现可与Google的 Gemini 2.5 Pro 和OpenAI的顶级模型进行对标。
Qwen3-Thinking的优异性能,并非单纯依靠参数规模,而是源自其高效的架构设计和独特的运行机制。
Qwen3-Thinking采用了先进的 混合专家(Mixture of Experts, MoE)
架构。我们可以将其理解为一个拥有128位专家的“委员会”。当模型处理一个任务时,一个高效的路由机制会根据任务需求,仅从128位专家中挑选出最相关的8位来协同工作。
<think>
,让推理过程透明化此模型的一个独特之处在于,它 仅支持“思考模式”
。在处理任何请求时,模型都会默认在内部生成一个详细的思考过程,然后再给出最终答案。
推理链(Chain-of-Thought)
。让我们通过数据来审视其能力。在涵盖知识、推理、代码等多个维度的权威Benchmark上,Qwen3-Thinking-2507的表现值得关注。
Qwen3-Thinking-2507 | ||||
推理 (Reasoning) | ||||
SuperGPQA | 64.9 | |||
HMMT25 | 83.9 | |||
代码 (Coding) | ||||
LiveCodeBench v6 | 74.1 | |||
CFEval | 2134 |
数据显示,在 SuperGPQA
、HMMT25
等高难度推理任务以及 LiveCodeBench
等代码能力评测中,该模型均展现出顶尖或领先的实力。
256K超长上下文
强大的Agent能力
Qwen-Agent
框架使用,可高效执行自动化查询、数据分析等多步骤复杂任务。全面的指令遵循
Qwen3-Thinking的发布,为我们观察AI行业发展趋势提供了新的视角。
“通才”模型
,开始向在特定能力上深度优化的 “专才”模型”
分化。transformers
库加载,或使用 vLLM
、SGLang
等框架进行高效服务化部署。vllm serve Qwen/Qwen3-235B-A22B-Thinking-2507 --tensor-parallel-size 8 --max-model-len 262144 --enable-reasoning --reasoning-parser deepseek_r1
Temperature=0.6
, TopP=0.95
。32768
甚至 81920
,为模型提供充足的“思考空间”。\boxed{}
包裹答案),可获得更规整的输出。Qwen-Agent
框架,它能显著简化工具调用的开发流程。Qwen3-Thinking-2507是开源社区在追赶顶级AI能力方面的一项重要进展。它证明了通过高效的架构(如MoE)和专注的功能优化(如深度思考),开源模型同样可以在技术前沿占据一席之地。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-07-23
2025-06-17
2025-06-17
2025-04-29
2025-07-23
2025-07-14
2025-04-29
2025-07-12
2025-04-29
2025-05-29
2025-07-26
2025-07-26
2025-07-26
2025-07-16
2025-07-15
2025-07-13
2025-07-08
2025-07-04