我要投稿

阿里云Qwen3重大升级，已全面超越DeepSeek与Kimi

发布日期：2025-07-30 21:34:35 浏览次数： 2519

作者：墨痕AI前沿哨

微信搜一搜，关注“墨痕AI前沿哨”

最近Qwen3悄悄更新了，更新后的版本超越了DeepSeek和刚刚发布的kimi K2，更新后的名字叫Qwen3‑235B‑A22B‑Instruct‑2507‑FP8。

看着名字有点怪怪的，但是这次的版本升级，不仅在多个权威榜单上实现超车，甚至在某些任务中已经逼近 GPT-4 的水平。

相比于上一代，Qwen3‑235B‑A22B‑Instruct‑2507‑FP8 这次有三大关键性的突破：

1. 更轻量的部署方案

过去大家跑个大模型，动辄就是百G显存起步，正常系统就不能部署。这次阿里把 FP8 精度量化方案引入到了 Qwen3 大模型中，模型文件体积从 437GB 减到 220GB 左右。

成本砍半，体验不减。只要你有一块 30GB 显存的显卡，就能跑一个当下最强的开源模型之一。

2. 上下文能力提升

长上下文处理能力一直都是kimi的强项，这次没想到Qwen3也增强了这部分的能力。目前支持 token 提升至 256K，完全能和 Kimi K2、Claude 3 相提并论。

根据官方在实际体验中，这种上下文处理能力对于代码补全、合同审查、长文摘要等任务表现非常突出。看的出来阿里不止是模仿，是在扎实的做好这部分功能。

3. 推理能力暴涨

Qwen3 在 AIME（美国高中数学邀请赛）基准测试中取得了70.3 分的高分，远远领先，GPT‑4o（26.7 分）DeepSeek‑V3（46.6 分）Claude 3 Opus（61.7 分）

不过我总感觉Qwen3 的70.3 分多少是有点水分的，因为这领先太夸张了。当然如果你知道AIME的权威的话可能就不同意我的说法了。

不仅仅是数学能力，Qwen3 在编程能力和Agent能力上也表现惊艳，在LiveCodeBench v6编程测试中，Qwen3获得51.8分，在BFCL-v3测试中，Qwen3以70.9的得分接近人类专业水平（97.3分）

从多个公开榜单来看

在 LMSYS Arena 的对比测试中，Qwen3 的指令微调版本得分已超过 DeepSeek R1 与 Kimi K2 Base，并且在 Hugging Face 与 OpenRouter 上，其调用量和社区讨论热度快速上升；

很多人低估了阿里在大模型上的战略野心。实际上，Qwen 系列不是单点突破，而是整个“通义千问”体系的一环。

这次的指令微调版本，不再像早期开源模型那样“什么都能聊，什么都不准”，而是明确面向实际任务优化了。

比如：多轮任务执行能力增强，工具调用接口更清晰，代码生成和调试能力更贴近 IDE 场景。看来是真的奔着真的可用、能部署、能赚钱的方向来的。

还有一个明显的信号，这次Qwen的升级并不是孤立的技术行为，而是与阿里系产品矩阵深度捆绑

比如钉钉已经内置了通义千问的能力，阿里云 API 也将 Qwen3 作为主力大模型提供调用，通义APP逐步构建起自己的 Copilot 能力，布局类 ChatGPT 智能体系统。

也就是说，阿里并不是在做一个模型，而是在构建一个“模型即平台”的生态系统。

在之前的文章中我也说过，AI生态系统的竞争可能是接下来AI最大的竞争方向，腾讯、字节、阿里都在朝着这个方向加速前进呢。

阿里在AI技术的进步在几个大厂里应该是最稳定的，每一次的模型发布悄咪咪的，不过度的宣传，主打的就是稳扎稳打，这反而给人留下一种干实事印象。这次Qwen进步也是尤为的关键，希望阿里在AI上前进的每一步都能给我们带来不一样的体验，现在尤其喜欢这种稳得住的态度。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-17

GLM-5.2 技术解读：智谱百万上下文的新一代旗舰模型

2026-06-16

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-12

当 AI Coding Agent 成为基础设施：我们为什么要开源 LoongSuite Pilot

2026-06-09

CPU 跑得比 Whisper GPU还快的开源语音识别，本地部署

2026-06-09

别再问我什么是爱马仕！

2026-06-09

Open Design：开源界的 Claude Design 替代品，61.7K Star，21+ Agent 都能跑，本地第一

2026-06-08

我开源了 PPT-Library：让历史 PPT 变成 AI 可复用资产

2026-06-08

knowledge-work-plugins：Anthropic 官方开源的知识工作插件集，19,000+Star

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

ollama v0.18.2 发布！OpenClaw 安装优化、Claude 加速、MLX 量化全面升级

2026-03-20

大家都在问

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw