支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


阿里云Qwen3重大升级,已全面超越DeepSeek与Kimi

发布日期:2025-07-30 21:34:35 浏览次数: 1548
作者:墨痕AI前沿哨

微信搜一搜,关注“墨痕AI前沿哨”

推荐语

阿里云Qwen3实现三大突破,性能超越DeepSeek与Kimi,甚至逼近GPT-4水平。

核心内容:
1. 轻量化部署方案:模型体积减半,30GB显存即可运行
2. 256K长上下文处理能力:媲美Kimi和Claude 3
3. 推理能力显著提升:在数学、编程等任务中表现惊艳

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

最近Qwen3悄悄更新了,更新后的版本超越了DeepSeek和刚刚发布的kimi K2,更新后的名字叫Qwen3‑235B‑A22B‑Instruct‑2507‑FP8

看着名字有点怪怪的,但是这次的版本升级,不仅在多个权威榜单上实现超车,甚至在某些任务中已经逼近 GPT-4 的水平。

相比于上一代,Qwen3‑235B‑A22B‑Instruct‑2507‑FP8 这次有三大关键性的突破:

1. 更轻量的部署方案


过去大家跑个大模型,动辄就是百G显存起步,正常系统就不能部署。这次阿里把 FP8 精度量化方案引入到了 Qwen3 大模型中,模型文件体积从 437GB 减到 220GB 左右。

成本砍半,体验不减。只要你有一块 30GB 显存的显卡,就能跑一个当下最强的开源模型之一。

2. 上下文能力提升


长上下文处理能力一直都是kimi的强项,这次没想到Qwen3也增强了这部分的能力目前支持 token 提升至 256K完全能和 Kimi K2、Claude 3 相提并论。

根据官方在实际体验中,这种上下文处理能力对于代码补全、合同审查、长文摘要等任务表现非常突出。看的出来阿里不止是模仿,是在扎实的做好这部分功能。


3. 推理能力暴涨


Qwen3 在 AIME(美国高中数学邀请赛)基准测试中取得了70.3 分的高分,远远领先,GPT‑4o(26.7 分)DeepSeek‑V3(46.6 分)Claude 3 Opus(61.7 分)

不过我总感觉Qwen3 的70.3 分多少是有点水分的因为这领先太夸张了。当然如果你知道AIME的权威的话可能就不同意我的说法了。

不仅仅是数学能力,Qwen3 在编程能力和Agent能力上也表现惊艳,在LiveCodeBench v6编程测试中,Qwen3获得51.8分,在BFCL-v3测试中,Qwen3以70.9的得分接近人类专业水平(97.3分)

图片

从多个公开榜单来看

在 LMSYS Arena 的对比测试中,Qwen3 的指令微调版本得分已超过 DeepSeek R1 与 Kimi K2 Base并且在 Hugging Face 与 OpenRouter 上,其调用量和社区讨论热度快速上升;

很多人低估了阿里在大模型上的战略野心。实际上,Qwen 系列不是单点突破,而是整个“通义千问”体系的一环。

这次的指令微调版本,不再像早期开源模型那样“什么都能聊,什么都不准”,而是明确面向实际任务优化了。

比如:多轮任务执行能力增强,工具调用接口更清晰,代码生成和调试能力更贴近 IDE 场景。看来是真的奔着真的可用、能部署、能赚钱的方向来的

还有一个明显的信号,这次Qwen的升级并不是孤立的技术行为,而是与阿里系产品矩阵深度捆绑

比如钉钉已经内置了通义千问的能力,阿里云 API 也将 Qwen3 作为主力大模型提供调用,通义APP逐步构建起自己的 Copilot 能力,布局类 ChatGPT 智能体系统。

也就是说,阿里并不是在做一个模型,而是在构建一个“模型即平台”的生态系统

在之前的文章中我也说过,AI生态系统的竞争可能是接下来AI最大的竞争方向,腾讯、字节、阿里都在朝着这个方向加速前进呢。

阿里在AI技术的进步在几个大厂里应该是最稳定的,每一次的模型发布悄咪咪的,不过度的宣传,主打的就是稳扎稳打,这反而给人留下一种干实事印象。这次Qwen进步也是尤为的关键,希望阿里在AI上前进的每一步都能给我们带来不一样的体验,现在尤其喜欢这种稳得住的态度。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询