微信扫码
添加专属顾问
我要投稿
阿里云Qwen3实现三大突破,性能超越DeepSeek与Kimi,甚至逼近GPT-4水平。 核心内容: 1. 轻量化部署方案:模型体积减半,30GB显存即可运行 2. 256K长上下文处理能力:媲美Kimi和Claude 3 3. 推理能力显著提升:在数学、编程等任务中表现惊艳
最近Qwen3悄悄更新了,更新后的版本超越了DeepSeek和刚刚发布的kimi K2,更新后的名字叫Qwen3‑235B‑A22B‑Instruct‑2507‑FP8。
看着名字有点怪怪的,但是这次的版本升级,不仅在多个权威榜单上实现超车,甚至在某些任务中已经逼近 GPT-4 的水平。
相比于上一代,Qwen3‑235B‑A22B‑Instruct‑2507‑FP8 这次有三大关键性的突破:
过去大家跑个大模型,动辄就是百G显存起步,正常系统就不能部署。这次阿里把 FP8 精度量化方案引入到了 Qwen3 大模型中,模型文件体积从 437GB 减到 220GB 左右。
成本砍半,体验不减。只要你有一块 30GB 显存的显卡,就能跑一个当下最强的开源模型之一。
长上下文处理能力一直都是kimi的强项,这次没想到Qwen3也增强了这部分的能力。目前支持 token 提升至 256K,完全能和 Kimi K2、Claude 3 相提并论。
根据官方在实际体验中,这种上下文处理能力对于代码补全、合同审查、长文摘要等任务表现非常突出。看的出来阿里不止是模仿,是在扎实的做好这部分功能。
Qwen3 在 AIME(美国高中数学邀请赛)基准测试中取得了70.3 分的高分,远远领先,GPT‑4o(26.7 分)DeepSeek‑V3(46.6 分)Claude 3 Opus(61.7 分)
不过我总感觉Qwen3 的70.3 分多少是有点水分的,因为这领先太夸张了。当然如果你知道AIME的权威的话可能就不同意我的说法了。
不仅仅是数学能力,Qwen3 在编程能力和Agent能力上也表现惊艳,在LiveCodeBench v6编程测试中,Qwen3获得51.8分,在BFCL-v3测试中,Qwen3以70.9的得分接近人类专业水平(97.3分)
从多个公开榜单来看
在 LMSYS Arena 的对比测试中,Qwen3 的指令微调版本得分已超过 DeepSeek R1 与 Kimi K2 Base,并且在 Hugging Face 与 OpenRouter 上,其调用量和社区讨论热度快速上升;
很多人低估了阿里在大模型上的战略野心。实际上,Qwen 系列不是单点突破,而是整个“通义千问”体系的一环。
这次的指令微调版本,不再像早期开源模型那样“什么都能聊,什么都不准”,而是明确面向实际任务优化了。
比如:多轮任务执行能力增强,工具调用接口更清晰,代码生成和调试能力更贴近 IDE 场景。看来是真的奔着真的可用、能部署、能赚钱的方向来的。
还有一个明显的信号,这次Qwen的升级并不是孤立的技术行为,而是与阿里系产品矩阵深度捆绑
比如钉钉已经内置了通义千问的能力,阿里云 API 也将 Qwen3 作为主力大模型提供调用,通义APP逐步构建起自己的 Copilot 能力,布局类 ChatGPT 智能体系统。
也就是说,阿里并不是在做一个模型,而是在构建一个“模型即平台”的生态系统。
在之前的文章中我也说过,AI生态系统的竞争可能是接下来AI最大的竞争方向,腾讯、字节、阿里都在朝着这个方向加速前进呢。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-07-31
扣子开源,三天揽获1.5W GitHub Star
2025-07-31
官方AMA:扣子为什么要开源?
2025-07-31
Coze开源文档资料清单
2025-07-31
手把手教你本地部署!京东JoyAgent全攻略:从零拥有一个企业级的AI Agent
2025-07-31
扣子罗盘(Coze Loop)开源版本地部署,构建一站式AI Agent调试、评估、监控平台
2025-07-31
Github 2.3k star 太牛x,京东(JoyAgent‑JDGenie)项目来得太及时啦,端到端多智能体神器!
2025-07-31
字节打响 Agent 平台战!Coze扣子、n8n、Dify谁是终点?
2025-07-31
Coze开源后,我用LLM+OCR做了一个文档智能问答Agent
2025-07-23
2025-06-17
2025-06-17
2025-07-23
2025-07-14
2025-07-12
2025-05-29
2025-07-27
2025-05-12
2025-05-14
2025-07-31
2025-07-31
2025-07-30
2025-07-30
2025-07-30
2025-07-29
2025-07-29
2025-07-28