支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


阿里AI三连发刷屏,那个最强的Qwen又回来了!

发布日期:2025-07-26 05:37:34 浏览次数: 1611
作者:夕小瑶科技说

微信搜一搜,关注“夕小瑶科技说”

推荐语

阿里AI三连发震撼开源圈,Qwen3系列模型重新定义最强开源标杆!

核心内容:
1. Qwen3系列三天连发三款顶级模型,包括基础版、代码专攻版和最强推理版
2. 最新Qwen3推理模型在多项硬核能力上反超闭源顶级模型
3. Qwen3-Coder引爆AI编程社区,获得行业大佬一致认可

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

我宣布,这周的 AI 圈只姓“通义”!

真的,给你们看看阿里这周是怎么玩的。

大前天先上了个 Qwen3 非思考版,把开源基础模型的标杆拉高一截。

前天凌晨大半夜甩出个 Qwen3-Coder 专攻代码,让海内外整个社区直接沸腾。

中间留了一天悄悄上了个翻译模型,还没等大家消化完,今天直接把桌子给掀了——推出最强的“思考版”Qwen3。

我总结一下就是,周二开胃,周三加码,今天直接掀了桌子。。

三天,三个顶级 Qwen 模型,这套操作下来,就一个感觉:那个最强的 Qwen 又回来了。而且这哪是抢回王座,这感觉更像是回来在边上巡视了一圈,一步两步三步,然后稳稳地坐在最强开源模型王座。

被卡皮坤秀到了! 

我们从最热乎的模型讲起,也就是刚刚释放的 Qwen3-235B-A22B-Thinking-2507。

当好多人的眼光还在 Kimi K2 身上时,这个全新的 Qwen3 推理模型,又重新定义了一次最强开源。

这个表现真的强的没话说了。

最左侧的红色条状是最新版本 2507 的成绩,比上一版本 Qwen3 强了一大截,而且和闭源的 Gemini-2.5 pro、o4-mini 比,在很多硬核能力上,比如 AIME25、LiveCodeBench、Arena-Hard 上,已经开始反超 Gemini-2.5 pro、o4-min 这些顶级闭源模型。

这是更详细的榜单表现,咱们直接上对比表格(除了 R1,其他都是顶尖闭源模型)。包括知识、推理、数学、编码、对齐、代理、多语言能力。千问 3 推理模型的表现毫不逊色。

现在在 qwen chat 网页端 https://chat.qwen.ai/,已经可以体验了。

开源地址传送门在此:

Huggingface 地址

https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507
ModelScope地址:

https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507

再来说下 Qwen3-Coder,这两天被赞爆了,收割了巨佬们的赏识。

推特创始人 Jack Dorsey  语出惊人。

Huggingface CEO clem 不仅点赞了 Qwen3-Coder 新模型,而且刷屏瀑布流地夸 Qwen3-Coder。

还有 PerplexityCEO  Aravind Srinivas 也认可 Qwen3-coder 实力。

Qwen3-Coder 的开源,引爆了 AI 编程话题热潮。我们的社群里反应比我还快,各种测试反馈已经满天飞了。我必须说,这个热度是真的好高。评论区里都是清一色的要干掉 Claude。

OpenRouter 数据显示,阿里千问的 API 调用量暴涨,过去几天已经超过了 1000 亿 tokens,包揽最热门调用模型的前三。

Coder 模型全称是 Qwen3-Coder-480B-A35B-Instruct,基于 MoE 架构,拥有 480B 参数量,实际激活只有 35B。原生支持 256K 上下文长度,可通过 yarn 等方式扩展至 1M。这对于编程场景至关重要。而且,可以灵活地接入到 Claude Code、Cline 这些已经有的工具里。

终于让社区有了一个能在复杂工作流中担当重任的开源代码“特种兵”。

Qwen3-Coder 在智能体编程、浏览器使用和工具调用这三项核心任务的基准测试中,均达到了开源模型顶尖水平,性能和代码能力闻名的 Claude 3.5 Sonnet 媲美。

为啥 Qwen3-Coder 这么强?

我发现他们为零应对 SWE-Bench 这类模拟真实世界的多轮交互任务,在 Qwen3-Coder 训练中融合了长时程强化学习(Agent RL),并突破性地构建了一个能同时运行 20,000 个虚拟环境的训练系统。通过大规模实战训练,Qwen3-Coder 在 SWE-Bench 基准上取得了开源模型的最佳战绩。

Qwen3-Coder 的核心能力与训练范式也有新的突破,比如:

  • Token 规模: 7.5 万亿 token 海量训练(其中包含 70% 代码数据)。
  • 上下文长度: 原生 256K,YaRN 扩展至 1M,高效处理大规模代码库及动态数据。
  • 合成数据: 利用 Qwen2.5-Coder 清理重写含噪声数据,提升质量。

来一个简单的小测试。

我让 Qwen3-Coder 生成一个扫雷游戏,发送完我的要求后,刚拿起手机正准备刷个抖音摸鱼,还没等我打开应用,游戏就已经生成好了。。。。过程非常丝滑,还支持一键部署:

在官网上,可以直接测试试用。

网址:https://chat.qwen.ai/

除了推理模型和编码模型,基模也是全球最强。

就是 Qwen3-235B 的 Non-thinking 版本,模型全称为 Qwen3-235B-A22B-Instruct-2507,已经在 7 月 22 日更新上线。

作为 Qwen3-235B 系列中一款专注于非推理模式(Non-thinking)的更新版本,Qwen3-235B(Non-thinking)模型参数配置与此前的 Qwen3-235B-A22B 基本一致,但是性能却显著提升。

绝大部分榜单的表现比闭源的 Claude Opus 4 非思考版本还要好。

依旧先放模型开源地址的传送门

Huggingface地址:

https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507
ModelScope地址:https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507

模型在通用能力基准测试中表现非常能打,而且因为模型对多语言长尾知识的加强训练,它的“外语”水平直接突破天花板。

Artificial Analysis 非常直接的表达出

“千问3是全球最智能的非思考基础模型”。

结语

这周,Qwen 用一套“三箭齐发”的组合拳,覆盖了通用、代码和深度思考的全场景,直接宣告:这周,是当之无愧的“通义时刻”!

但这波三连发真正厉害的地方,不只在于性能登顶,更在于它展现的格局:当一些海外巨头忙着建造“围墙花园”,把技术越锁越紧时,Qwen 还是坚持反其道而行之,选择把最顶尖的成果直接开源给全世界。

最顶尖的 AI 生产力工具,不是少数人的特权,而是直接送到了你我这样的普通开发者手中。

当最强的工具握在了最多的创造者手中,真正的精彩,才刚刚拉开序幕 ~

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询