我要投稿

阿里 Qwen3 正式发布，一口气开源8款模型！这个五一注定不太平！

发布日期：2025-04-29 07:37:34 浏览次数： 2702

作者：AI智见录

微信搜一搜，关注“AI智见录”

大模型圈又要热闹了！

就在刚刚，阿里云正式发布了 Qwen（通义千问）系列大模型的最新成员 —— Qwen3。这次发布包含了 8 个不同规模的模型，其中最大的模型有 235B 参数。

重磅升级，对标顶级模型

Qwen3 的旗舰模型是 Qwen3-235B-A22B。这个模型在代码、数学和通用能力等方面的测试中，已经可以和 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型一较高下。

Qwen3 系列包括：

2 个 MoE 模型：Qwen3-235B-A22B 和 Qwen3-30B-A3B
6 个标准模型：从 0.6B 到 32B 不等

亮点一：双模式思考能力

Qwen3 最大的创新是支持两种思考模式：

思考模式：模型会一步步推理，适合复杂问题。比如做数学题时，模型会像人类一样先分析问题，再逐步解答。
快速模式：模型直接给出答案，适合简单问题。比如问候、闲聊这类问题，模型会立即回应。

用户可以根据需要切换这两种模式。测试数据显示，在思考模式下，模型在 AIME（美国数学邀请赛）和 GPQA（通用问答）等任务上的表现会随着思考时间的增加而提升。

亮点二：超大规模预训练

Qwen3 的训练数据比上一代翻了一倍多：

Qwen2.5：18 万亿 token
Qwen3：36 万亿 token

训练数据来源广泛：

网络文本
PDF 文档
教科书
代码库
数学题库
多语言语料

训练过程分三步：

基础训练：用 30 万亿 token 训练基础语言能力
专业训练：加入 5 万亿专业领域数据（STEM、编程等）
长文本训练：把上下文长度扩展到 32K token

亮点三：创新的后训练方法

Qwen3 采用了四阶段后训练流程：

长文本冷启动：帮助模型适应长文本输入
推理强化学习：提升模型的推理能力
思维模式融合：把快速反应和深度思考能力结合
通用强化学习：在 20 多个领域进行能力训练

对于轻量级模型（如 Qwen3-4B/8B/14B），还使用了知识蒸馏技术，把大模型的能力传授给小模型。

亮点四：性能大幅提升

小模型也有大能力！Qwen3 的小型 MoE 模型 Qwen3-30B-A3B 只用了 QwQ-32B 十分之一的参数量，就取得了更好的效果。

就连最小的 Qwen3-4B 模型，也能达到 Qwen2.5-72B-Instruct 的水平。

亮点五：开箱即用

Qwen3 现在已经登陆各大平台：

Hugging Face
ModelScope
Kaggle

开发者可以用多种方式部署 Qwen3：

云端部署：用 SGLang 和 vLLM
本地部署：用 Ollama、LMStudio、MLX、llama.cpp 等工具

访问 https://chat.qwen.ai/ 在线体验。也可以在 App 上进行体验。

亮点六：多语言支持

Qwen3 支持 119 种语言，这让它可以服务全球用户。不管是中文、英文，还是小语种，Qwen3 都能应对自如。

大模型竞争加剧

就在 Qwen3 发布前，业内有爆料传出 DeepSeek R2 即将发布的消息。据说这个模型有这些特点：

1.2T 参数，78B 激活参数
比 GPT-4 便宜 97.3%
5.2PB 训练数据
视觉能力强，COCO 测试达到 92.4%
在华为 Ascend 910B 上利用率达到 82%

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-04-29

海外著名投资人的内部 AI 工具，才是真干货

2026-04-28

实测了 DeepSeek V4 后，我的评价是...

2026-04-26

Linux基金会背书 Goose：全能型本地 AI Agent 杀手，一键接管你的所有工作流！

2026-04-26

今天起，DeepSeek V4成OpenClaw默认模型！

2026-04-26

初识OpenSpec

2026-04-25

DeepSeek V4报告太详尽了！484天换代之路全公开

2026-04-24

阿里云 AI 网关支持 DeepSeek V4

2026-04-24

一手实测 DeepSeek V4，代码能力真的很强

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

全网都在猜DeepSeek V4的发布时间，但国产模型激战还有一条暗线

2026-02-14

1700人收藏！港大开源 ClawWork：开局 10 美元，AI 靠打工 7 小时狂赚 1 万刀！

2026-02-18

4 天 6.8K Star，这个 AI 漫剧项目火了：waoowaoo！

2026-03-03

GLM-5 技术报告全解读｜a16z：“最好的开源模型”

2026-02-22

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

大家都在问

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

你的 AI Agent 真的在受控运行吗？

2026-03-13

137K 行代码、零 clippy 警告：这个开源项目凭什么让 AI Agent 领域炸锅？

2026-03-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw