我要投稿

GPT-OSS-20B和Qwen3 30B-A3B，要选哪一个？实测对比告诉你！

发布日期：2025-08-13 08:38:17 浏览次数： 2386

作者：刘聪NLP

微信搜一搜，关注“刘聪NLP”

OpenAI也开源了，两个模型，GPT-OSS-120B和GPT-OSS-20B，

HF：https://huggingface.co/collections/openai/gpt-oss-68911959590a1634ba11c7a4

HF上下载量，一天不到，冲上趋势榜第一第二，

这个20B的模型，让我想到了23年的传言，说ChatGPT参数20B，感觉有迹可循呀。微软论文爆出ChatGPT为20B参数

不过实话实说，现在网上对GPT-OSS的风评属实一般，看完之后我都有点不想测了。

但从一个从业者的角度，GPT我还是要尊重一下的，今天就对比一下GPT-OSS-20B和Qwen3-32B-A3B，看看到底哪个更强！

先说一下gpt-oss的技术细节，再进行横向实测对比。

GPT-OSS细节

有哪些值得注意的点呢？

隔层 Sliding Widow：sliding_attention 和 full_attention 隔层交替，推理过程可以减少KV cache，提高效率；这种隔层交替，之前一般在混合线性大模型中出现，比如一层liner attention、一层full_attention ；
很大的router_aux_loss_coef，就是强制让专家们尽可能都被使用，而Qwen3 30B的仅为0.001，更偏向让模型自己选择；
原生 MXFP4 量化：模型使用原生 MXFP4 精度针对 MoE 层进行训练，infra有一手
推理分三档：low、medium、high，国内或其他都是两档
还有一些其他的，比如，SwiGLU 带 clamping 和 residual connection，还有用YaRN做长度扩展，不过Qwen等也都用了，扩长度）

通过Qwen3 30B-A3B和GPT-OSS-20B参数对比上来看，Qwen3是高瘦型，GPT是矮胖型。这块结构设计上有懂得大佬欢迎拍砖~

https://x.com/rasbt/status/1952842273848279364

实测对比

下面表述，用Qwen3代表Qwen3 30B-A3B，用GPT-OSS代表GPT-OSS-20B。注意，下面截图GPT-OSS无思考时间，是因为cherry studio显示问题，实际上是有的！

先说一下，我体验下来，GPT-OSS在简单通用任务、代码任务上简直是灾难，我觉得被Qwen3完爆。

本以为GPT-OSS会在创作上很独特，但不行，虽然Qwen3也不是特别出众，但比GPT-OSS强不少

不过一些数学推理任务上GPT-OSS还是有东西的，就刷数学是吧，不想给大家日常用是吧。

常规测试

Prompt：将“I love Qwen3-30B-A3B-Instruct-2507”这句话的所有内容反过来写

Qwen3：回答正确

GPT-OSS：回答错误，是evol不是evlo

角色扮演&创作

Prompt：用知乎风格写一段对比 gpt-oss-20b 和 qwen3-thinking-30b-a3b 的使用体验，语气轻松、略带吐槽。

Qwen3：谢邀很符合，是真嘲讽gpt-oss呀！但是说实话写的一般，但是你往下看，GPT-OSS的都没法看~

GPT-OSS：反观你，是真嘲讽你自己呀，你也知道你自己不行是吧~

Prompt：用甄嬛体吐槽地铁早高峰

Qwen3：写的还行，有那味er

GPT-OSS：站在第三视角进行描述？写的不行，不如Qwen3

Prompt：帮小学生写一篇“我最讨厌的动物”作文，不能是猫狗

Qwen3：写的不错，是小学的水平，表述也合理

GPT-OSS：还是很重的味道

知识理解

Prompt：如何理解“但丁真不会说中国话，但丁真会说中国话”

Qwen3：理解但丁和丁真

GPT-OSS：跟我搁这儿绕，

弱智吧

Prompt：生蚝煮熟了叫什么？

Qwen3：回答正确

GPT-OSS：回答错误，依旧熟蚝

Prompt：用水来兑水，得到的是浓水还是稀水

Qwen3：回答正确GPT-OSS：回答正确

依旧小红，依旧老鹰 Prompt：小红有2个兄弟，3个姐妹，那么小红的兄弟有几个姐妹

Qwen3：回答正确

GPT-OSS：回答正确

Prompt：未来的某天，李同学在实验室制作超导磁悬浮材料时，意外发现实验室的老鼠在空中飞，分析发现，是因为老鼠不小心吃了磁悬浮材料。第二天，李同学又发现实验室的蛇也在空中飞，分析发现，是因为蛇吃了老鼠。第三天，李同学又发现实验室的老鹰也在空中飞，你认为其原因是

Qwen3：回答错误

GPT-OSS：回答错误，但是提到了，老鹰本来会飞，但是这个讲得是奇妙飞行~

数学

Prompt：一个长五点五米的竹竿，能否穿过一扇高四米，宽三米的门？请考虑立体几何

Qwen3：回答错误

GPT-OSS：回答正确

Prompt：2024年年高考全国甲卷数学（文）试题

Qwen3：回答正确

GPT-OSS：回答正确

代码

Prompt：创建一个红白机风格的贪吃蛇游戏

Qwen3：能玩，还行，美观度也可以，但是没用Qwen3-Coder好。

GPT-OSS：鬼畜起来了。

Prompt：可爱风格五子棋游戏界面，画面有两个模式按钮「人人对战」和「人机对战」，界面整体采用马卡龙色调，棋盘简洁清晰，棋子设计成卡通小动物（如猫咪和小熊），背景带有轻微渐变和星星点缀，界面边缘圆润，按钮 Q 萌，整体风格温馨可爱，适合儿童或休闲玩家使用，2D 插画风。

Qwen3：美观不错，人人ok，但是人机不行，不如Qwen3-coder

GPT-OSS：根本不能点

写在最后

整体来说，OpenAI这波开源是不及预期的，起码没到我的预期，

作为头部LLM公司，开的东西，不如现有开源模型，我是接受不了的，

不过侧面也看出了，我们国内的开源模型还是很强的。

另外，从GPT-OSS的结构上，并没看出很大创新，不过是有一些参数细节在的，不清楚他们闭源的模型有没有创新架构，比如MLA等。

120B我没测，因为我以后也本地部署不了，不过在100B左右，现在模型好不是很多，有Qwen的72，还有HunYuan的A13B，GPT-OSS的120算补尺寸了，后面需要的可以继续增量训练。

说回标题，我会选择Qwen3 30B-A3B。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-25

DeepSeek 要用蜜雪冰城的打法，做中国版 Claude Code

2026-05-25

DeepSeek V4还能更省！新工具缓存命中率高达99.82%，2折稳定到手

2026-05-25

Anthropic开源Claude小企业插件：不用写prompt，15套现成流程顶半个运营团队

2026-05-21

麻省理工团队开源GenCAD，用一张图片生成完整CAD模型与参数化程序

2026-05-21

真Agent框架生态的主语言已经变为TypeScript

2026-05-20

Hermes Agent + Ollama本地安装指南

2026-05-20

Qwen3.7来了，全球排名第13，国内第一

2026-05-17

开源、零依赖、R@5 精度 95%：agentmemory 凭什么比 mem0 更值得用

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

Google Gemma 4 开源｜全面解读

2026-04-03

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

4 天 6.8K Star，这个 AI 漫剧项目火了：waoowaoo！

2026-03-03

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

开启极简养虾，用 TRAE 快速部署 OpenClaw

2026-03-04

OpenAI 刚开源了 Symphony：以后写代码，你只需要拖工单就行了

2026-03-09

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

大家都在问

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

你的 AI Agent 真的在受控运行吗？

2026-03-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部