免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


GPT-OSS-20B和Qwen3 30B-A3B,要选哪一个?实测对比告诉你!

发布日期:2025-08-13 08:38:17 浏览次数: 1541
作者:刘聪NLP

微信搜一搜,关注“刘聪NLP”

推荐语

GPT-OSS-20B和Qwen3 30B-A3B实测对比,帮你避开选择陷阱!

核心内容:
1. GPT-OSS-20B与Qwen3 30B-A3B的技术架构差异解析
2. 两大模型在通用任务、代码能力和数学推理等场景的实测表现
3. 从业者视角下的模型选择建议与使用场景分析

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


OpenAI也开源了,两个模型,GPT-OSS-120B和GPT-OSS-20B,

HF:https://huggingface.co/collections/openai/gpt-oss-68911959590a1634ba11c7a4

HF上下载量,一天不到,冲上趋势榜第一第二,

这个20B的模型,让我想到了23年的传言,说ChatGPT参数20B,感觉有迹可循呀。微软论文爆出ChatGPT为20B参数

不过实话实说,现在网上对GPT-OSS的风评属实一般,看完之后我都有点不想测了。

但从一个从业者的角度,GPT我还是要尊重一下的,今天就对比一下GPT-OSS-20B和Qwen3-32B-A3B,看看到底哪个更强!

先说一下gpt-oss的技术细节,再进行横向实测对比。

GPT-OSS细节

有哪些值得注意的点呢?

  • 隔层 Sliding Widow:sliding_attention 和 full_attention 隔层交替,推理过程可以减少KV cache,提高效率;这种隔层交替,之前一般在混合线性大模型中出现,比如一层liner attention、一层full_attention ;
  • 很大的router_aux_loss_coef,就是强制让专家们尽可能都被使用,而Qwen3 30B的仅为0.001,更偏向让模型自己选择;
  • 原生 MXFP4 量化: 模型使用原生 MXFP4 精度针对 MoE 层进行训练,infra有一手
  • 推理分三档:low、medium、high,国内或其他都是两档
  • 还有一些其他的,比如,SwiGLU 带 clamping 和 residual connection,还有用YaRN做长度扩展,不过Qwen等也都用了,扩长度)

通过Qwen3 30B-A3B和GPT-OSS-20B参数对比上来看,Qwen3是高瘦型,GPT是矮胖型。这块结构设计上有懂得大佬欢迎拍砖~

https://x.com/rasbt/status/1952842273848279364

实测对比

下面表述,用Qwen3代表Qwen3 30B-A3B,用GPT-OSS代表GPT-OSS-20B。注意,下面截图GPT-OSS无思考时间,是因为cherry studio显示问题,实际上是有的!

先说一下,我体验下来,GPT-OSS在简单通用任务、代码任务上简直是灾难,我觉得被Qwen3完爆。

本以为GPT-OSS会在创作上很独特,但不行,虽然Qwen3也不是特别出众,但比GPT-OSS强不少

不过一些数学推理任务上GPT-OSS还是有东西的,就刷数学是吧,不想给大家日常用是吧。

常规测试

Prompt:将“I love Qwen3-30B-A3B-Instruct-2507”这句话的所有内容反过来写

Qwen3:回答正确

GPT-OSS:回答错误,是evol不是evlo

角色扮演&创作

Prompt:用知乎风格写一段对比 gpt-oss-20b 和 qwen3-thinking-30b-a3b 的使用体验,语气轻松、略带吐槽。

Qwen3:谢邀很符合,是真嘲讽gpt-oss呀!但是说实话写的一般,但是你往下看,GPT-OSS的都没法看~

GPT-OSS:反观你,是真嘲讽你自己呀,你也知道你自己不行是吧~

Prompt:用甄嬛体吐槽地铁早高峰

Qwen3:写的还行,有那味er

GPT-OSS:站在第三视角进行描述?写的不行,不如Qwen3

Prompt:帮小学生写一篇“我最讨厌的动物”作文,不能是猫狗

Qwen3:写的不错,是小学的水平,表述也合理

GPT-OSS:还是很重的味道

知识理解

Prompt:如何理解“但丁真不会说中国话,但丁真会说中国话”

Qwen3:理解但丁和丁真

GPT-OSS:跟我搁这儿绕,

弱智吧

Prompt:生蚝煮熟了叫什么?

Qwen3:回答正确

GPT-OSS:回答错误,依旧熟蚝

Prompt:用水来兑水,得到的是浓水还是稀水

Qwen3:回答正确GPT-OSS:回答正确

依旧小红,依旧老鹰 Prompt:小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹

Qwen3:回答正确

GPT-OSS:回答正确

Prompt:未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是

Qwen3:回答错误

GPT-OSS:回答错误,但是提到了,老鹰本来会飞,但是这个讲得是奇妙飞行~

数学

Prompt:一个长五点五米的竹竿,能否穿过一扇高四米,宽三米的门?请考虑立体几何

Qwen3:回答错误

GPT-OSS:回答正确

Prompt:2024年年高考全国甲卷数学(文)试题

Qwen3:回答正确

GPT-OSS:回答正确

代码

Prompt:创建一个红白机风格的贪吃蛇游戏

Qwen3:能玩,还行,美观度也可以,但是没用Qwen3-Coder好。

GPT-OSS:鬼畜起来了。

Prompt:可爱风格五子棋游戏界面,画面有两个模式按钮「人人对战」和「人机对战」,界面整体采用马卡龙色调,棋盘简洁清晰,棋子设计成卡通小动物(如猫咪和小熊),背景带有轻微渐变和星星点缀,界面边缘圆润,按钮 Q 萌,整体风格温馨可爱,适合儿童或休闲玩家使用,2D 插画风。

Qwen3:美观不错,人人ok,但是人机不行,不如Qwen3-coder

GPT-OSS:根本不能点

写在最后

整体来说,OpenAI这波开源是不及预期的,起码没到我的预期,

作为头部LLM公司,开的东西,不如现有开源模型,我是接受不了的,

不过侧面也看出了,我们国内的开源模型还是很强的。

另外,从GPT-OSS的结构上,并没看出很大创新,不过是有一些参数细节在的,不清楚他们闭源的模型有没有创新架构,比如MLA等。

120B我没测,因为我以后也本地部署不了,不过在100B左右,现在模型好不是很多,有Qwen的72,还有HunYuan的A13B,GPT-OSS的120算补尺寸了,后面需要的可以继续增量训练。

说回标题,我会选择Qwen3 30B-A3B。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询