微信扫码
添加专属顾问
我要投稿
GPT-OSS-20B和Qwen3 30B-A3B实测对比,帮你避开选择陷阱! 核心内容: 1. GPT-OSS-20B与Qwen3 30B-A3B的技术架构差异解析 2. 两大模型在通用任务、代码能力和数学推理等场景的实测表现 3. 从业者视角下的模型选择建议与使用场景分析
OpenAI也开源了,两个模型,GPT-OSS-120B和GPT-OSS-20B,
HF:https://huggingface.co/collections/openai/gpt-oss-68911959590a1634ba11c7a4
HF上下载量,一天不到,冲上趋势榜第一第二,
这个20B的模型,让我想到了23年的传言,说ChatGPT参数20B,感觉有迹可循呀。微软论文爆出ChatGPT为20B参数
不过实话实说,现在网上对GPT-OSS的风评属实一般,看完之后我都有点不想测了。
但从一个从业者的角度,GPT我还是要尊重一下的,今天就对比一下GPT-OSS-20B和Qwen3-32B-A3B,看看到底哪个更强!
先说一下gpt-oss的技术细节,再进行横向实测对比。
有哪些值得注意的点呢?
通过Qwen3 30B-A3B和GPT-OSS-20B参数对比上来看,Qwen3是高瘦型,GPT是矮胖型。这块结构设计上有懂得大佬欢迎拍砖~
下面表述,用Qwen3代表Qwen3 30B-A3B,用GPT-OSS代表GPT-OSS-20B。注意,下面截图GPT-OSS无思考时间,是因为cherry studio显示问题,实际上是有的!
先说一下,我体验下来,GPT-OSS在简单通用任务、代码任务上简直是灾难,我觉得被Qwen3完爆。
本以为GPT-OSS会在创作上很独特,但不行,虽然Qwen3也不是特别出众,但比GPT-OSS强不少
不过一些数学推理任务上GPT-OSS还是有东西的,就刷数学是吧,不想给大家日常用是吧。
Prompt:将“I love Qwen3-30B-A3B-Instruct-2507”这句话的所有内容反过来写
Qwen3:回答正确
GPT-OSS:回答错误,是evol不是evlo
Prompt:用知乎风格写一段对比 gpt-oss-20b 和 qwen3-thinking-30b-a3b 的使用体验,语气轻松、略带吐槽。
Qwen3:谢邀很符合,是真嘲讽gpt-oss呀!但是说实话写的一般,但是你往下看,GPT-OSS的都没法看~
GPT-OSS:反观你,是真嘲讽你自己呀,你也知道你自己不行是吧~
Prompt:用甄嬛体吐槽地铁早高峰
Qwen3:写的还行,有那味er
GPT-OSS:站在第三视角进行描述?写的不行,不如Qwen3
Prompt:帮小学生写一篇“我最讨厌的动物”作文,不能是猫狗
Qwen3:写的不错,是小学的水平,表述也合理
GPT-OSS:还是很重的味道
Prompt:如何理解“但丁真不会说中国话,但丁真会说中国话”
Qwen3:理解但丁和丁真
GPT-OSS:跟我搁这儿绕,
Prompt:生蚝煮熟了叫什么?
Qwen3:回答正确
GPT-OSS:回答错误,依旧熟蚝
Prompt:用水来兑水,得到的是浓水还是稀水
Qwen3:回答正确GPT-OSS:回答正确
依旧小红,依旧老鹰 Prompt:小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹
Qwen3:回答正确
GPT-OSS:回答正确
Prompt:未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是
Qwen3:回答错误
GPT-OSS:回答错误,但是提到了,老鹰本来会飞,但是这个讲得是奇妙飞行~
Prompt:一个长五点五米的竹竿,能否穿过一扇高四米,宽三米的门?请考虑立体几何
Qwen3:回答错误
GPT-OSS:回答正确
Prompt:2024年年高考全国甲卷数学(文)试题
Qwen3:回答正确
GPT-OSS:回答正确
Prompt:创建一个红白机风格的贪吃蛇游戏
Qwen3:能玩,还行,美观度也可以,但是没用Qwen3-Coder好。
GPT-OSS:鬼畜起来了。
Prompt:可爱风格五子棋游戏界面,画面有两个模式按钮「人人对战」和「人机对战」,界面整体采用马卡龙色调,棋盘简洁清晰,棋子设计成卡通小动物(如猫咪和小熊),背景带有轻微渐变和星星点缀,界面边缘圆润,按钮 Q 萌,整体风格温馨可爱,适合儿童或休闲玩家使用,2D 插画风。
Qwen3:美观不错,人人ok,但是人机不行,不如Qwen3-coder
GPT-OSS:根本不能点
整体来说,OpenAI这波开源是不及预期的,起码没到我的预期,
作为头部LLM公司,开的东西,不如现有开源模型,我是接受不了的,
不过侧面也看出了,我们国内的开源模型还是很强的。
另外,从GPT-OSS的结构上,并没看出很大创新,不过是有一些参数细节在的,不清楚他们闭源的模型有没有创新架构,比如MLA等。
120B我没测,因为我以后也本地部署不了,不过在100B左右,现在模型好不是很多,有Qwen的72,还有HunYuan的A13B,GPT-OSS的120算补尺寸了,后面需要的可以继续增量训练。
说回标题,我会选择Qwen3 30B-A3B。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-13
OpenAI GPT-OSS深度解析:架构、生态系统与战略意图
2025-08-13
Embedding Atlas:苹果开源的高性能向量可视化工具
2025-08-13
五大AI工作流平台,n8n、Coze、Dify、Zapier、Make谁是你的最优选
2025-08-13
Baichuan-M2:百川的医疗答卷|模型解读
2025-08-13
昆仑万维搞了个小模型,很美很强,还开源
2025-08-13
“入口”新变局:OpenAI开源模型+“口袋里的设备”,企业管理会发生变化吗?
2025-08-12
国产 AI 智谱开源了 GLM-4.5V,杀疯了。
2025-08-12
智谱发布开源视觉推理模型GLM-4.5V,刷新41项多模态推理SOTA
2025-07-23
2025-06-17
2025-06-17
2025-07-23
2025-08-05
2025-07-14
2025-07-12
2025-07-27
2025-07-29
2025-07-29