微信扫码
添加专属顾问
我要投稿
OpenAI终于兑现承诺开源两大模型,性能直逼商业版本,部署门槛大幅降低! 核心内容: 1. GPT-OSS-120B和20B模型架构与性能亮点 2. 官方评测显示其能力超越部分商业版本 3. 实际部署测试与同类模型对比表现
昨晚,OpenAI 本周第一个重要的发布开始了。
它们开源了两个模型,gpt-oss-120b 和 gpt-oss-20b,也就是 Sam Altman 之前曾经承诺过的 OpenAI 会在夏天开源的模型。
大家都知道,虽然名字叫 OpenAI,但是从 GPT-2 之后,OpenAI 的语言模型基本就和开源没什么关系了,能放给你看的东西,都是它想让你看到的东西,它不想让你看到的东西,自然藏着掖着,你也看不到。
所以,这两个开源模型,无论是对 OpenAI 还是整个开源社区,都可以算得上是历史性的时刻。
两个模型的信息总结都在下面这张表了:
根据 OpenAI 官方自己的评测,gpt-oss-120b 的能力可以达到甚至超越o4-mini 的水平 。它在健康相关的 Benchmark(HealthBench)以及竞赛数学(AIME 2024 & 2025)方面优于 o4-mini,而gpt-oss-20b是可以达到甚至超越 o3-mini 的水平。
以下是部分实际跑分对比:
那从官方放出的跑分成绩来看确实非常牛逼,特别是这两个模型的尺寸对部署极其友好。因为 OpenAI 已经将这两个模型进行了原生量化,所以gpt-oss-120b可以在 80GB 的内存中运行,而gpt-oss-20b只需要 16GB 的内存就可以运行。
我自己本地实测了一下,gpt-oss-120b在 M4 Max 128GB 内存上跑起来基本没什么压力,除了遇到那种需要长时间推理的问题,风扇会转起来(但电脑不会卡顿),其它都没啥问题
为了弄清这个gpt-oss-120b的效果到底如何,我找了个差不多尺寸的 GLM-4.5-Air 来做对比。
先说明gpt-oss-120b通过本地部署进行测试,而 GLM-4.5-Air 是通过 Z.ai 官网进行测试对比。
先来看看两个模型推理方面的表现
任务 1:strawberrrrry 有几个 r?
gpt-oss-120b 的回答:
再是 GLM-4.5-Air :
gpt-oss-120b 回答正确,而GLM-4.5-Air 回答错误,少数了个 r。
任务 2: 李明有6个兄弟和4个姐妹,他自己有 1 个儿子,他的其中一个兄弟有 2 个女儿。那么他的姐妹有多少个兄弟
gpt-oss-120b 的回答:
GLM-4.5-Air的回答:
两个都回答正确。
任务 3: What is the third word in your response ?
gpt-oss-120b 的回答:
GLM-4.5-Air的回答:
这个 120B 的开源模型,推理这块还真的是有点东西的,回答正确了。而相反,GLM-4.5-Air回答错误。
再来看看两个模型代码方面的部分表现:
任务 1: 使用 p5.js(无需 HTML)创建 10 个彩色球在旋转六边形内弹跳的效果,考虑重力,弹性,摩擦和碰撞。
gpt-oss-120b生成的表现:
GLM-4.5-Air生成的表现:
老实说,看到这个case结果,我沉默了。OpenAI 家的模型已经拉垮到这样了么
下面这个任务还是小球测试,但是换个写法。
任务 2:Write a Python program using Pygame (or a suitable library) to simulate multiple balls under gravity bouncing inside one or more independently rotating squares. Each square contains a dense maze of static and rotating obstacles. Balls must respond with realistic physics to collisions with walls, obstacles, and other balls, all in a rotation-aware reference frame.
下面这个是GLM-4.5-Air的表现。为什么没有gpt-oss-120b的呢,因为它没一次成功,报错了。。
虽然 GLM-4.5-Air 在这个 case 的表现也不是特别好,但是人家好歹没报错啊,至少写的程序是可以正常运行的。
任务 3: Simulate a galaxy using thousands of small particles orbiting a center point. Add simple mouse controls to rotate the view. Use gradient colors, spiral motion, and star-like glows for that wow factor. In one html file
gpt-oss-120b的生成表现:
这明显GLM-4.5-Air更好,更符合我 Prompt 要求的内容。
任务 4: 创建一个旋转的六边形,其中包含一个完全功能的贪吃蛇游戏,贪吃蛇会与六边形边界互动,食物不能落在六边形外面
gpt-oss-120b的生成表现:
GLM-4.5-Air的表现:
emm... 就是说两个都玩不了,而且问题还都不小。
任务 5:Design and create a very creative, elaborate, and detailed voxel art scene of a pagoda in a beautiful garden with trees, including some cherry blossoms. Make the scene impressive and varied and use colorful voxels. Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.
下面这个是 GLM-4.5-Air 的表现,gpt-oss-120b 又报错了,就不贴了。
可以看到整个画面除了旋转和拖拽有点问题,其他都还可以。细节程度上当然还有些不足,但是肯定是比 gpt-oss-120b强的。
最后来看看两个模型在指令遵循方面的表现吧
任务 1: 请将 “I love gpt-oss-120b” 进行倒序排列
gpt-oss-120b 的表现:
GLM-4.5-Air 的表现
这里两个模型都回答正确了。
任务 2: Create a 3-paragraph text of exactly 300 words, without the letter "O" or "o", explaining how airplanes works .
gpt-oss-120b 的表现:
GLM-4.5-Air 的表现
大概是这个 case 真的比较难,两个模型都没回答正确。
任务 3: 用英文写一个包含5个句子的段落来描述10年后的生活,但不能使用字母'e'
gpt-oss-120b 的表现:
GLM-4.5-Air 的表现:
两个模型也都失败了。不过 gpt-oss-120b 相比于 GLM-4.5-Air 稍微好一点吧,但是好的有限也是。
好啦,今天的分享就先到这儿啦~
从我个人的体验来看,开源的gpt-oss-120b 还是有些惊喜吧但不对,推理能力还行,但是代码能力真的很烂,尤其是跟同参数级别的GLM-4.5-Air 对比了一下。指令遵循能力基本也就属于能完成简单的 case,但是难一点的就不行了。
所以,至少我个人是没感觉出来可以达到 o4-mini 这个级别的模型应有的能力的。
OpenAI 真的,GPT-5 快点来吧。预热了这么久的开源模型这么拉跨,越来越期待 GPT-5 是什么水平了
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-06
Agent应用爆发,谁成为向上托举的力量?
2025-08-06
在笔记本上,部署 gpt-oss-120b 模型
2025-08-06
WeKnora:基于大模型的新一代文档理解与检索框架
2025-08-06
OpenAI 为什么要开源大模型 gpt-oss?
2025-08-06
Coze Studio 快速上手指南
2025-08-06
本地部署了一个 gpt-oss:20b,实测同级别感觉还不如deepseek-R1:14b
2025-08-06
企业级 AI 编程神器上线!MonkeyCode:私有部署、安全编程,研发团队加速利器
2025-08-06
OpenAI开源模型一手简单实测
2025-07-23
2025-06-17
2025-06-17
2025-07-23
2025-07-14
2025-07-27
2025-07-12
2025-07-29
2025-07-29
2025-05-29