支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


再见了,OpenAI 的开源梦。

发布日期:2025-08-06 07:49:07 浏览次数: 1533
作者:BubbleBrain

微信搜一搜,关注“BubbleBrain”

推荐语

OpenAI终于兑现承诺开源两大模型,性能直逼商业版本,部署门槛大幅降低!

核心内容:
1. GPT-OSS-120B和20B模型架构与性能亮点
2. 官方评测显示其能力超越部分商业版本
3. 实际部署测试与同类模型对比表现

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

昨晚,OpenAI 本周第一个重要的发布开始了。

它们开源了两个模型,gpt-oss-120b 和 gpt-oss-20b,也就是 Sam Altman 之前曾经承诺过的 OpenAI 会在夏天开源的模型。

大家都知道,虽然名字叫 OpenAI,但是从 GPT-2 之后,OpenAI 的语言模型基本就和开源没什么关系了,能放给你看的东西,都是它想让你看到的东西,它不想让你看到的东西,自然藏着掖着,你也看不到。

所以,这两个开源模型,无论是对 OpenAI 还是整个开源社区,都可以算得上是历史性的时刻。

模型信息全公开

两个模型的信息总结都在下面这张表了:

图源 OpenAI 官方介绍博客
  • • 两个模型都是 Transformer + MoE 架构。120B 的模型专家总数达到 128 个,20B 的模型专家总数达到 32 个。
  • • 120B的模型,每个 Token 激活 5.1B 的参数,而 20B 的模型每个Token 激活 3.6B 的参数。
  • • 上下文长度达到了 128K
  • • 都采用了 RoPE进行位置编码,以及GQA来提升推理和内存效率

根据 OpenAI 官方自己的评测,gpt-oss-120b 的能力可以达到甚至超越o4-mini 的水平 。它在健康相关的 Benchmark(HealthBench)以及竞赛数学(AIME 2024 & 2025)方面优于 o4-mini,而gpt-oss-20b是可以达到甚至超越 o3-mini 的水平

以下是部分实际跑分对比:

Codeforces代码竞赛
大名鼎鼎的 HLE
一些竞赛类 Benchmark

那从官方放出的跑分成绩来看确实非常牛逼,特别是这两个模型的尺寸对部署极其友好。因为 OpenAI 已经将这两个模型进行了原生量化,所以gpt-oss-120b可以在 80GB 的内存中运行,而gpt-oss-20b只需要 16GB 的内存就可以运行。

我自己本地实测了一下,gpt-oss-120b在 M4 Max 128GB 内存上跑起来基本没什么压力,除了遇到那种需要长时间推理的问题,风扇会转起来(但电脑不会卡顿),其它都没啥问题

案例分享

为了弄清这个gpt-oss-120b的效果到底如何,我找了个差不多尺寸的 GLM-4.5-Air 来做对比。

先说明gpt-oss-120b通过本地部署进行测试,而 GLM-4.5-Air 是通过 Z.ai 官网进行测试对比。

推理

先来看看两个模型推理方面的表现

任务 1:strawberrrrry 有几个 r?

gpt-oss-120b 的回答:

gpt-oss-120b

再是 GLM-4.5-Air :

GLM-4.5-Air

gpt-oss-120b 回答正确,而GLM-4.5-Air 回答错误,少数了个 r。

任务 2: 李明有6个兄弟和4个姐妹,他自己有 1 个儿子,他的其中一个兄弟有 2 个女儿。那么他的姐妹有多少个兄弟

gpt-oss-120b 的回答:

gpt-oss-120b

GLM-4.5-Air的回答:

GLM-4.5-Air

两个都回答正确。

任务 3: What is the third word in your response ?

gpt-oss-120b 的回答:

gpt-oss-120b

GLM-4.5-Air的回答:

GLM-4.5-Air

这个 120B 的开源模型,推理这块还真的是有点东西的,回答正确了。而相反,GLM-4.5-Air回答错误。

代码

再来看看两个模型代码方面的部分表现:

任务 1: 使用 p5.js(无需 HTML)创建 10 个彩色球在旋转六边形内弹跳的效果,考虑重力,弹性,摩擦和碰撞。

gpt-oss-120b生成的表现:

gpt-oss-120b

GLM-4.5-Air生成的表现:

GLM-4.5-Air

老实说,看到这个case结果,我沉默了。OpenAI 家的模型已经拉垮到这样了么

下面这个任务还是小球测试,但是换个写法。

  任务 2:Write a Python program using Pygame (or a suitable library) to simulate multiple balls under gravity bouncing inside one or more independently rotating squares. Each square contains a dense maze of static and rotating obstacles. Balls must respond with realistic physics to collisions with walls, obstacles, and other balls, all in a rotation-aware reference frame.

下面这个是GLM-4.5-Air的表现。为什么没有gpt-oss-120b的呢,因为它没一次成功,报错了。。

GLM-4.5

虽然 GLM-4.5-Air 在这个 case 的表现也不是特别好,但是人家好歹没报错啊,至少写的程序是可以正常运行的。

任务 3: Simulate a galaxy using thousands of small particles orbiting a center point. Add simple mouse controls to rotate the view. Use gradient colors, spiral motion, and star-like glows for that wow factor. In one html file

gpt-oss-120b的生成表现:

gpt-oss-120b
GLM-4.5-Air的表现:

这明显GLM-4.5-Air更好,更符合我 Prompt 要求的内容。

任务 4: 创建一个旋转的六边形,其中包含一个完全功能的贪吃蛇游戏,贪吃蛇会与六边形边界互动,食物不能落在六边形外面

gpt-oss-120b的生成表现:

gpt-oss-120b

GLM-4.5-Air的表现:

GLM-4.5-Air

emm... 就是说两个都玩不了,而且问题还都不小。

  任务 5:Design and create a very creative, elaborate, and detailed voxel art scene of a pagoda in a beautiful garden with trees, including some cherry blossoms. Make the scene impressive and varied and use colorful voxels. Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.

下面这个是 GLM-4.5-Air 的表现,gpt-oss-120b 又报错了,就不贴了。


可以看到整个画面除了旋转和拖拽有点问题,其他都还可以。细节程度上当然还有些不足,但是肯定是比 gpt-oss-120b强的。

指令遵循

最后来看看两个模型在指令遵循方面的表现吧

任务 1: 请将 “I love gpt-oss-120b” 进行倒序排列

gpt-oss-120b 的表现:

gpt-oss-120b

GLM-4.5-Air 的表现

GLM-4.5-Air

这里两个模型都回答正确了。

任务 2: Create a 3-paragraph text of exactly 300 words, without the letter "O" or "o", explaining how airplanes works .

gpt-oss-120b 的表现:

gpt-oss-120b

GLM-4.5-Air 的表现

GLM-4.5-Air

大概是这个 case 真的比较难,两个模型都没回答正确。

任务 3: 用英文写一个包含5个句子的段落来描述10年后的生活,但不能使用字母'e'

gpt-oss-120b 的表现:

gpt-oss-120b

GLM-4.5-Air 的表现:

GLM-4.5-Air

两个模型也都失败了。不过 gpt-oss-120b 相比于 GLM-4.5-Air 稍微好一点吧,但是好的有限也是。

写在最后

好啦,今天的分享就先到这儿啦~

从我个人的体验来看,开源的gpt-oss-120b 还是有些惊喜吧但不对,推理能力还行,但是代码能力真的很烂,尤其是跟同参数级别的GLM-4.5-Air 对比了一下。指令遵循能力基本也就属于能完成简单的 case,但是难一点的就不行了。

所以,至少我个人是没感觉出来可以达到 o4-mini 这个级别的模型应有的能力的。

OpenAI 真的,GPT-5 快点来吧。预热了这么久的开源模型这么拉跨,越来越期待 GPT-5 是什么水平了

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询