重磅！OpenAI时隔五年再发布开源模型gpt-oss：开源SOTA，可在16g笔记本运行

发布日期：2025-08-06 07:50:28 浏览次数： 2033

作者：AI寒武纪

微信搜一搜，关注“AI寒武纪”

就在谷歌宣布推出第三代世界模型大杀器Genie 3后，OpenAI 紧随其后宣布发布开源推理模型gpt-oss，两个型号,这两个模型均采用混合专家 (MoE) 架构，并使用 4 位量化方案 (MXFP4)，从而能够快速推理，原生支持高达 128k 的上下文长度：

gpt-oss-120b,可在单个 H100 GPU 上运行

gpt-oss-20b，16G内存笔记本上可运行

OpenAI 宣称是开源SOTA，拥有堪比 o4-mini 的强大实际性能，耗费数十亿美元研究，Apache 2.0许可

这次发布是 OpenAI 自五年前发布GPT-2以来，首次推出新的开源模型

体验地址：

https://gpt-oss.com/

模型表现如何？

OpenAI 明确目标是让此次推出的开放模型成为同类模型的领先者，公司声称已实现这一目标

在编程竞赛平台 Codeforces（工具辅助）上：gpt-oss-120b 得分 2622 分，gpt-oss-20b 得分 2516 分，两款模型表现优于 DeepSeek 的 R1 模型，但低于 o3 和 o4-mini

在人类最后的考试中——Humanity’s Last Exam中：gpt-oss-120b 得分 19%，gpt-oss-20b 得分 17.3%，成绩同样不及 o3 模型，但超过了 DeepSeek 和通义千问等现有顶尖开源模型

值得注意的是，这两款开放模型的幻觉（生成虚假信息）问题明显高于最新的闭源模型 o3 和 o4-mini。OpenAI 表示，这与小型模型知识储备不足、容易产生更多幻觉的预期结果一致

在 OpenAI 内部用于测试人物相关知识准确性的 PersonQA 基准中：gpt-oss-120b 幻觉率高达 49%，gpt-oss-20b 幻觉率为 53%，相比之下，早期的 o1 模型仅为 16%，最新的小型闭源模型 o4-mini 为 36%

gpt-oss-120b (激活参数51亿)在主要任务上的表现与 Qwen 3（Thinking / Coder）相当，但使用的活动参数少约 5 倍，精度也更低！看起来还是很强的

详细评估数据：

模型训练

gpt-oss-120b训练数据估算，OpenAI和DeepSeek对比

DeepSeek-R1: 2.66 million H800 hours（14.8万亿tokens，671B）

GPT-OSS-120B: 2.1 million H100 hours（未知，120B）

我们做一个“算力→FLOPs→token 数”的反推，来估一下GPT-OSS-120B 训练时总共喂了多少 token

如果每块 H100 的有效算力是 300 TFLOPS，那么 210 万 GPU·小时 ≈ 2.268×10^24 次浮点运算（FLOPs）活跃参数为 51 亿，再加上注意力的开销，按等效 60 亿参数来算。这样总计约有 6.3×10^13 个 token，也就是 63 万亿个 token，不过把 300 TFLOPS 当作实测值可能太乐观了，因为一个 200 亿参数的模型每步只有 36 亿活跃参数，计算量要少大约 10 倍，也就是6.3万亿

此外，这两款模型均采用了高计算资源的强化学习（RL）进行训练，使模型能在模拟环境中习得正确推理。这一过程也用于训练 OpenAI 的 o 系列模型，赋予了新模型类似的链式思考（chain-of-thought）能力

经过这种训练后，OpenAI 强调，这些开放模型特别适合用于 AI 智能体，可调用网络搜索、Python 代码执行等工具辅助推理。但目前它们仅支持文本，无法处理图像或音频