微信扫码
添加专属顾问
我要投稿
OpenAI重磅开源GPT-OSS模型,性能直逼闭源SOTA,16G内存笔记本即可运行! 核心内容: 1. GPT-OSS两大模型架构解析:MoE设计+4位量化技术实现高效推理 2. 实测性能对比:编程/考试场景超越主流开源模型但存在显著幻觉问题 3. 历史性突破:OpenAI五年来首个开源项目,Apache 2.0许可全面开放
就在谷歌宣布推出第三代世界模型大杀器Genie 3后,OpenAI 紧随其后宣布发布开源推理模型gpt-oss,两个型号,这两个模型均采用混合专家 (MoE) 架构,并使用 4 位量化方案 (MXFP4),从而能够快速推理,原生支持高达 128k 的上下文长度:
gpt-oss-120b,可在单个 H100 GPU 上运行
gpt-oss-20b,16G内存笔记本上可运行
OpenAI 宣称是开源SOTA,拥有堪比 o4-mini 的强大实际性能,耗费数十亿美元研究,Apache 2.0许可
这次发布是 OpenAI 自五年前发布GPT-2以来,首次推出新的开源模型
体验地址:
OpenAI 明确目标是让此次推出的开放模型成为同类模型的领先者,公司声称已实现这一目标
在编程竞赛平台 Codeforces(工具辅助)上:gpt-oss-120b 得分 2622 分,gpt-oss-20b 得分 2516 分,两款模型表现优于 DeepSeek 的 R1 模型,但低于 o3 和 o4-mini
在人类最后的考试中——Humanity’s Last Exam中:gpt-oss-120b 得分 19%,gpt-oss-20b 得分 17.3%,成绩同样不及 o3 模型,但超过了 DeepSeek 和通义千问等现有顶尖开源模型
值得注意的是,这两款开放模型的幻觉(生成虚假信息)问题明显高于最新的闭源模型 o3 和 o4-mini。OpenAI 表示,这与小型模型知识储备不足、容易产生更多幻觉的预期结果一致
在 OpenAI 内部用于测试人物相关知识准确性的 PersonQA 基准中:gpt-oss-120b 幻觉率高达 49%,gpt-oss-20b 幻觉率为 53%,相比之下,早期的 o1 模型仅为 16%,最新的小型闭源模型 o4-mini 为 36%
详细评估数据:
gpt-oss-120b训练数据估算,OpenAI和DeepSeek对比
DeepSeek-R1: 2.66 million H800 hours(14.8万亿tokens,671B)
GPT-OSS-120B: 2.1 million H100 hours(未知,120B)
我们做一个“算力→FLOPs→token 数”的反推,来估一下GPT-OSS-120B 训练时总共喂了多少 token
如果每块 H100 的有效算力是 300 TFLOPS,那么 210 万 GPU·小时 ≈ 2.268×10^24 次浮点运算(FLOPs)活跃参数为 51 亿,再加上注意力的开销,按等效 60 亿参数来算。这样总计约有 6.3×10^13 个 token,也就是 63 万亿个 token,不过把 300 TFLOPS 当作实测值可能太乐观了,因为一个 200 亿参数的模型每步只有 36 亿活跃参数,计算量要少大约 10 倍,也就是6.3万亿
此外,这两款模型均采用了高计算资源的强化学习(RL)进行训练,使模型能在模拟环境中习得正确推理。这一过程也用于训练 OpenAI 的 o 系列模型,赋予了新模型类似的链式思考(chain-of-thought)能力
经过这种训练后,OpenAI 强调,这些开放模型特别适合用于 AI 智能体,可调用网络搜索、Python 代码执行等工具辅助推理。但目前它们仅支持文本,无法处理图像或音频
在palyground 问了个问题,问他是否可以在笔记本上运行,回答感觉挺智障的,答非所问,模型具体表现等后续测试吧
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-06
Agent应用爆发,谁成为向上托举的力量?
2025-08-06
在笔记本上,部署 gpt-oss-120b 模型
2025-08-06
WeKnora:基于大模型的新一代文档理解与检索框架
2025-08-06
OpenAI 为什么要开源大模型 gpt-oss?
2025-08-06
Coze Studio 快速上手指南
2025-08-06
本地部署了一个 gpt-oss:20b,实测同级别感觉还不如deepseek-R1:14b
2025-08-06
企业级 AI 编程神器上线!MonkeyCode:私有部署、安全编程,研发团队加速利器
2025-08-06
OpenAI开源模型一手简单实测
2025-07-23
2025-06-17
2025-06-17
2025-07-23
2025-07-14
2025-07-27
2025-07-12
2025-07-29
2025-07-29
2025-05-29