免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


刚刚,OpenAI 再次开源!安全分类模型 gpt-oss-safeguard 准确率超越 GPT-5

发布日期:2025-10-29 23:02:39 浏览次数: 1587
作者:AGI Hunt

微信搜一搜,关注“AGI Hunt”

推荐语

OpenAI开源安全分类神器gpt-oss-safeguard,小模型竟超越GPT-5表现,开发者可自由定制安全策略!

核心内容:
1. 开源模型gpt-oss-safeguard的创新机制:直接理解策略文档进行动态分类
2. 性能对比:在多项测试中超越GPT-5等更大模型,展现超高性价比
3. 应用场景:OpenAI内部安全架构揭秘及开发者生态的无限可能

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

OpenAI 刚刚开源了两个专门用于安全分类的推理模型。

这次发布的 gpt-oss-safeguard 包含两个版本:120b 和 20b 参数量,都是基于 gpt-oss 开源模型微调而来。

采用的是 Apache 2.0 许可证,即任何人都可以自由使用、修改和部署!

告别传统分类器的束缚

传统的安全分类器是怎么工作的呢?

先收集成千上万个安全和不安全内容的例子,然后训练模型从中学习区分规律。

要知道,这种方法有个致命缺陷:分类器从来没有真正「看到」过安全策略本身,它只是在猜测标注背后的逻辑。

而 gpt-oss-safeguard 完全不同:

它能直接理解开发者提供的策略文档,然后根据这个策略来分类内容。就像给了 AI 一本规则手册,它能实时查阅并作出判断。

更为便利的是,开发者可以随时修改策略,不需要重新训练模型。

游戏论坛想要识别作弊讨论?

产品评论网站要筛查虚假评论?

写个策略文档,就行了

推理能力超越 GPT-5

OpenAI 在内部评估中做了个有趣的实验:同时给模型多个策略,看它能否准确分类。

这只有在所有策略上都判断正确才算成功

结果让人有些意外:

gpt-oss-safeguard 的表现超过了 GPT-5-thinking 和基础的 gpt-oss 模型。

要知道,gpt-oss-safeguard 的参数量可比 GPT-5 小多了,这样的「以小博大」的胜利尤其令人印象深刻。

在 2022 年的内容审核评估集上,gpt-oss-safeguard 略微领先所有测试模型,包括 OpenAI 内部的 Safety Reasoner 和 GPT-5-thinking。

在 ToxicChat 数据集上,虽然 GPT-5-thinking 和 Safety Reasoner 略占上风,但考虑到 gpt-oss-safeguard 的模型规模,它的性价比明显更高。

内部秘密武器

其实,这套方法 OpenAI 自己已经用了很久。

他们内部有个叫 Safety Reasoner 的工具,正是 gpt-oss-safeguard 的原型。

OpenAI 透露,在最近的一些产品发布中,用于安全推理的算力占比高达 16%

在图像生成和 Sora 2 中,Safety Reasoner 会动态评估输出,实时拦截不安全的生成内容。

在生物学和自残等敏感领域,他们先用快速的小模型进行初筛,再用 Safety Reasoner 进行详细审查。

这种「先快速过滤,再精准判断」的分层架构,已经成为 OpenAI 安全系统的核心组件,覆盖了 GPT-5 和 ChatGPT Agent 等所有系统。

开发者的新玩具

Hugging Face 的 Vaibhav (VB) Srivastav (@reach_vb) 看到后,第一时间兴奋地分享:

Wohoooo! 恭喜发布 🔥 Love the weights on the hub 🤗

模型已经上传到 Hugging Face,开发者可以立即下载使用。

OpenAI 还贴心地准备了详细的开发文档,教你如何编写策略提示词、选择合适的策略长度,以及如何将推理输出集成到生产环境的信任与安全系统中。

但 Mark 마크 (@Makuh90) 力挺 OpenAI:

我欣赏这种精神。坚持到底,绝不放弃。安全至上,必须面对。

与社区共建

OpenAI 这次选择与 ROOST 合作,共同打磨这个开源版本。

OpenAI Cookbook | User guide for gpt-oss-safeguard

还共同确定了开发者的关键需求,测试了模型,并编写了开发者文档。并放出了 cookbook 解释了如何编写策略提示以最大限度地发挥 gpt-oss-safeguard 的推理能力,选择合适的策略长度进行深度分析,并将 oss-safeguard 的推理输出集成到生产信任与安全系统中。

ROOST 的 CTO Vinay Rao 评价说:

gpt-oss-safeguard 是第一个采用『自带策略和危害定义』设计的开源推理模型。在我们的测试中,它在理解不同策略、解释推理过程和应用策略的细微差别方面都表现出色。

ROOST 还建立了一个模型社区,专门探索如何用开源 AI 模型保护网络空间。

这个社区将汇集安全从业者和研究人员,分享实施开源 AI 模型到安全工作流程的最佳实践。

当然,gpt-oss-safeguard 也有局限性。

对于特别复杂的风险,基于数万个高质量标注样本训练的专用分类器可能表现更好。而且推理模型需要更多计算资源和时间,这让它难以扩展到所有平台内容。

但这些,都不妨碍它成为开发者工具箱中的利器。

当你需要快速适应新出现的风险、处理高度细分的领域、或者没有足够样本训练专用分类器时,gpt-oss-safeguard 就是你的最佳选择。




[1]

模型介绍: https://openai.com/index/introducing-gpt-oss-safeguard/

[2]

cookbook: https://cookbook.openai.com/articles/gpt-oss-safeguard-guide


👇

👇

👇

另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。

这是个只有信息没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)欢迎加入!

也欢迎加群和10000+群友交流。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询