微信扫码
添加专属顾问
我要投稿
OpenAI开源安全分类神器gpt-oss-safeguard,小模型竟超越GPT-5表现,开发者可自由定制安全策略!核心内容: 1. 开源模型gpt-oss-safeguard的创新机制:直接理解策略文档进行动态分类 2. 性能对比:在多项测试中超越GPT-5等更大模型,展现超高性价比 3. 应用场景:OpenAI内部安全架构揭秘及开发者生态的无限可能
OpenAI 刚刚开源了两个专门用于安全分类的推理模型。
这次发布的 gpt-oss-safeguard 包含两个版本:120b 和 20b 参数量,都是基于 gpt-oss 开源模型微调而来。
且采用的是 Apache 2.0 许可证,即任何人都可以自由使用、修改和部署!
传统的安全分类器是怎么工作的呢?
先收集成千上万个安全和不安全内容的例子,然后训练模型从中学习区分规律。
要知道,这种方法有个致命缺陷:分类器从来没有真正「看到」过安全策略本身,它只是在猜测标注背后的逻辑。
而 gpt-oss-safeguard 完全不同:
它能直接理解开发者提供的策略文档,然后根据这个策略来分类内容。就像给了 AI 一本规则手册,它能实时查阅并作出判断。
更为便利的是,开发者可以随时修改策略,不需要重新训练模型。
游戏论坛想要识别作弊讨论?
产品评论网站要筛查虚假评论?
写个策略文档,就行了!
OpenAI 在内部评估中做了个有趣的实验:同时给模型多个策略,看它能否准确分类。
这只有在所有策略上都判断正确才算成功。
结果让人有些意外:
gpt-oss-safeguard 的表现超过了 GPT-5-thinking 和基础的 gpt-oss 模型。
要知道,gpt-oss-safeguard 的参数量可比 GPT-5 小多了,这样的「以小博大」的胜利尤其令人印象深刻。
在 2022 年的内容审核评估集上,gpt-oss-safeguard 略微领先所有测试模型,包括 OpenAI 内部的 Safety Reasoner 和 GPT-5-thinking。
在 ToxicChat 数据集上,虽然 GPT-5-thinking 和 Safety Reasoner 略占上风,但考虑到 gpt-oss-safeguard 的模型规模,它的性价比明显更高。
其实,这套方法 OpenAI 自己已经用了很久。
他们内部有个叫 Safety Reasoner 的工具,正是 gpt-oss-safeguard 的原型。
OpenAI 透露,在最近的一些产品发布中,用于安全推理的算力占比高达 16%!
在图像生成和 Sora 2 中,Safety Reasoner 会动态评估输出,实时拦截不安全的生成内容。
在生物学和自残等敏感领域,他们先用快速的小模型进行初筛,再用 Safety Reasoner 进行详细审查。
这种「先快速过滤,再精准判断」的分层架构,已经成为 OpenAI 安全系统的核心组件,覆盖了 GPT-5 和 ChatGPT Agent 等所有系统。
Hugging Face 的 Vaibhav (VB) Srivastav (@reach_vb) 看到后,第一时间兴奋地分享:
Wohoooo! 恭喜发布 🔥 Love the weights on the hub 🤗
模型已经上传到 Hugging Face,开发者可以立即下载使用。
OpenAI 还贴心地准备了详细的开发文档,教你如何编写策略提示词、选择合适的策略长度,以及如何将推理输出集成到生产环境的信任与安全系统中。
但 Mark 마크 (@Makuh90) 力挺 OpenAI:
我欣赏这种精神。坚持到底,绝不放弃。安全至上,必须面对。
OpenAI 这次选择与 ROOST 合作,共同打磨这个开源版本。
还共同确定了开发者的关键需求,测试了模型,并编写了开发者文档。并放出了 cookbook 解释了如何编写策略提示以最大限度地发挥 gpt-oss-safeguard 的推理能力,选择合适的策略长度进行深度分析,并将 oss-safeguard 的推理输出集成到生产信任与安全系统中。
ROOST 的 CTO Vinay Rao 评价说:
gpt-oss-safeguard 是第一个采用『自带策略和危害定义』设计的开源推理模型。在我们的测试中,它在理解不同策略、解释推理过程和应用策略的细微差别方面都表现出色。
ROOST 还建立了一个模型社区,专门探索如何用开源 AI 模型保护网络空间。
这个社区将汇集安全从业者和研究人员,分享实施开源 AI 模型到安全工作流程的最佳实践。
当然,gpt-oss-safeguard 也有局限性。
对于特别复杂的风险,基于数万个高质量标注样本训练的专用分类器可能表现更好。而且推理模型需要更多计算资源和时间,这让它难以扩展到所有平台内容。
但这些,都不妨碍它成为开发者工具箱中的利器。
当你需要快速适应新出现的风险、处理高度细分的领域、或者没有足够样本训练专用分类器时,gpt-oss-safeguard 就是你的最佳选择。
模型介绍: https://openai.com/index/introducing-gpt-oss-safeguard/
[2]cookbook: https://cookbook.openai.com/articles/gpt-oss-safeguard-guide
👇
👇
👇
另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。
这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)欢迎加入!
也欢迎加群和10000+群友交流。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-29
AI本地知识库+智能体系列:手把手教你本地部署 n8n,一键实现自动采集+智能处理!
2025-10-29
n8n如何调用最近爆火的deepseek OCR?
2025-10-29
OpenAI终于快要上市了,也直面了这23个灵魂拷问。
2025-10-29
保姆级教程:我用Coze干掉了最烦的周报
2025-10-29
维基百科,终结了!马斯克开源版上线,用AI重写「真相」
2025-10-28
腾讯开源Nano Banana,我总结了15种邪修玩法(附提示语)
2025-10-28
牛逼,DeepSeek-OCR 最新免费,引爆文档处理效率的黑科技模型
2025-10-28
小红书入局AI智能体开源DeepAgent,在计划什么更新?
2025-08-20
2025-09-07
2025-08-05
2025-08-20
2025-08-26
2025-08-22
2025-09-06
2025-08-06
2025-10-20
2025-08-22
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17
2025-09-09
2025-09-08
2025-09-07