我要投稿

刚刚，OpenAI 再次开源！安全分类模型 gpt-oss-safeguard 准确率超越 GPT-5

发布日期：2025-10-29 23:02:39 浏览次数： 2551

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

OpenAI 刚刚开源了两个专门用于安全分类的推理模型。

这次发布的 gpt-oss-safeguard 包含两个版本：120b 和 20b 参数量，都是基于 gpt-oss 开源模型微调而来。

且采用的是 Apache 2.0 许可证，即任何人都可以自由使用、修改和部署！

告别传统分类器的束缚

传统的安全分类器是怎么工作的呢？

先收集成千上万个安全和不安全内容的例子，然后训练模型从中学习区分规律。

要知道，这种方法有个致命缺陷：分类器从来没有真正「看到」过安全策略本身，它只是在猜测标注背后的逻辑。

而 gpt-oss-safeguard 完全不同：

它能直接理解开发者提供的策略文档，然后根据这个策略来分类内容。就像给了 AI 一本规则手册，它能实时查阅并作出判断。

更为便利的是，开发者可以随时修改策略，不需要重新训练模型。

游戏论坛想要识别作弊讨论？

产品评论网站要筛查虚假评论？

写个策略文档，就行了！

推理能力超越 GPT-5

OpenAI 在内部评估中做了个有趣的实验：同时给模型多个策略，看它能否准确分类。

这只有在所有策略上都判断正确才算成功。

结果让人有些意外：

gpt-oss-safeguard 的表现超过了 GPT-5-thinking 和基础的 gpt-oss 模型。

要知道，gpt-oss-safeguard 的参数量可比 GPT-5 小多了，这样的「以小博大」的胜利尤其令人印象深刻。

在 2022 年的内容审核评估集上，gpt-oss-safeguard 略微领先所有测试模型，包括 OpenAI 内部的 Safety Reasoner 和 GPT-5-thinking。

在 ToxicChat 数据集上，虽然 GPT-5-thinking 和 Safety Reasoner 略占上风，但考虑到 gpt-oss-safeguard 的模型规模，它的性价比明显更高。

内部秘密武器

其实，这套方法 OpenAI 自己已经用了很久。

他们内部有个叫 Safety Reasoner 的工具，正是 gpt-oss-safeguard 的原型。

OpenAI 透露，在最近的一些产品发布中，用于安全推理的算力占比高达 16%！

在图像生成和 Sora 2 中，Safety Reasoner 会动态评估输出，实时拦截不安全的生成内容。

在生物学和自残等敏感领域，他们先用快速的小模型进行初筛，再用 Safety Reasoner 进行详细审查。

这种「先快速过滤，再精准判断」的分层架构，已经成为 OpenAI 安全系统的核心组件，覆盖了 GPT-5 和 ChatGPT Agent 等所有系统。

开发者的新玩具

Hugging Face 的 Vaibhav (VB) Srivastav (@reach_vb) 看到后，第一时间兴奋地分享：

Wohoooo! 恭喜发布 🔥 Love the weights on the hub 🤗

模型已经上传到 Hugging Face，开发者可以立即下载使用。

OpenAI 还贴心地准备了详细的开发文档，教你如何编写策略提示词、选择合适的策略长度，以及如何将推理输出集成到生产环境的信任与安全系统中。

但 Mark 마크 (@Makuh90) 力挺 OpenAI：

我欣赏这种精神。坚持到底，绝不放弃。安全至上，必须面对。

与社区共建

OpenAI 这次选择与 ROOST 合作，共同打磨这个开源版本。

OpenAI Cookbook | User guide for gpt-oss-safeguard

还共同确定了开发者的关键需求，测试了模型，并编写了开发者文档。并放出了 cookbook 解释了如何编写策略提示以最大限度地发挥 gpt-oss-safeguard 的推理能力，选择合适的策略长度进行深度分析，并将 oss-safeguard 的推理输出集成到生产信任与安全系统中。

ROOST 的 CTO Vinay Rao 评价说：

gpt-oss-safeguard 是第一个采用『自带策略和危害定义』设计的开源推理模型。在我们的测试中，它在理解不同策略、解释推理过程和应用策略的细微差别方面都表现出色。

ROOST 还建立了一个模型社区，专门探索如何用开源 AI 模型保护网络空间。

这个社区将汇集安全从业者和研究人员，分享实施开源 AI 模型到安全工作流程的最佳实践。

当然，gpt-oss-safeguard 也有局限性。

对于特别复杂的风险，基于数万个高质量标注样本训练的专用分类器可能表现更好。而且推理模型需要更多计算资源和时间，这让它难以扩展到所有平台内容。

但这些,都不妨碍它成为开发者工具箱中的利器。

当你需要快速适应新出现的风险、处理高度细分的领域、或者没有足够样本训练专用分类器时，gpt-oss-safeguard 就是你的最佳选择。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-12

当 AI Coding Agent 成为基础设施：我们为什么要开源 LoongSuite Pilot

2026-06-09

CPU 跑得比 Whisper GPU还快的开源语音识别，本地部署

2026-06-09

别再问我什么是爱马仕！

2026-06-09

Open Design：开源界的 Claude Design 替代品，61.7K Star，21+ Agent 都能跑，本地第一

2026-06-08

我开源了 PPT-Library：让历史 PPT 变成 AI 可复用资产

2026-06-08

knowledge-work-plugins：Anthropic 官方开源的知识工作插件集，19,000+Star

2026-06-08

从搜索、点击、表单填写到复杂网页操作，让 AI 像人一样使用浏览器

2026-06-08

比Codex快4倍！终于有开源模型卷本地Agent执行效率了～

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

2026-03-30

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

ollama v0.18.2 发布！OpenClaw 安装优化、Claude 加速、MLX 量化全面升级

2026-03-20

大家都在问

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw