免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

KDD 2026 | 小红书内容审核:Hi-Guard 让内容治理“知其然,更知其所以然”

发布日期:2026-01-16 06:59:42 浏览次数: 1587
作者:小红书技术REDtech

微信搜一搜,关注“小红书技术REDtech”

推荐语

小红书创新提出Hi-Guard框架,让AI内容审核更透明可信,实现政策规则与模型决策的精准对齐。

核心内容:
1. 传统内容审核模型的三大瓶颈分析
2. Hi-Guard框架的层级推理与规则对齐设计
3. 该方法在复杂语义理解上的突破性表现

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


引言:内容安全是平台治理的生命线,旨在精准识别与处置色情和暴力等不健康和违规内容。传统审核模型通过“黑盒”分数直接给出识别结论,在处理复杂语义和隐晦内容时和规则对齐方面存在困难。推动治理模型从“标签驱动”向“政策规则驱动”演进,同时具有政策规则的可解释性,已成为构建可信可泛化安全系统的核心方向。为解决上述问题,小红书内容理解团队提出层级式治理框架 Hi-Guard,通过分层流水线与路径感知的强化学习,改进模型对复杂审核标准的内化能力。该方法为构建透明可信的内容审核系统提供了新思路,相关研究成果已被 KDD2026 录用。


论文标题:Towards Trustworthy Multimodal Moderation via Policy-Aligned Reasoning and Hierarchical Labeling

论文链接:https://arxiv.org/pdf/2508.03296

代码链接:https://github.com/lianqi1008/Hi-Guard

关键词:多模态内容安全,可信内容审核,强化学习

在海量用户生成内容 (UGC)的社交平台,模型审核系统通常由 “基础内容召回-风险标签识别-决策降量” 三个阶段组成。其中,“决策降量” 环节承担了主要的自动化判别处置职能。虽然多模态大模型(MLLMs)已广泛应用于决策层,但依然面临三大瓶颈:

  • 规则标准偏离:模型从带噪声的标注数据中拟合学习,而非背后的复杂审核规则,导致识别结果与动态更新的平台政策规则脱节。

  • 决策过程不透明:传统模型输出“黑盒”结果(相关分数),缺乏可核查的证据或逻辑解释,导致模型优化方向不透明,影响用户体验,同时算法结果与人工审核员之间存在证据壁垒。

  • 相似规则理解困难:对于规则相近的类别(如“未成年人过度成人化”与“未成年人着装不当”),模型极易产生混淆,引发过度处置或审核疏漏。

为解决上述问题,小红书内容理解团队提出了一种全新的规则对齐和高泛化治理框架——Hi-Guard


Hi-Guard 的核心思想是将审核决策转化为一种“基于规则对齐的层级推理任务”。


2.1 学习规则而非单纯拟合数据


Hi-Guard通过层级化提示(Hierarchical Prompting)实现了政策规则的逻辑对齐。模型在推理时不再是完全基于噪声标注下的数据统计和拟合,而是像人类审核员一样,依赖 Prompt 中的规则和大量数据学习经验。这种设计使得模型能够更好地泛化到未见过的新场景,并支持通过修改 Prompt 快速适应政策调整。


2.2 层级分类体系(Hierarchical Taxonomy)


我们将扁平的分类任务转化为“路径预测”:

结构:领域 (Domain) → 主题 (Topic) → 子类(Subtype) → 行为(Behavior)。通过逐级缩小搜索空间,模型能够更聚焦于细微特征,将分类准确率从“模糊判断”提升至“精确打击”。

2.3 软边界奖励强化学习(Soft-margin Reward & GRPO)


在优化阶段,我们采用了Group Relative Policy Optimization (GRPO) 算法,并设计了独特的路径感知软边界奖励:

  • 分级惩罚:不再是非黑即白的0或1。如果模型判错到“兄弟类别”(语义相近),我们给予较轻惩罚;如果跨领域判错,则给予重罚。

  • 深度加权:越是底层的细粒度判错,惩罚力度越大,强制模型在最困难的环节学会“深度思考”。


3.1 实验性能:泛化与准确的双重提升


在长尾及未见类别(Generalization Set)的零样本学习(Zero-shot)测试中:

准确率:相较于传统的监督微调(SFT)变体,Hi-Guard 的总体准确率提升了12.13%。

查准与查全:在风险内容识别上,Precision 提升14.02%,Recall 提升10.28%。

以上测试基于小红书内容审核2个风险域多个未参与训练的风险标签(训练和测试细节见论文附件A部分),查准和查全严格遵循元风险标签,非黑白两个类别。论文地址:

https://arxiv.org/pdf/2508.03296

以上测试基于小红书内容审核2个风险域多个未参与训练的风险标签(训练和测试细节见论文(https://arxiv.org/pdf/2508.03296)附件A部分),查准和查全严格遵循元风险标签,非黑白两个类别。


消融分析:实验证明,规则的结构化注入对模型性能提升最为显著,其次是层级标签的设计。


3.2 可解释性:让模型“讲人话”,拒绝张冠李戴


通过 Chain-of-Thought (CoT) 机制,Hi-Guard 会先输出一段结构化的推理过程 <think>,再给出结论 <answer>。

案例对比:面对一张儿童室内写真的图片,画面背景中出现了一个酒瓶。

  • SFT 模型(传统微调):看到酒瓶就产生了“幻觉”,直接判定为“未成年饮酒” (Underage Drinking),完全忽视了这是摆拍场景而非真实饮酒行为。

  • Hi-Guard:它展现了缜密的推理能力——首先识别出酒瓶的存在,但结合场景排除了饮酒风险;随后,它根据规则定义,敏锐地捕捉到了画面中儿童穿着背心短裤可能存在的风险点,精准判定为“未成年内衣裤暴露” (Underwear Exposure)。

这证明了Hi-Guard 不仅能识别风险,更能精准定义风险,避免了传统模型“看图编故事”的毛病。


Hi-Guard 成功验证了一条可规模化的内容审核路径:用强化学习驱动生成式推理,并利用政策规则对齐和层级约束引导模型行为。

未来,我们将探索更具动态性的“指令化审核大模型”,使业务团队仅通过修改Prompt 即可实时生效新的审核策略,进一步推动小红书内容治理向智能化、透明化演进。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询