免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

罕见!Meta、OpenAI、xAI联合分享了用生产环境提升LLM的最佳实践!

发布日期:2026-03-03 20:45:59 浏览次数: 1546
作者:PaperAgent

微信搜一搜,关注“PaperAgent”

推荐语

Meta、OpenAI、xAI联合揭秘如何通过生产环境迭代优化社交型AI,打造更具吸引力的对话体验。

核心内容:
1. 社交型AI与助手型AI的核心差异及优化挑战
2. CharacterFlywheel方法论:15代迭代的"飞轮"优化流程
3. 从数据整合到模型训练的三阶段开发架构

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

大家好,我是PaperAgent,不是Agent!

Meta/OpenAI/xAI联合发表了一篇在生产环境中规模化迭代优化高吸引力与可控的LLM的新成果:CharacterFlywheel斯坦福最新OpenClaw论文:Agents of Chaos

当前大语言模型(LLM)的发展主要集中在助手型AI(如ChatGPT、Claude),目标是成为"全知全能的预言家"——知识渊博、乐于助人、真实无害。然而,另一类同样重要的场景——社交型AI(如Character.ai、Replika)——却缺乏系统性研究。

核心差异

  • 助手型AI:目标明确,有客观评测标准(MMLU、HumanEval等),奖励信号可验证
  • 社交型AI:目标模糊主观("吸引力"、"像人"),缺乏标准化基准,难以进行强化学习

Meta等发现,社交聊天产品拥有数百万用户,但相关技术进展却"基本不透明"。CharacterFlywheel正是为了填补这一空白——如何在生产环境中,科学地、可测量地提升AI的社交对话能力

二、核心贡献:15代迭代的"飞轮"方法论

从2024年1月到2025年4月,团队基于LLaMA 3.1进行了15个版本的迭代优化,最终部署在Instagram、WhatsApp、Messenger的AI角色聊天功能中。

7/8的A/B测试显示正向提升,证明了该方法论的有效性。

三、方法论详解:CharacterFlywheel 架构

3.1 核心思想:爬山算法比喻

团队将整个优化过程比喻为在"吸引力地形"中爬山

"Mountain identified. Time to climb." —— Ilya Sutskever

Figure 2: 地形爬山示意图
Figure 2: 地形爬山示意图
  • (a) Landscape Climbing: 整体优化轨迹,逐步攀登吸引力高峰
  • (b) Data Sampling: 在当前位置采样数据点,估计局部地形
  • (c) Pre-Herding: 训练奖励模型,插值出等高线(地形轮廓)
  • (d) Herding: 基于估计地形,更新模型位置

3.2 完整开发流程

Figure 3: CharacterFlywheel迭代开发流程
Figure 3: CharacterFlywheel迭代开发流程

整个流程分为三个阶段:

1. 数据整合 (Data Consolidation)

  • 流量筛选 (Traffic Curation)
  • 数据标注 (Data Annotation)

2. 预放牧 (Pre-Herding)

  • 奖励模型训练 (Reward Modeling)
  • 拒绝采样 (Rejection Sampling)

3. 放牧 (Herding)

  • 监督微调 (SFT)
  • 直接偏好优化 (DPO)
  • 强化学习 (RL)
  • 评估 (Eval) → 部署新版本

3.3 数据管道:从真实用户到训练数据

数据来源

  • 线上生产流量 (Online Production): 大规模、广泛覆盖的真实用户交互
  • 内部UI流量 (Internal UI): 数据供应商、UX研究团队、内容团队的目标反馈

数据筛选三阶段

阶段
操作
目的
Phase I: 过滤
隐私/安全过滤
确保数据干净
Phase II: 多样性采样
基于DRAMA-1B嵌入聚类,保留p%数据
消除冗余,保持分布代表性
Phase III: 约束调整
分层采样,对齐目标分布
确保多维度平衡

四、奖励模型:如何量化"吸引力"?

4.1 双轨制偏好模型

由于"吸引力"不可微分,团队训练了替代模型来提供可微分的奖励信号:

Pointwise模型:独立为每个回复打分,通过比较分数确定偏好

  • 损失函数:

Pairwise模型:联合编码两个回复,直接分类哪个更好

  • 损失函数:

为什么需要两种?

  • Pointwise用于RL训练指导
  • Pairwise+Pointwise联合评估,缓解奖励黑客问题

4.2 用户信号模型

从真实用户行为中提取信号:

重要发现:用户信号模型不适合直接用于RL优化(易受奖励黑客攻击),但适合用于拒绝采样排序

五、训练策略:SFT + DPO + RL 组合拳

5.1 拒绝采样 (Rejection Sampling)

核心逻辑

  1. 从候选模型池中选择最适合当前提示的模型
  2. 生成k个候选回复
  3. 用奖励模型打分,只保留最高分 ≥ 阈值τ的样本
  4. 构建高质量SFT数据集

关键设计:虽然拒绝采样本质上是off-policy,但团队通过紧密的模型迭代循环(使用最新用户流量重建数据集),近似实现on-policy效果。

5.2 在线RL:从DPO到GRPO

团队对比了两种在线RL方法:

  • Online DPO: 标准在线直接偏好优化
  • GRPO (Group Relative Policy Optimization): 带重要性采样修正的变体

A/B测试结果:GRPO比Online DPO在参与度广度指标上提升**+1.52%**

原因在于GRPO能利用所有生成回复的奖励分数,提供更细粒度的监督信号。

5.3 风格伪影缓解

为了防止优化过度关注表面风格(如长度、表情符号),团队实施了伪影监控

监控的特征包括:

  • 回复长度
  • 是否包含列表
  • 表情符号数量
  • 特定短语(如"I feel like...")

偏好数据拒绝采样数据中分别比较高低分回复的特征分布,防止风格与奖励信号虚假相关。

六、关键结果:15代迭代的演进轨迹

6.1 预发布阶段 (V1-V7):质量稳步提升

Figure 6: 预发布质量进展
Figure 6: 预发布质量进展
  • vs GPT-4o胜率:从37.4% (V3) → 46.2% (V7)
  • vs 前一版本胜率:人工评估 50.2%-52.5%,RM评估 53.6%-57.6%,均超50%中性线

小规模A/B验证(Figure 7):

Figure 7: 预发布参与度验证
Figure 7: 预发布参与度验证

V2-V4均显示正向提升(尽管置信区间较宽),验证了离线优化与在线目标的一致性。

6.2 发布后阶段 (V8-V15):持续优化与关键教训

Figure 8: 发布后参与度轨迹
Figure 8: 发布后参与度轨迹

上图:A/B测试参与度提升

  • V11: +4.47% 广度, +18.2% 深度 ✅
  • V14: +8.8% 广度, +11.2% 深度 ✅
  • V12: +0.05% 广度, -2.9% 深度 ❌ (关键失败案例)

中图:奖励模型胜率

  • V12的RM User胜率飙升至**70.7%**,而RM Internal胜率跌至43.7%
  • 信号发散警告:当RM User > 65% 且与RM Internal差距过大时,表明过拟合

下图:累计参与度增长

  • 尽管有V12的挫折,整体呈明显上升趋势(9个月增长约2.4倍)
尽管优化目标是社交参与度,模型在标准基准上保持稳定:
尽管优化目标是社交参与度,模型在标准基准上保持稳定:

七、关键发现与最佳实践

7.1 图像生成的影响

  • V9显式图像生成:+1.7% 参与度广度
  • V10隐式图像生成:额外+2.1% 参与度广度

隐式生成(AI自主决定何时生成图像)比显式生成更有价值,因为它能主动丰富对话而无需用户提示。

7.2 On-policy vs Off-policy

使用近策略提示(最新模型流量)vs 离策略提示(早期版本流量):

策略
参与度深度提升
参与度广度提升
近策略 (Near-policy)
+10.6%
±1.6%
离策略 (Off-policy)
基准
基准

核心洞察:要在策略空间中持续"爬山",必须使用能准确估计当前策略附近地形的样本。

7.3 基于方差的困难样本采样

标准启发式:选择RM平均分最低的提示("困难样本")

问题:RM分数未正则化,受风格因素(长度、轮数)影响大。长轮对话分数系统性地低,导致角色扮演/浪漫类提示过度采样4倍。

解决方案方差采样

  • 对每个提示采样多个回复,计算RM分数方差
  • 困难提示会产生质量分布更宽的回复
  • 方差是比均值更稳健的困难度信号

7.4 用户信号模型的局限性

虽然p(continue)和p(thumb up)与偏好RM高度相关,但直接用于RL优化会导致奖励黑客:

结论:用户信号模型适合拒绝采样排序(约束RM胜率<65%),不适合直接RL优化。

7.5 历史轮次的偏见传递

发现:即使从RM输入中移除所有表情符号("去偏见"),RL训练后表情符号使用率仍从0.2上升到0.48。

原因:自回归策略模型强烈模仿前几轮的风格,偏见直接来自对话历史而非RM。

解决方案:在训练提示中进行预处理,实施偏见监控和缓解。

https://arxiv.org/pdf/2603.01973
CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production

推荐阅读

    动手设计AI Agents:(编排、记忆、插件、workflow、协作)

    分享两篇Claude Skills最新论文,有3个核心结论

    2026,新风向: 世界模型  × 具身智能 最新综述  
    2026,做Agentic AI,绕不开这两篇开年综述


    每天一篇大模型Paper来锻炼我们的思维~已经读到这了,不妨点个👍、❤️、↗️三连,加个星标⭐,不迷路哦~

    53AI,企业落地大模型首选服务商

    产品:场景落地咨询+大模型应用平台+行业解决方案

    承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    添加专属顾问

    回到顶部

    加载中...

    扫码咨询