微信扫码
添加专属顾问
我要投稿
Meta、OpenAI、xAI联合揭秘如何通过生产环境迭代优化社交型AI,打造更具吸引力的对话体验。 核心内容: 1. 社交型AI与助手型AI的核心差异及优化挑战 2. CharacterFlywheel方法论:15代迭代的"飞轮"优化流程 3. 从数据整合到模型训练的三阶段开发架构
大家好,我是PaperAgent,不是Agent!
Meta/OpenAI/xAI联合发表了一篇在生产环境中规模化迭代优化高吸引力与可控的LLM的新成果:CharacterFlywheel。斯坦福最新OpenClaw论文:Agents of Chaos
当前大语言模型(LLM)的发展主要集中在助手型AI(如ChatGPT、Claude),目标是成为"全知全能的预言家"——知识渊博、乐于助人、真实无害。然而,另一类同样重要的场景——社交型AI(如Character.ai、Replika)——却缺乏系统性研究。
核心差异:
Meta等发现,社交聊天产品拥有数百万用户,但相关技术进展却"基本不透明"。CharacterFlywheel正是为了填补这一空白——如何在生产环境中,科学地、可测量地提升AI的社交对话能力。
从2024年1月到2025年4月,团队基于LLaMA 3.1进行了15个版本的迭代优化,最终部署在Instagram、WhatsApp、Messenger的AI角色聊天功能中。
7/8的A/B测试显示正向提升,证明了该方法论的有效性。
团队将整个优化过程比喻为在"吸引力地形"中爬山:
"Mountain identified. Time to climb." —— Ilya Sutskever
整个流程分为三个阶段:
1. 数据整合 (Data Consolidation)
2. 预放牧 (Pre-Herding)
3. 放牧 (Herding)
数据来源:
数据筛选三阶段:
| Phase I: 过滤 | ||
| Phase II: 多样性采样 | ||
| Phase III: 约束调整 |
由于"吸引力"不可微分,团队训练了替代模型来提供可微分的奖励信号:
Pointwise模型:独立为每个回复打分,通过比较分数确定偏好
Pairwise模型:联合编码两个回复,直接分类哪个更好
为什么需要两种?
从真实用户行为中提取信号:
重要发现:用户信号模型不适合直接用于RL优化(易受奖励黑客攻击),但适合用于拒绝采样排序。
核心逻辑:
关键设计:虽然拒绝采样本质上是off-policy,但团队通过紧密的模型迭代循环(使用最新用户流量重建数据集),近似实现on-policy效果。
团队对比了两种在线RL方法:
A/B测试结果:GRPO比Online DPO在参与度广度指标上提升**+1.52%**
原因在于GRPO能利用所有生成回复的奖励分数,提供更细粒度的监督信号。
为了防止优化过度关注表面风格(如长度、表情符号),团队实施了伪影监控:
监控的特征包括:
在偏好数据和拒绝采样数据中分别比较高低分回复的特征分布,防止风格与奖励信号虚假相关。
小规模A/B验证(Figure 7):
V2-V4均显示正向提升(尽管置信区间较宽),验证了离线优化与在线目标的一致性。
上图:A/B测试参与度提升
中图:奖励模型胜率
下图:累计参与度增长
隐式生成(AI自主决定何时生成图像)比显式生成更有价值,因为它能主动丰富对话而无需用户提示。
使用近策略提示(最新模型流量)vs 离策略提示(早期版本流量):
| +10.6% | ||
核心洞察:要在策略空间中持续"爬山",必须使用能准确估计当前策略附近地形的样本。
标准启发式:选择RM平均分最低的提示("困难样本")
问题:RM分数未正则化,受风格因素(长度、轮数)影响大。长轮对话分数系统性地低,导致角色扮演/浪漫类提示过度采样4倍。
解决方案:方差采样
虽然p(continue)和p(thumb up)与偏好RM高度相关,但直接用于RL优化会导致奖励黑客:
结论:用户信号模型适合拒绝采样排序(约束RM胜率<65%),不适合直接RL优化。
发现:即使从RM输入中移除所有表情符号("去偏见"),RL训练后表情符号使用率仍从0.2上升到0.48。
原因:自回归策略模型强烈模仿前几轮的风格,偏见直接来自对话历史而非RM。
解决方案:在训练提示中进行预处理,实施偏见监控和缓解。
https://arxiv.org/pdf/2603.01973
CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production推荐阅读
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-13
工具调用准确率从60%飙到95%?我用这个‘解耦微调’把Qwen-7B救活了
2026-02-05
普林斯顿大学RLAnything:AI学会一边学习一边给自己打分
2026-02-04
Agent 越用越聪明?AgentScope Java 在线训练插件来了!
2026-01-30
Oxygen 9N-LLM生成式推荐训练框架
2026-01-29
自然·通讯:如何挖掘复杂系统中的三元交互
2026-01-29
微调已死?LoRA革新
2026-01-19
1GB 显存即可部署:腾讯 HY-MT1.5 的模型蒸馏与量化策略解析
2026-01-18
【GitHub高星】AI Research Skills:一键赋予AI“博士级”科研能力,74项硬核技能库开源!
2026-01-04
2025-12-04
2026-01-02
2026-01-01
2026-01-18
2025-12-21
2025-12-11
2026-02-04
2025-12-21
2026-01-03
2026-01-02
2025-11-19
2025-09-25
2025-06-20
2025-06-17
2025-05-21
2025-05-17
2025-05-14