微信扫码
添加专属顾问
我要投稿
大模型多轮对话性能评估的突破性研究,揭示了传统静态数据集的不足,并提出了动态测试输入的解决方案。核心内容:1. LLMs在多轮对话中性能下降的问题及其原因2. 传统静态数据集评估多轮对话的局限性3. 用户模拟器技术在动态生成测试输入中的应用和训练方法
多轮对话一直是LLM里面一个头痛,也不怎么被专门研究的问题。
这篇论文指出,LLMs在多轮对话环境下的表现远不如单轮对话,平均性能下降了35%。很好理解,单轮正确率假设为95%,那么5轮的正确率就仅剩73%。
这篇文章先不说多轮的能力怎么训练好,我们仅仅谈论评估这件事,过去大家在一些多轮场景,很痛苦的一件事儿是评估。
有人说,那多轮拆成单轮不就行了。
假设多轮为Q1A1/Q2A2/Q3A3,那么可以转化成 Q1—>A1, Q1A1Q2->A2, Q1A1Q2A2Q3->A3三条评测样本。
虽然这么做确实可以。
但这个东西距离真实的场景有很大的偏差。
首先,多论文对话在一个session中,大模型当前的answer,会影响用户下一轮的输入。这种影响在静态数据集里没法体现。往往一个多轮session的崩溃,都是前面一个小小的answer有问题不断传导。
你需要一个办法能够根据当前轮次大模型的answer动态生成下一个turn测试的输入。
否则你的评估,线上线下一致性会做的非常差。
这在roleplay,电话,Agent等领域非常重要。
这正是大模型现在的弱项,比如大家用来训练电话场景的数据。我一眼看去,都太正经了,一个营销场景的用户的评测数据里怎么会说我是xxx,我对你的产品很感兴趣,请你介绍一下。
这一看就是不理解roleplay的场景,凭想想臆造的测试数据。
真实场景用户只会说:哦,你说啥子嘛。(背景音:前方到站李子坝)
据我了解,有很多团队的测试数据都是这种单轮,臆想的用户文质彬彬的好像在打字跟你说话。
有人会说,那好办啊,我找几个测试/标注人员,在这模拟输入不就行了。
这样的问题是,你这个几个测试/标注,他们能力有限,没法覆盖所有的用户和长尾。每个人脑子里顶多想出10种胡搅蛮缠的用户。
解决这个问题的手段是需要一个会提问的大模型。让他充当我们的测试人员。或者说是"采样" “采样”是机器学习领域判别式和生成式模型最大的区别能力。(这在我好多年前校招找工作的时候还是个必考题呢)
在大模型里面,这种采样的技术手段是用户模拟器。
用户模拟器不是个新名词,在以前的RL,对话领域都有很多应用。
虽然用通用能力很强的基座也能模拟一些用户的提问和数据,但这块他们训练和对齐的目标大部分还是文质彬彬,有用,无害的回答。多轮的输入测,专门训的比例不是很高。
用户模拟器其实就是训一个会提问/追问的模型,主要的核心训练部分是input/prompt/输入/提问。具体的办法可以把真实的场景数据的用户侧作为训练的目标,或者想办法构造类似的提问数据。
训练上,可以采用多轮角色loss mask逆置的方式,把正常过程中的output作为输入mask,把prompt作为输出进行不mask,进行微调。
实现可以参考SGlang团队的多轮损失掩蔽:大多数现有的 RLHF 框架都假设单轮生成模式,缺乏对跨多轮对话进行细粒度、token 级损失掩蔽的支持。然而,在多轮对话设置中(尤其是在工具交互的情况下),并非所有生成的 token 都应计入学习信号。例如,某些工具生成的响应应该被排除在优化过程之外。我们通过设计自定义多轮损失掩蔽机制来解决这个问题,该机制允许对哪些 token 包含在策略梯度更新中进行细粒度控制,从而确保准确的奖励计算。类似,你可以mask的更天马行空一点。
其实就是输入输出反转。有了用户模拟器,你就可以进行一个左右互搏了。
模拟器问,评测模型答。
然后你通过修改模拟器的prompt和种子数据就可以构造1000个不一样的测试用户了。
这比你费劲招的10个标注还不知疲倦以及五花八门。
其实这方法完全可以改造传统的RLHF的过程,并且把这两个模型设定成为都可以训练的对抗方式,SGlang团队已经在verl上支持了多轮的rlhf,但是对抗联合训模拟器+大模型还没有研究团队去做,看看谁手快。
实际落地时候,“采样”这个概念往往很难被非技术人员接受,采样又是RLHF训练数据流中依赖的非常重要的一环,甚至说没有“采样”就没有今天的大模型。固定评测集是确实深入人心的,但评测是一个不断发展进步领域,竞技场,模拟器等都不是静态评测的范畴。评大模型的人也需要学习进步,不可固步自封。
参考文档:https://github.com/microsoft/lost_in_conversation
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-16
AI平台流量激增格局解析:OpenAI领跑,新势力崛起改写行业版图
2025-05-16
竞品崛起,流量告急!谷歌灰度测试“AI模式”
2025-05-16
MCP for 可观测2.0,6个让MCP开发更高效的小妙招
2025-05-16
重磅解读!AI Agent 是大模型的终极落点?42页深度剖析来了!
2025-05-15
“4.1 淘汰 4.5 !”OpenAI发布升级版GPT-4.1全家福:推理、编程性能升级
2025-05-15
OpenMemory MCP:跨AI工具的记忆服务
2025-05-14
从直觉到“深度思考”:多维进化的大模型推理能力
2025-05-14
大模型中Function Call、Tools和MCP的区别
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-05-13
2025-05-13
2025-05-12
2025-05-11
2025-05-09
2025-05-08
2025-05-07
2025-04-30