我要投稿

大模型多轮对话场景评估trick，不要再用静态数据集了

发布日期：2025-05-16 09:32:25 浏览次数： 2289

作者：包包算法笔记

微信搜一搜，关注“包包算法笔记”

多轮对话一直是LLM里面一个头痛，也不怎么被专门研究的问题。

这篇论文指出，LLMs在多轮对话环境下的表现远不如单轮对话，平均性能下降了35%。很好理解，单轮正确率假设为95%，那么5轮的正确率就仅剩73%。

这篇文章先不说多轮的能力怎么训练好，我们仅仅谈论评估这件事，过去大家在一些多轮场景，很痛苦的一件事儿是评估。

有人说，那多轮拆成单轮不就行了。

假设多轮为Q1A1/Q2A2/Q3A3，那么可以转化成 Q1—>A1, Q1A1Q2->A2, Q1A1Q2A2Q3->A3三条评测样本。

虽然这么做确实可以。

但这个东西距离真实的场景有很大的偏差。

首先，多论文对话在一个session中，大模型当前的answer，会影响用户下一轮的输入。这种影响在静态数据集里没法体现。往往一个多轮session的崩溃，都是前面一个小小的answer有问题不断传导。

你需要一个办法能够根据当前轮次大模型的answer动态生成下一个turn测试的输入。

否则你的评估，线上线下一致性会做的非常差。

这在roleplay，电话，Agent等领域非常重要。

这正是大模型现在的弱项，比如大家用来训练电话场景的数据。我一眼看去，都太正经了，一个营销场景的用户的评测数据里怎么会说我是xxx，我对你的产品很感兴趣，请你介绍一下。

这一看就是不理解roleplay的场景，凭想想臆造的测试数据。

真实场景用户只会说：哦，你说啥子嘛。（背景音：前方到站李子坝）

据我了解，有很多团队的测试数据都是这种单轮，臆想的用户文质彬彬的好像在打字跟你说话。

有人会说，那好办啊，我找几个测试/标注人员，在这模拟输入不就行了。

这样的问题是，你这个几个测试/标注，他们能力有限，没法覆盖所有的用户和长尾。每个人脑子里顶多想出10种胡搅蛮缠的用户。

解决这个问题的手段是需要一个会提问的大模型。让他充当我们的测试人员。或者说是"采样" “采样”是机器学习领域判别式和生成式模型最大的区别能力。（这在我好多年前校招找工作的时候还是个必考题呢）

在大模型里面，这种采样的技术手段是用户模拟器。

用户模拟器不是个新名词，在以前的RL，对话领域都有很多应用。

虽然用通用能力很强的基座也能模拟一些用户的提问和数据，但这块他们训练和对齐的目标大部分还是文质彬彬，有用，无害的回答。多轮的输入测，专门训的比例不是很高。

用户模拟器其实就是训一个会提问/追问的模型，主要的核心训练部分是input/prompt/输入/提问。具体的办法可以把真实的场景数据的用户侧作为训练的目标，或者想办法构造类似的提问数据。

训练上，可以采用多轮角色loss mask逆置的方式，把正常过程中的output作为输入mask，把prompt作为输出进行不mask，进行微调。

实现可以参考SGlang团队的多轮损失掩蔽：大多数现有的 RLHF 框架都假设单轮生成模式，缺乏对跨多轮对话进行细粒度、token 级损失掩蔽的支持。然而，在多轮对话设置中（尤其是在工具交互的情况下），并非所有生成的 token 都应计入学习信号。例如，某些工具生成的响应应该被排除在优化过程之外。我们通过设计自定义多轮损失掩蔽机制来解决这个问题，该机制允许对哪些 token 包含在策略梯度更新中进行细粒度控制，从而确保准确的奖励计算。类似，你可以mask的更天马行空一点。

其实就是输入输出反转。

有了用户模拟器，你就可以进行一个左右互搏了。

模拟器问，评测模型答。

然后你通过修改模拟器的prompt和种子数据就可以构造1000个不一样的测试用户了。

这比你费劲招的10个标注还不知疲倦以及五花八门。

其实这方法完全可以改造传统的RLHF的过程，并且把这两个模型设定成为都可以训练的对抗方式，SGlang团队已经在verl上支持了多轮的rlhf，但是对抗联合训模拟器+大模型还没有研究团队去做，看看谁手快。

实际落地时候，“采样”这个概念往往很难被非技术人员接受，采样又是RLHF训练数据流中依赖的非常重要的一环，甚至说没有“采样”就没有今天的大模型。固定评测集是确实深入人心的，但评测是一个不断发展进步领域，竞技场，模拟器等都不是静态评测的范畴。评大模型的人也需要学习进步，不可固步自封。