支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


大模型多轮对话场景评估trick,不要再用静态数据集了

发布日期:2025-05-16 09:32:25 浏览次数: 1540 作者:包包算法笔记
推荐语

大模型多轮对话性能评估的突破性研究,揭示了传统静态数据集的不足,并提出了动态测试输入的解决方案。

核心内容:
1. LLMs在多轮对话中性能下降的问题及其原因
2. 传统静态数据集评估多轮对话的局限性
3. 用户模拟器技术在动态生成测试输入中的应用和训练方法

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

多轮对话一直是LLM里面一个头痛,也不怎么被专门研究的问题。

这篇论文指出,LLMs在多轮对话环境下的表现远不如单轮对话,平均性能下降了35%。很好理解,单轮正确率假设为95%,那么5轮的正确率就仅剩73%。

这篇文章先不说多轮的能力怎么训练好,我们仅仅谈论评估这件事,过去大家在一些多轮场景,很痛苦的一件事儿是评估。

有人说,那多轮拆成单轮不就行了。

假设多轮为Q1A1/Q2A2/Q3A3,那么可以转化成 Q1—>A1, Q1A1Q2->A2, Q1A1Q2A2Q3->A3三条评测样本。

虽然这么做确实可以。

但这个东西距离真实的场景有很大的偏差。

首先,多论文对话在一个session中,大模型当前的answer,会影响用户下一轮的输入。这种影响在静态数据集里没法体现。往往一个多轮session的崩溃,都是前面一个小小的answer有问题不断传导。

你需要一个办法能够根据当前轮次大模型的answer动态生成下一个turn测试的输入。

否则你的评估,线上线下一致性会做的非常差。

这在roleplay,电话,Agent等领域非常重要。

这正是大模型现在的弱项,比如大家用来训练电话场景的数据。我一眼看去,都太正经了,一个营销场景的用户的评测数据里怎么会说我是xxx,我对你的产品很感兴趣,请你介绍一下。

这一看就是不理解roleplay的场景,凭想想臆造的测试数据。

真实场景用户只会说:哦,你说啥子嘛。(背景音:前方到站李子坝)

据我了解,有很多团队的测试数据都是这种单轮,臆想的用户文质彬彬的好像在打字跟你说话。

有人会说,那好办啊,我找几个测试/标注人员,在这模拟输入不就行了。

这样的问题是,你这个几个测试/标注,他们能力有限,没法覆盖所有的用户和长尾。每个人脑子里顶多想出10种胡搅蛮缠的用户。

解决这个问题的手段是需要一个会提问的大模型。让他充当我们的测试人员。或者说是"采样" “采样”是机器学习领域判别式和生成式模型最大的区别能力。(这在我好多年前校招找工作的时候还是个必考题呢)

在大模型里面,这种采样的技术手段是用户模拟器。

用户模拟器不是个新名词,在以前的RL,对话领域都有很多应用。

虽然用通用能力很强的基座也能模拟一些用户的提问和数据,但这块他们训练和对齐的目标大部分还是文质彬彬,有用,无害的回答。多轮的输入测,专门训的比例不是很高。

用户模拟器其实就是训一个会提问/追问的模型,主要的核心训练部分是input/prompt/输入/提问。具体的办法可以把真实的场景数据的用户侧作为训练的目标,或者想办法构造类似的提问数据。

训练上,可以采用多轮角色loss mask逆置的方式,把正常过程中的output作为输入mask,把prompt作为输出进行不mask,进行微调。

实现可以参考SGlang团队的多轮损失掩蔽:大多数现有的 RLHF 框架都假设单轮生成模式,缺乏对跨多轮对话进行细粒度、token 级损失掩蔽的支持。然而,在多轮对话设置中(尤其是在工具交互的情况下),并非所有生成的 token 都应计入学习信号。例如,某些工具生成的响应应该被排除在优化过程之外。我们通过设计自定义多轮损失掩蔽机制来解决这个问题,该机制允许对哪些 token 包含在策略梯度更新中进行细粒度控制,从而确保准确的奖励计算。类似,你可以mask的更天马行空一点。

其实就是输入输出反转。

有了用户模拟器,你就可以进行一个左右互搏了。

模拟器问,评测模型答。

然后你通过修改模拟器的prompt和种子数据就可以构造1000个不一样的测试用户了。

这比你费劲招的10个标注还不知疲倦以及五花八门。

其实这方法完全可以改造传统的RLHF的过程,并且把这两个模型设定成为都可以训练的对抗方式,SGlang团队已经在verl上支持了多轮的rlhf,但是对抗联合训模拟器+大模型还没有研究团队去做,看看谁手快。

实际落地时候,“采样”这个概念往往很难被非技术人员接受,采样又是RLHF训练数据流中依赖的非常重要的一环,甚至说没有“采样”就没有今天的大模型。固定评测集是确实深入人心的,但评测是一个不断发展进步领域,竞技场,模拟器等都不是静态评测的范畴。评大模型的人也需要学习进步,不可固步自封。

参考文档:https://github.com/microsoft/lost_in_conversation


另外我的书《百面大模型》出版了!解决面试中大部分八股题目,还有一些像本文这样的落地小技巧分享~

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询