微信扫码
添加专属顾问
我要投稿
最新研究发现,多轮对话中LLM性能大幅下降,对开发Agent系统影响重大。 核心内容: 1. 微软与Salesforce Research联合研究揭示LLM在多轮对话中的"迷失"现象 2. 15种LLM模型在单轮和多轮对话中的表现对比,平均降幅高达39% 3. 研究者提出的分片模拟实验框架,覆盖六大任务领域,模拟现实世界对话过程
导读:微软最近与Salesforce Research联合发布了一篇名为《Lost in Conversation》的研究,说当前最先进的LLM在多轮对话中表现会大幅下降,平均降幅高达39%。这一现象被称为对话中的"迷失"。文章分析了各大模型(包括Claude 3.7-Sonnet、DeepSeek-R1等)在多轮对话中的表现差异,还解析了模型"迷失"的根本原因及有效缓解策略。这对于开发Agent选择模型非常重要,值得您仔细一读。文章后半段有研究者用于研究目的的开源代码和数据集链接。
15种LLM模型在单轮(FULL)和多轮(SHARDED)对话中的表现对比,展示了多轮对话中的显著性能下降。
当最先进的大语言模型(LLM)面对多轮对话时,它们的表现会大幅下降,平均降幅高达39%。微软研究院与Salesforce Research合作的最新研究《Lost in Conversation》通过对15个顶级模型进行20万次对话模拟,揭示了这一普遍存在但鲜少被关注的问题。研究发现,无论是商业闭源模型(如GPT-4.1、Gemini 2.5 Pro)还是开源模型(如Llama系列),都难逃"迷失"困境,这对正在开发Agent系统的工程师提出了严峻挑战。
能力(Aptitude)与可靠性(Reliability)的对比分析,显示多轮对话中可靠性下降是主要问题。
研究者通过创新性的指标分解,将LLM在多轮对话中的性能下降分为两部分:
这意味着模型在最好和最差表现之间的差距扩大了一倍多。这种高度不可靠性解释了为什么您的AI助手有时表现出色,有时却莫名其妙地"丢三落四",即使是同一个问题,多次尝试的结果可能截然不同。
研究涵盖的六大任务类型及其分片指令示例,展示了如何将完整指令分解为多个信息片段。
研究者设计了名为"分片模拟"的创新实验框架,将完整指令分解为多个信息片段(shards),然后在多轮对话中逐步披露。这种方法模拟了现实世界中用户逐步明确需求的对话过程,而非传统评估中一次性提供完整信息的场景。研究覆盖六大任务领域:
这样的广泛覆盖确保了研究结果具有普遍适用性。
这张图展示了研究的核心实验设计方法论,分为两部分:
这张图直观地解释了为什么多轮对话会导致性能下降,以及RECAP和SNOWBALL等策略如何工作。
微软研究团队已将《Lost in Conversation》研究的完整代码库和数据集开源,这为您提供了一套强大的工具来测试和改进自己的Agent系统。该代码库包含了完整的对话模拟框架(simulator_full.py、simulator_sharded.py等),覆盖单轮完整指令、多轮分片指令以及RECAP/SNOWBALL策略实现。
Github:https://github.com/Microsoft/lost_in_conversation
HuggingFace:https://huggingface.co/datasets/microsoft/lost_in_conversation
代码库与数据集的主要特点:
如果您是Agent开发者,您可以使用这些资源进行三方面测试:
研究者建议先在小规模实验确认设置无误后再进行大规模测试,并注意遵循API提供商的速率限制。这套工具可能是目前最完整的LLM信息整合能力评估工具,对于构建真正可靠的多轮对话系统具有极高的参考价值。
渐进式分片实验结果,证明即使只是两轮对话,模型可靠性就会显著下降。
最令人担忧的发现是,即使在最简单的两轮对话中,LLM的表现也会显著下降。研究者通过"渐进式分片"实验证明,只要对话涉及任何程度的信息逐步披露(哪怕只分为两个片段),模型就会出现可靠性崩溃。这意味着您的Agent系统即使在处理看似简单的多轮对话时也面临风险,用户无需刻意提出复杂问题就可能遇到AI助手"迷失方向"的情况。
研究通过深入分析对话日志,确定了四个导致模型"迷失"的关键因素:
这些因素共同造成了即使是最先进模型也会在多轮对话中逐渐偏离正轨。
这张表格揭示了一个重要发现:简短回答通常比冗长回答更有效。
关键发现:
这说明,模型生成过长回答会引入更多不必要的假设,导致"迷失"。
在所有测试的15个模型中,Claude 3.7-Sonnet展现出最强的多轮对话可靠性,其性能保留率达到65.9%,领先于其他竞争者。尽管GPT-4.1在单轮对话中表现更为出色,但Claude在从单轮到多轮的转换中损失最小,特别是在Math(85.4→70.0)和Summary(29.3→23.6)任务上保持了较高水平。
适用建议:
作为研究中测试的两个专门推理模型(reasoning models)之一,Deepseek-R1展现出了极为鲜明的"两面性"。
单轮对话优势:
多轮对话劣势:
研究者特别指出,尽管Deepseek-R1拥有额外的思考(test-time compute)能力,但这并未帮助它在多轮对话中保持稳定性,表明"思考"并不足以解决信息整合问题。
对Agent开发者的建议:
不同温度设置下模型的不可靠性测试结果,证明降低温度在多轮对话中无法有效提高可靠性。
一个常见误解是认为降低模型温度(temperature)参数可以提高多轮对话的一致性。研究者特别设计了温度实验,结果显示:
这一发现表明问题的根源不是随机性,而是模型在多轮上下文中处理信息的固有缺陷。工程师们需要注意:简单调整生成参数无法解决多轮对话中的"迷失"问题。
RECAP和SNOWBALL策略的性能对比,展示这些方法能有效缓解多轮对话中的性能下降。
针对"迷失"问题,研究者测试了两种可能的解决方案:
实验成果显著:RECAP策略可将GPT-4o的多轮表现从59.1%提升至76.6%,缓解约40%的性能下降。
实用建议:在设计Agent系统时,可以考虑在关键决策点添加信息回顾机制,虽然这不能完全解决问题,但可以显著降低风险。
基于研究发现,以下五点建议可帮助您设计更可靠的Agent系统:
这些策略组合使用,可以构建出更加可靠的Agent系统。
研究结果对LLM开发者提出了严峻挑战:当前主流评估方法过度关注单轮、完全指定场景下的能力(Aptitude),而忽视了多轮、信息逐步明确场景下的可靠性(Reliability)。
研究者呼吁LLM开发者在未来模型迭代中同等重视这两个维度,并提出了具体标准:
这一转变将使下一代LLM更适合构建真正可靠的对话式Agent系统。
"Lost in Conversation"研究揭示了当前LLM的关键局限。通过选择最适合您的模型,结合RECAP等信息整合策略,并遵循论文提供的实用建议,您可以显著提高Agent系统在多轮对话中的可靠性。
尽管完美解决方案尚未出现,但认识到问题并采取针对性措施,已是构建下一代可靠Agent系统的重要一步。当用户说"AI总是半途忘记我说过什么"时,您的系统或许能成为打破这一刻板印象的例外。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-06-04
基于因果AI的智能投研与智能投顾技术研究及应用示范
2025-06-04
基于生成式大模型的复杂内容理解及对话平台智能化应用研究
2025-06-04
大模型在智能运维领域的应用研究
2025-06-04
基于大模型技术的企业知识图谱应用研究
2025-06-04
AI浪潮下的“价值重塑”:从“被定义”到“定义自己”
2025-06-04
货拉拉海豚平台基于LWS实现的大模型分布式部署实践
2025-06-04
在本地部署Qwen3大模型与Dify环境中亲测制作“合同审查智能体”应用
2025-06-04
汉得 x 亚马逊云科技 x Oracle|生态共建,AI企业级落地的全链路实践分享!
2024-08-13
2024-06-13
2024-08-21
2024-07-31
2024-09-23
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-07-20
2025-06-04
2025-06-03
2025-06-02
2025-05-31
2025-05-29
2025-05-29
2025-05-29
2025-05-28