我要投稿

可靠的Agent该用哪个模型，LLM多轮对话中的「迷失」现象 |微软最新

发布日期：2025-06-02 07:18:05 浏览次数： 1941

作者：AI修猫Prompt

微信搜一搜，关注“AI修猫Prompt”

导读：微软最近与Salesforce Research联合发布了一篇名为《Lost in Conversation》的研究，说当前最先进的LLM在多轮对话中表现会大幅下降，平均降幅高达39%。这一现象被称为对话中的"迷失"。文章分析了各大模型（包括Claude 3.7-Sonnet、DeepSeek-R1等）在多轮对话中的表现差异，还解析了模型"迷失"的根本原因及有效缓解策略。这对于开发Agent选择模型非常重要，值得您仔细一读。文章后半段有研究者用于研究目的的开源代码和数据集链接。

多轮对话：AI最强模型竟然也「迷失」

15种LLM模型在单轮(FULL)和多轮(SHARDED)对话中的表现对比，展示了多轮对话中的显著性能下降。

当最先进的大语言模型（LLM）面对多轮对话时，它们的表现会大幅下降，平均降幅高达39%。微软研究院与Salesforce Research合作的最新研究《Lost in Conversation》通过对15个顶级模型进行20万次对话模拟，揭示了这一普遍存在但鲜少被关注的问题。研究发现，无论是商业闭源模型（如GPT-4.1、Gemini 2.5 Pro）还是开源模型（如Llama系列），都难逃"迷失"困境，这对正在开发Agent系统的工程师提出了严峻挑战。

迷失让可靠性暴跌112%

能力(Aptitude)与可靠性(Reliability)的对比分析，显示多轮对话中可靠性下降是主要问题。

研究者通过创新性的指标分解，将LLM在多轮对话中的性能下降分为两部分：

• 能力下降（Aptitude）：仅下降了16%
• 可靠性下降（Reliability）：暴跌了112%

这意味着模型在最好和最差表现之间的差距扩大了一倍多。这种高度不可靠性解释了为什么您的AI助手有时表现出色，有时却莫名其妙地"丢三落四"，即使是同一个问题，多次尝试的结果可能截然不同。

分片模拟：模型迷失的实验设计

研究涵盖的六大任务类型及其分片指令示例，展示了如何将完整指令分解为多个信息片段。

研究者设计了名为"分片模拟"的创新实验框架，将完整指令分解为多个信息片段（shards），然后在多轮对话中逐步披露。这种方法模拟了现实世界中用户逐步明确需求的对话过程，而非传统评估中一次性提供完整信息的场景。研究覆盖六大任务领域：

1. 编程（Code）
2. 数据库查询（Database）
3. API调用（Actions）
4. 数学问题（Math）
5. 数据到文本生成（Data-to-text）
6. 多文档摘要（Summary）

这样的广泛覆盖确保了研究结果具有普遍适用性。

指令分片与对话模拟类型

这张图展示了研究的核心实验设计方法论，分为两部分：

1. 上部分（指令分片）：

• 展示了研究者如何将完整的单轮指令（蓝色方块）拆分成多个信息片段（黄色小方块）
• 这是论文中"分片模拟"实验的基础，模拟用户在多轮对话中逐步提供信息的场景

2. 下部分（对话模拟类型）：

• 展示了五种不同的实验设置及其信息流动方式：

• FULL：完整指令在第一轮就全部提供（基线场景）
• SHARDED：指令被分成多个片段，在不同轮次逐步提供（模拟真实多轮对话）
• CONCAT：所有分片在第一轮就提供，但保持分片形式
• RECAP：使用分片模式，但在最后添加一轮汇总所有先前信息
• SNOWBALL：每轮都累积重述之前的所有信息

这张图直观地解释了为什么多轮对话会导致性能下降，以及RECAP和SNOWBALL等策略如何工作。

助您测试与改进Agent系统

微软研究团队已将《Lost in Conversation》研究的完整代码库和数据集开源，这为您提供了一套强大的工具来测试和改进自己的Agent系统。该代码库包含了完整的对话模拟框架（simulator_full.py、simulator_sharded.py等），覆盖单轮完整指令、多轮分片指令以及RECAP/SNOWBALL策略实现。
Github:https://github.com/Microsoft/lost_in_conversation
HuggingFace:https://huggingface.co/datasets/microsoft/lost_in_conversation

代码库与数据集的主要特点：

• 完整的对话模拟框架，支持不同场景测试
• 600个经过人工验证的高质量指令及其分片版本
• 涵盖编程、数学、数据库查询等六大实用场景

如果您是Agent开发者，您可以使用这些资源进行三方面测试：

1. 评估不同基础模型在多轮对话中的真实表现差异
2. 验证您设计的信息整合策略（如RECAP）的实际效果
3. 诊断自己的Agent系统在哪些类型任务上更容易"迷失"

研究者建议先在小规模实验确认设置无误后再进行大规模测试，并注意遵循API提供商的速率限制。这套工具可能是目前最完整的LLM信息整合能力评估工具，对于构建真正可靠的多轮对话系统具有极高的参考价值。

⚠️ 仅需两轮对话，模型就开始崩溃

渐进式分片实验结果，证明即使只是两轮对话，模型可靠性就会显著下降。

最令人担忧的发现是，即使在最简单的两轮对话中，LLM的表现也会显著下降。研究者通过"渐进式分片"实验证明，只要对话涉及任何程度的信息逐步披露（哪怕只分为两个片段），模型就会出现可靠性崩溃。这意味着您的Agent系统即使在处理看似简单的多轮对话时也面临风险，用户无需刻意提出复杂问题就可能遇到AI助手"迷失方向"的情况。

为何最强模型也会栽跟头

研究通过深入分析对话日志，确定了四个导致模型"迷失"的关键因素：

1. 过早假设：模型在信息不完整时就尝试回答问题，做出大量假设
2. 答案膨胀：过度依赖先前（可能错误的）回答，导致答案逐渐"膨胀"而非重新思考
3. 注意力分配不均：过度关注对话的第一轮和最后一轮，而忽视中间轮次的信息
4. 回答冗长：生成过于冗长的回答，引入更多无关假设并分散自身注意力

这些因素共同造成了即使是最先进模型也会在多轮对话中逐渐偏离正轨。

回答冗长度对性能的影响

这张表格揭示了一个重要发现：简短回答通常比冗长回答更有效。

• 横轴表示回答的冗长程度，从最简短(0-20%)到最冗长(80-100%)
• 纵轴显示不同任务类型（代码、数学、数据库等）
• 表格中的数值是模型在该任务下的性能得分

关键发现：

• 在大多数任务中（尤其是Code、Database、Summary），回答越简短，性能越好
• 例如，代码任务中，最简短回答(0-20%)的得分为55.3，而最冗长回答(80-100%)仅为42.5
• 只有Actions任务在中等冗长度(40-60%)下表现最佳
• 整体平均而言，简短回答(0-40%)的性能显著高于冗长回答(60-100%)

这说明，模型生成过长回答会引入更多不必要的假设，导致"迷失"。

Claude 3.7与DeepSeekR1

在所有测试的15个模型中，Claude 3.7-Sonnet展现出最强的多轮对话可靠性，其性能保留率达到65.9%，领先于其他竞争者。尽管GPT-4.1在单轮对话中表现更为出色，但Claude在从单轮到多轮的转换中损失最小，特别是在Math（85.4→70.0）和Summary（29.3→23.6）任务上保持了较高水平。

适用建议：