支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


大模型应该怎么用?我们大多数人都错了,微软最新研究:大模型对话次数越多,性能越差

发布日期:2025-05-28 18:24:04 浏览次数: 1543 作者:至顶AI实验室
推荐语

微软最新研究颠覆你对大模型使用的常规认知。

核心内容:
1. 大模型多轮对话性能反常识下降现象
2. 微软研究证实AI对话中的“迷失现象”
3. 产学结合揭示AI模型处理信息困境

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
春节在家,恰逢DeepSeek 爆火,村里的小伙伴知道我是搞互联网的,纷纷询问,大模型是个啥,咋用啊。
我说你可以把它当成一个知识渊博的小伙伴,有啥问题直接问它就好,如果得不到答案,那就多问几次…
甚至后来,我还总结了一套与大模型交流的方法,无论是结构化提示词,还是各种条件设定,其中很重要的一条是,要想更准确,必须要循序渐进,与大模型多轮对话…
我把这套方法奉为圭臬,在各种场合,甚为得意的与他人分享,俨然一副过来人的专家嘴脸…
直到前不久,被打脸了…
微软研究院前不久发布了一篇论文,揭示了一个反常识的现象:当我们和AI进行长时间多轮对话时,它们会变得越来越"糊涂",给出的答案质量也会明显下降。
看到结论,貌似不大合理,但这个现象又好像在哪见过,相信很多小伙伴都遇到过,在我们刚开始与大模型聊天时,它的回答即使不是那么精准,但基本还是到位的,但随着对话的深入,我们会发现AI开始重复之前说过的话,或者给出一些前后矛盾的答案,甚至完全偏离了你原本想要解决的问题。
这一点,在推理模型上尤为明显…
而微软研究院的这项研究,用严谨的科学方法证实了这个现象的存在,并且表明,这不是个别模型的问题,而是几乎所有大模型的通病。研究团队测试了包括GPT-4、Claude、Gemini在内的15个主流AI模型,发现它们在多轮对话中的表现平均下降了39%。
这意味着,如果一个AI在单轮对话中能达到90分的水准,那么在多轮对话中可能只能维持55分左右的表现。
很惊奇,是不是,Why…
索性,微软的这项研究不但发现了问题,还深入探究了问题的根源。
研究背景
这项研究由微软研究院和Salesforce 研究院(Salesforce Research)联合完成,论文于2025年5月发布在预印本平台arXiv上。
这样的组合本身就代表了研究团队在AI领域的权威性,微软作为OpenAI的重要合作伙伴,对大语言模型的实际应用有着深刻理解,而Salesforce作为企业服务领域的领军者,则更关注AI在实际商业场景中的表现。这种产学结合的研究方式,往往能够产生既有理论价值又有实践意义的成果。
这项研究的规模相当庞大,研究团队进行了超过20万次的对话模拟实验,涉及15个不同的AI模型和6种不同类型的任务。这样的实验规模在AI研究领域并不常见,也从侧面说明了研究团队对这个问题的重视程度和研究的严谨性。
核心发现:AI对话中的"迷失现象"
研究团队发现,AI模型在处理信息时会面临一个困境,当用户在对话开始时就提供完整清晰的指令时,AI能够发挥出最佳水平。但当信息被分散在多个对话轮次中逐步透露时,AI的表现就会显著下降。
即使是最先进的AI模型也无法避免这个问题,无论是OpenAI的GPT-4系列,还是Anthropic的Claude系列,或是Google的Gemini系列,都表现出了相同的趋势。这表明这个问题不是某个特定模型的缺陷,而是当前大语言模型架构的固有局限性。
正如前文中我们提到的,研究团队对15个顶级大语言模型(包括Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro等)进行了超过20万次的对话模拟:所有模型在多轮对话中的表现都显著低于单轮对话,平均下降幅度高达39%。
在测试过程中,研究团队还发现了一个有意思的现象:那些在单轮对话中表现越好的模型,在多轮对话中的表现下降幅度并不一定更小。换句话说,模型的"聪明程度"和它在复杂对话中保持稳定表现的能力之间,并没有必然的联系。
在深入分析性能下降的原因时,研究团队发现了两个关键因素。
一个是"能力下降",即AI在多轮对话中的最佳表现相比单轮对话有所降低,但这个下降幅度相对较小,平均只有15%左右。
第二个是"可靠性下降",这是主要问题所在。AI在多轮对话中的表现变得极不稳定,同样的对话可能产生截然不同的结果,这种不稳定性的增加幅度超过了100%。
如果把AI的表现比作考试成绩,那么在单轮对话中,一个优秀的AI可能会稳定地得90-95分;但在多轮对话中,同样的AI可能会出现30分到85分的巨大波动,平均分数也会下降到65分左右。这种不稳定性对于实际应用来说是非常糟糕的,因为用户无法预期AI会给出什么样的回答。
研究团队通过大量的对话分析,总结出了AI在多轮对话中"迷失"的四个主要原因。
首先是"过早答题"现象,就像一个急于表现的学生,AI经常在还没有收集到足够信息的情况下就试图给出完整的答案。这些基于不完整信息的早期答案往往包含错误的假设,而这些假设会影响后续的对话发展。
其次是"答案膨胀"现象,当AI发现自己之前的答案可能不够准确时,它不是推翻重来,而是在原有答案基础上不断添加和修改内容。这导致最终的答案变得冗长复杂,反而偏离了用户的真实需求。这就像一个人在解释问题时越说越复杂,最终把自己都绕糊涂了。
第三个原因是"中途遗忘"现象,研究团队发现,AI在处理长对话时,往往过分关注对话的开头和结尾部分,而忽略中间的重要信息。这种现象在AI领域被称为"lost-in-the-middle"效应,它导致AI无法有效整合对话中的所有关键信息。
最后一个原因是"冗余表达",AI在多轮对话中往往会产生过于详细的回复,这些冗长的回复不仅浪费了计算资源,还可能包含不必要的假设和推测,进而影响对话的准确性和效率。
研究方法的巧思与局限
要想科学地验证"AI在多轮对话中表现更差"这个假设,其实并不容易。毕竟,多轮对话和单轮对话本质上是不同的任务,如何确保比较的公平性是一个关键挑战。
研究团队设计了一个巧妙的实验框架,将完整的单轮指令分解成多个"碎片"(shards),以模拟多轮对话中信息逐步揭示的过程。
例如,一个完整的指令"编写一个Python函数,接受整数列表作为输入,返回列表中的最大值和最小值的差"。
研究者将其分解为:
第一轮:"帮我写一个Python函数"
第二轮:"这个函数需要接受整数列表作为输入"
第三轮:"函数应该返回列表中的最大值和最小值之差"
这种"碎片化"模拟了真实对话中用户逐步提供信息的情况。
为了确保实验的规模和可重复性,研究团队设计了一个自动化的对话模拟系统。这个系统可以模拟用户和AI之间的多轮对话,并且能够控制信息透露的节奏和方式。通过这种自动化的方式,他们能够进行大规模的实验,涉及多个不同的AI模型和任务类型。
研究团队在六种不同类型的任务上进行了测试,包括编程、数据库查询、API调用、数学计算、数据描述和文档摘要。这样的选择既涵盖了技术性任务,也包括了语言性任务,能够全面反映AI在不同领域的表现。更重要的是,这些任务都有明确的对错标准,便于量化分析。
为了量化模型表现,他们定义了三个关键指标:平均表现(P,整体成功率)、能力(A,最佳情况下的表现)和不可靠性(U,最佳和最差表现之间的差距)。这些指标帮助研究者精确分析模型在不同对话设置中的表现差异。
研究的一个重要优势是其大规模性:超过20万次模拟对话,覆盖15个顶级语言模型。这确保了研究结果的可靠性和普遍性。
无论是开源模型如Llama系列,还是闭源商业模型如GPT-4.1、Claude 3.7、Gemini 2.5 Pro,都展现出类似的"迷路"模式。
这项研究也有其局限性。
自动化的对话模拟虽然保证了实验规模,但可能无法完全反映真实的人机对话情况,真实用户的行为更加复杂多样,可能会出现研究中没有考虑到的情况。
同时,研究主要关注的是分析性任务,对于创意性任务的表现如何,还需要进一步研究。毕竟,创意性任务的评估标准更加主观,难以进行大规模的自动化测试。
另外,研究主要基于英语环境,对于其他语言的AI表现是否也存在同样的问题,目前还不清楚。考虑到不同语言的表达方式和思维模式存在差异,这个问题值得进一步探索。
研究聚焦的是纯文本对话,但现在很多AI系统已经支持多模态交互,在图像、音频等多种信息输入的情况下,AI的多轮对话表现如何,也是一个待解答的问题。
尽管存在这些局限性,但这项研究的价值依然不容否认。它为我们理解AI的真实能力提供了重要洞察。更重要的是,这项研究表明,我们在评估和使用AI系统时,不能仅仅依赖单轮测试的结果,而要考虑更加复杂的实际应用场景。
结论:如何避免AI在对话中"迷路"?
这项研究的意义远不止于发现了一个技术问题,它实际上揭示了当前AI发展中的一个根本性挑战。我们一直以来对AI能力的认知,很大程度上基于单轮对话的表现。无论是各种AI基准测试,还是媒体报道中的AI"神奇表现",多数都是基于单轮交互的结果。但这项研究告诉我们,这种评估方式可能严重高估了AI在实际应用中的表现。
对于AI系统开发者,研究团队测试了两种可能的改进方法。一种是"回顾"机制,在对话结束时添加一个总结所有之前信息的轮次。另一种是"雪球"机制,在每个新轮次都重复之前所有的信息。这些方法能在一定程度上缓解问题,提升15-20%的性能,但仍然无法达到单轮对话的水平。
对于模型开发者,研究表明,仅仅降低温度参数(使输出更确定性)并不能显著改善多轮对话中的可靠性问题。研究者呼吁LLM开发者在未来迭代中优先考虑模型在多轮对话中的可靠性,而不仅仅是提高单轮能力。
对于普通用户,研究团队也提供了两条非常实用的建议:
第一,如果对话没有达到预期效果,尝试重新开始新对话可能比继续当前对话更有效。这是因为一旦模型在对话中"迷路",继续对话往往无法让它找回正确方向。
第二,在尝试新对话之前,将之前对话中的信息整合起来。你可以要求AI:"请帮我整合我们到目前为止讨论的所有内容",然后将这个整合后的信息用于新对话。这种方法可以显著提高AI的表现。
这些建议也解释了为什么许多AI工具的专业用户(如使用AI编程助手Cursor的开发者)会养成"频繁开始新对话"的习惯,即使工具允许无限延续对话。
未来,解决多轮对话中的"迷失问题"可能需要多个方面的技术突破。这包括更好的注意力机制、更强的上下文理解能力、更稳定的推理过程,以及更有效的对话状态管理。这些技术挑战的解决,不仅会提升AI在对话场景中的表现,也会推动整个AI技术的进步。
至顶AI实验室洞见
目前的大语言模型在单轮能力方面已经取得了惊人进展,能够解决越来越复杂的问题,甚至在一些复杂的基准测试中超越了大多数的人类,例如,数学,逻辑,编程等。
但这项研究表明,真正的对话能力不仅仅是回答问题的能力,还包括在信息逐步揭示的过程中保持一致性和可靠性的能力。
从认知科学的角度很好理解,当前AI系统与人类认知方式有着根本差异,人类在对话中能够自然地整合零散信息,构建连贯的理解,并随着新信息的加入不断调整自己的认知框架。而大语言模型基本都缺乏这种动态整合能力,它们更像是在不断叠加新信息,而非真正理解和重构知识。
这也是目前AI无法取代人类许多工作的一个重要原因。
这项研究同时也揭示了当前AI评估体系的一个重要盲点,大多数评估基准都是在理想化、简化的环境中进行的,无法反映真实使用场景的复杂性,这导致了模型优化方向与实际需求之间的脱节。
其实大多时候,能力跟跑出来的AI基准测试分数无关,能不能解决真实场景下的问题才是关键。
真正的AI进步不仅仅是在特定任务上超越人类,而是能够以更自然、更可靠的方式与人类协作,成为我们日常生活和工作中真正有用的助手。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询