微信扫码
添加专属顾问
我要投稿
简单重复提示词竟能让大模型准确率飙升4倍!这项研究揭示了提升AI性能的惊人技巧。核心内容: 1. 大语言模型因果注意力机制的内在缺陷 2. 提示词重复策略的工作原理与惊人效果 3. 在7个主流模型上的全面测试结果
Google Research团队的一项最新研究,惊掉了下巴!
重复一下提示词,Gemini准确率竟从21.33%飙升至97.33%!
仅仅通过将用户的输入提示词重复一遍,就能在不增加生成时间及计算延迟的前提下,显著提升Gemini、GPT-4o、Claude 3及DeepSeek V3等主流大模型在非推理任务上的表现。
大语言模型通常作为因果语言模型(Causal Language Models)进行训练,这种架构决定了它们在处理信息时存在天然的时间单向性。
模型在处理前面的Token时,无法看见或关注到后面尚未出现的Token。
这种机制导致了信息处理的不对称:位于输入序列末尾的内容可以回顾前面的所有信息,但位于开头的内容却对后续意图一无所知。
用户构建查询的顺序直接影响了模型的预测性能。
在常见的问答场景中,存在先上下文后问题(Context-Question)和先问题后上下文(Question-Context)两种格式。
由于因果注意力的限制,这两种顺序往往产生截然不同的效果。
当上下文很长时,模型处理开头部分时尚未看到结尾的具体问题,导致其对上下文的编码表征缺乏针对性。
研究团队提出了一种极简的提示词重复(Prompt Repetition)策略来解决这一痛点。
具体操作是将原始输入 <QUERY> 变换为 <QUERY><QUERY>。
这种看似笨拙的重复实际上构建了一个类似于双向注意力的感知场。
当模型处理第二遍提示词时,每一个Token都能完整地关注到第一遍提示词中的所有内容。
这使得模型在处理上下文时已经知晓了问题,在处理问题时也已经完整预习了上下文。
这种方法在本质上模拟了非因果模型(如BERT)的双向注意力机制,赋予了Token在生成答案之前重新审视整个输入序列的机会。
通过这种自我复制,模型内部的注意力头能够建立更丰富的跨位置依赖关系,从而提取出更精准的特征表示。
研究人员在Gemini 2.0 Flash、GPT-4o、Claude 3.7 Sonnet和Deepseek V3等7个流行模型上进行了广泛测试。
测试覆盖了ARC、OpenBookQA、GSM8K、MMLU-Pro、MATH等标准基准,以及专门设计的NameIndex和MiddleMatch自定义任务。
实验结果呈现出压倒性的优势:在70个模型-基准组合测试中,提示词重复策略取得了47次显著胜利,且没有出现一次性能倒退。
在标准的多项选择题基准(如ARC和OpenBookQA)中,当采用先选项后问题这种通常较难的格式时,提示词重复带来的提升尤为明显。
这种格式原本迫使模型在不知道问题的情况下处理选项,极易丢失关键信息。
重复输入有效地消除了这种顺序带来的劣势,使得模型能够像处理先问题后选项那样从容应对。
自定义任务的测试结果更是令人惊叹。
NameIndex任务要求模型从一个包含50个名字的列表中找出第25个名字,MiddleMatch任务则要求找出位于两个特定名字中间的那个名字。
这些任务纯粹考验模型对长上下文的精确索引和定位能力。
在基线测试中,许多模型表现惨淡,例如Gemini 2.0 Flash-Lite在NameIndex上的准确率仅为21.33%。应用提示词重复策略后,其准确率飙升至97.33%。
这种巨大的性能飞跃证明了该策略在处理需精确定位的长文本任务时具有不可替代的价值。
研究还引入了两种变体进行对比:一种是加入引导语的Verbose版本(如Let me repeat that...),另一种是重复三次的x3版本。
实验显示,Verbose版本与简单重复效果相当,而重复三次在某些高难度任务(如NameIndex)上能进一步提升表现。
为了排除输入变长本身带来提升的干扰,研究人员设置了Padding(填充)对照组,即用句号填充输入至相同长度。
结果显示填充组并无性能提升,这有力地证明了效果确实源于内容的重复而非单纯的长度增加。
通常人们会认为输入加倍会导致处理时间加倍,但事实并非如此。
提示词重复策略在计算效率上展现出了极高的实用价值。
对于大模型而言,推理过程分为预填充(Prefill)和解码(Decode)两个阶段。
解码阶段是逐个生成Token,必须串行处理,通常是延迟的主要来源。而预填充阶段处理输入提示词,可以在现代GPU上高度并行化。
实验数据明确显示,提示词重复并没有增加生成输出的长度,也没有显著增加端到端的延迟。
因为增加的计算量完全发生在可并行化的预填充阶段,这部分时间的增加相对于整个推理过程往往可以忽略不计。
输出的格式和长度保持不变,保证了该策略可以无缝嵌入现有的应用系统中,无需对下游处理逻辑进行任何修改。
对于启用了思维链(CoT)推理的任务,提示词重复的效果呈现中性至微正向。
这是因为CoT机制本身就往往包含对问题的复述和分解,已经在一定程度上实现了注意力的回溯。
但在不使用或无法使用CoT的场景下,提示词重复提供了一种无需消耗额外推理Token的高效替代方案。
这种通过简单重复输入来黑客介入模型注意力机制的方法,为我们提供了一种无需重新训练模型、无需复杂工程架构即可提升性能的通用手段。
它揭示了现阶段因果语言模型在处理长上下文依赖时的内在局限,同时也给出了一把打破这种局限的低成本钥匙。
对于广大开发者和用户而言,在遇到模型记性不好或看头忘尾的情况时,不妨试着让它再说一遍。
参考资料:
https://arxiv.org/pdf/2512.14982
END
点击图片立即报名👇️
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-20
2025-11-15
2025-11-15
2025-11-12
2025-10-27
2026-01-04
2025-12-02
2025-10-31
2025-11-15
2025-11-03