我要投稿

重复一下提示词，Gemini准确率竟从21%飙升至97%！

发布日期：2026-01-19 09:17:38 浏览次数： 2080

作者：AIGC开放社区

微信搜一搜，关注“AIGC开放社区”

Google Research团队的一项最新研究，惊掉了下巴！

重复一下提示词，Gemini准确率竟从21.33%飙升至97.33%！

仅仅通过将用户的输入提示词重复一遍，就能在不增加生成时间及计算延迟的前提下，显著提升Gemini、GPT-4o、Claude 3及DeepSeek V3等主流大模型在非推理任务上的表现。

简单的自我复制弥补因果注意力缺陷

大语言模型通常作为因果语言模型（Causal Language Models）进行训练，这种架构决定了它们在处理信息时存在天然的时间单向性。

模型在处理前面的Token时，无法看见或关注到后面尚未出现的Token。

这种机制导致了信息处理的不对称：位于输入序列末尾的内容可以回顾前面的所有信息，但位于开头的内容却对后续意图一无所知。

用户构建查询的顺序直接影响了模型的预测性能。

在常见的问答场景中，存在先上下文后问题（Context-Question）和先问题后上下文（Question-Context）两种格式。

由于因果注意力的限制，这两种顺序往往产生截然不同的效果。

当上下文很长时，模型处理开头部分时尚未看到结尾的具体问题，导致其对上下文的编码表征缺乏针对性。

研究团队提出了一种极简的提示词重复（Prompt Repetition）策略来解决这一痛点。

具体操作是将原始输入 <QUERY> 变换为 <QUERY><QUERY>。

这种看似笨拙的重复实际上构建了一个类似于双向注意力的感知场。

当模型处理第二遍提示词时，每一个Token都能完整地关注到第一遍提示词中的所有内容。

这使得模型在处理上下文时已经知晓了问题，在处理问题时也已经完整预习了上下文。

这种方法在本质上模拟了非因果模型（如BERT）的双向注意力机制，赋予了Token在生成答案之前重新审视整个输入序列的机会。

通过这种自我复制，模型内部的注意力头能够建立更丰富的跨位置依赖关系，从而提取出更精准的特征表示。

提示词重复策略在多维评测中全面胜出

研究人员在Gemini 2.0 Flash、GPT-4o、Claude 3.7 Sonnet和Deepseek V3等7个流行模型上进行了广泛测试。

测试覆盖了ARC、OpenBookQA、GSM8K、MMLU-Pro、MATH等标准基准，以及专门设计的NameIndex和MiddleMatch自定义任务。

实验结果呈现出压倒性的优势：在70个模型-基准组合测试中，提示词重复策略取得了47次显著胜利，且没有出现一次性能倒退。

在标准的多项选择题基准（如ARC和OpenBookQA）中，当采用先选项后问题这种通常较难的格式时，提示词重复带来的提升尤为明显。

这种格式原本迫使模型在不知道问题的情况下处理选项，极易丢失关键信息。

重复输入有效地消除了这种顺序带来的劣势，使得模型能够像处理先问题后选项那样从容应对。

自定义任务的测试结果更是令人惊叹。

NameIndex任务要求模型从一个包含50个名字的列表中找出第25个名字，MiddleMatch任务则要求找出位于两个特定名字中间的那个名字。

这些任务纯粹考验模型对长上下文的精确索引和定位能力。

在基线测试中，许多模型表现惨淡，例如Gemini 2.0 Flash-Lite在NameIndex上的准确率仅为21.33%。应用提示词重复策略后，其准确率飙升至97.33%。

这种巨大的性能飞跃证明了该策略在处理需精确定位的长文本任务时具有不可替代的价值。

研究还引入了两种变体进行对比：一种是加入引导语的Verbose版本（如Let me repeat that...），另一种是重复三次的x3版本。

实验显示，Verbose版本与简单重复效果相当，而重复三次在某些高难度任务（如NameIndex）上能进一步提升表现。

为了排除输入变长本身带来提升的干扰，研究人员设置了Padding（填充）对照组，即用句号填充输入至相同长度。

结果显示填充组并无性能提升，这有力地证明了效果确实源于内容的重复而非单纯的长度增加。

预填充阶段的并行机制消除额外延迟

通常人们会认为输入加倍会导致处理时间加倍，但事实并非如此。

提示词重复策略在计算效率上展现出了极高的实用价值。

对于大模型而言，推理过程分为预填充（Prefill）和解码（Decode）两个阶段。

解码阶段是逐个生成Token，必须串行处理，通常是延迟的主要来源。而预填充阶段处理输入提示词，可以在现代GPU上高度并行化。

实验数据明确显示，提示词重复并没有增加生成输出的长度，也没有显著增加端到端的延迟。

因为增加的计算量完全发生在可并行化的预填充阶段，这部分时间的增加相对于整个推理过程往往可以忽略不计。

输出的格式和长度保持不变，保证了该策略可以无缝嵌入现有的应用系统中，无需对下游处理逻辑进行任何修改。

对于启用了思维链（CoT）推理的任务，提示词重复的效果呈现中性至微正向。

这是因为CoT机制本身就往往包含对问题的复述和分解，已经在一定程度上实现了注意力的回溯。

但在不使用或无法使用CoT的场景下，提示词重复提供了一种无需消耗额外推理Token的高效替代方案。

这种通过简单重复输入来黑客介入模型注意力机制的方法，为我们提供了一种无需重新训练模型、无需复杂工程架构即可提升性能的通用手段。

它揭示了现阶段因果语言模型在处理长上下文依赖时的内在局限，同时也给出了一把打破这种局限的低成本钥匙。

对于广大开发者和用户而言，在遇到模型记性不好或看头忘尾的情况时，不妨试着让它再说一遍。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-05

哭了！早知道这些Claude Code快捷键和命令，我能少熬80%的夜！

2026-02-28

Google说只有5%的人真正会用AI，他们做对了什么？

2026-02-28

技能即资产：从临时Prompt到可复用Skill的AI工程范式进化

2026-02-26

龙虾Token焦虑自救指南

2026-02-26

生成式 UI：框架、协议与实现类型

2026-02-24

从0到1搭好你的运维技能库：分享20个ClawHub20个Skills

2026-02-24

Anthropic 黑客松冠军项目 Everything Claude Code 完整上手攻略

2026-02-21

Prompt Caching：Claude Code背后的省钱神器，让AI编程成本暴降90%

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

别再问“怎么写 Skill.md”了，直接抄生产级的Skills 库

2026-01-04

2025最新！NotebookLM一键出专业PPT，12套神级提示词直接抄

2025-12-26

一文带你看懂，火爆全网的Skills到底是个啥。

2026-01-13

OpenAI 官方发布 GPT Image 1.5 提示词指南（15+场景Prompt建议收藏！）

2025-12-17

Antigravity 新增 Skills 支持，前端 UI 开发效率飙升

2026-01-18

Cursor 的 5 种指令方法比较：AGENTS.md、规则（Rules）、命令（Commands）、技能（Skills）、子代理（Subagents）

2026-01-29

Cursor、CC、Codex 直接用！上下文工程 Agent Skills 来了，一周狂揽 4k Star

2026-01-10

Claude Code创始人亲授13招，看完发现我一直在"青铜"操作

2026-01-04

Anthropic 社区负责人连更31条Claude Code技巧！比Claude Code创始人私藏的还硬核

2026-01-07

谷歌官方推出！10 个 Gem 提示词，附详细Gem自律助手创建流程

2026-01-30

大家都在问

Google说只有5%的人真正会用AI，他们做对了什么？

2026-02-28

Prompt caching 技术是如何实现 1 折的推理成本优化的？

2026-02-12

几句话就能复刻一个付费Skill，Skills商店还能卖什么？

2026-02-12

从 Prompt 到 Skills：如何把业务流程切开，塞进AI的“技能槽”里？

2026-02-08

Prompt 的本质是“思维压缩包”：如何从结果中反推创作者的认知模型？

2026-02-05

当AI能替你干活，什么能力决定你不可替代？

2026-02-05

Skills 真能取代 MCP 和 Prompts 吗？

2026-01-23

从“手搓 Prompt”到“无限循环”：AI 编码的下一个形态是“Ralph”吗？

2026-01-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw