我要投稿

写Prompt别再拽高级词汇了，用大白话效果反而更好

发布日期：2026-05-31 11:21:18 浏览次数： 1507

作者：Shire AI实验室

微信搜一搜，关注“Shire AI实验室”

我跟你说个真事。

有人做了一个实验，把同一个指令用两种方式写给AI。一种是「请对以下问题进行深入分析并给出详尽的解答」，另一种是「帮我分析一下这个问题」。

你猜哪种效果更好？

后者。

准确率高了整整8个百分点。

我第一次看到这个数据的时候，反应跟屏幕前的你应该一样，这不可能吧。写得越专业不应该效果越好吗？

但这篇论文说的不是一回事。

这是一个叫 Adam's Law 的东西，FaceMind 团队和香港中文大学联合做的研究，发在了 ACL 2026 主会上。ACL 是自然语言处理领域最顶级的会议，不是什么野鸡论文。

他们的发现用一句话概括就是，写 prompt 的时候，用大白话比用高级词汇效果更好。

不是玄学，不是经验之谈，是有数学证明的那种好。

我自己也是被这个发现震了一下。

坦白一件事。我之前写 Claude Code 的 prompt，特别喜欢拽词。比如我想让它帮我检查代码，我会写「请对以下代码段进行深入的逻辑审查和潜在缺陷识别，并给出具体的修复建议」。

我觉得这很专业，很严谨，AI 应该会更认真对待我的请求。

直到我看到这篇论文才意识到，那些花里胡哨的表述，可能一直在帮倒忙。

Adam's Law 到底说了啥

这个研究做了什么事儿呢，他们用 100 种语言、4 类核心任务做了大规模实验。

数学推理，机器翻译，常识推理，Agentic 工具调用。

四个完全不同的任务类型，得出的结论惊人一致，把 prompt 里的低频词换成高频词，准确率就能显著提升。

而且这不是某个模型的 bug，他们测了 DeepSeek-V3、GPT-4o-mini、LLaMA-3.3-70B，还有 Qwen-2.5 系列从 0.5B 到 72B 的所有变体。全部有效。

数学推理这块的数据最直观。GSM8K 是一个标准的数学推理测试集，他们把同一道题用两种方式写 prompt，一种用常见表达，一种用比较书面、高级的表达。

结果 DeepSeek-V3 从 63.55% 涨到了 71.54%。
GPT-4o-mini 从 60.70% 涨到了 68.70%。
LLaMA-3.3-70B 从 80.49% 涨到了 88.75%。

三个模型，涨了差不多 8 个百分点。

你想想，这在 AI 领域是什么概念。很多论文花几十页论证一个 0.5% 的提升，这里一个「换个说法」就搞定了 8%。

机器翻译那边更夸张。他们在 FLORES-200 数据集上测了 100 个语言对，用 DeepSeek-V3 做翻译。把 prompt 换成高频表达后，100 个语言对里 99 个的 BLEU 分数都上升了。

99 个。

只有 1 个轻微退化，不到 1 分，基本可以忽略。其中 63 个语言对改善超过 1 分，31 个超过 3 分，12 个超过 5 分。用 COMET 指标看，37 种语言全部改善，一个都没掉。

最让我震惊的一个发现。

实验里有一个结果，我反复看了三遍。

他们测试了微调场景。就是用高频词改写过的数据去微调模型，效果居然超过了用原始标注数据微调的模型。

你品品这代表了啥。

你花大量人力标注的数据，如果用词不够「常见」，效果可能反而不如用高频词改写过的版本。

标注数据是 AI 行业最贵的成本之一。很多公司花几百万去标注数据，结果可能因为标注员用了太多专业术语，效果还不如用大白话重写一遍。

还有一个发现也很重要，高频输入能纠正原本答错的样本，但不会让原本答对的样本变错。

这是一个「只赢不亏」的效果。

你用高频表达重写 prompt，答对的还是对，答错的有可能被纠正过来。稳赚不赔。

为什么会这样呢

论文给了基于 Zipf 定律的数学证明，但我想用人话解释一下。

大模型是怎么学会说话的？读互联网。它读了海量的文本，学会了「什么样的文字长什么样」。

高频词就是那些在互联网上出现次数特别多的词。「帮我」「分析」「总结」这些词，模型见过无数次。它的内部已经形成了非常精准的概率分布。

但「精炼」「阐释」「辨析」这些词，虽然意思差不多，出现频率低得多。模型对它们的内部表征就没那么「精准」。

打个比方。你去一个陌生城市，跟路人问路。

「你好，请问最近的地铁站怎么走？」

对方立马给你指方向。

但如果你说「敢问阁下，此地左近之轨道交通车站位于何方？」

对方可能直接报警。

模型也是一样的。高频表达就是它的「母语」。你在它的母语范围内跟它沟通，它理解得最准确。你拽一堆它不怎么见过的表达，它就得花更多「精力」去理解你在说什么，留给真正任务的「算力」就少了。

论文里有一个细节特别有意思。他们发现频率和文本复杂度的相关系数接近 0。

啥意思呢，就是用简单词不等于内容变简单。

你可以用大白话讨论量子力学，也可以用术语讨论天气。词的频率和内容的深度是两个独立的维度。

你想想看，你可以用最朴素的语言表达最复杂的思想。而模型恰好更喜欢朴素的语言。

这对我们的实际使用有啥影响呢

第一，改掉「越专业越好」的习惯。

很多人写 prompt 的时候，恨不得把每个词都换成术语。「基于 RAG 架构的知识库检索增强系统」，不如说「能搜索文档回答问题的 AI 助手」。意思完全一样，但后者可能效果更好。

第二，建立「频率意识」。

每次写完 prompt，问自己一个问题，这个词我日常跟朋友聊天会用吗？

如果不会，换一个。

「请对以下代码进行深入审查」→「帮我看看这段代码有没有问题」
「请生成一份详尽的分析报告」→「帮我写个分析，详细点」
「请对上述内容进行精炼概括」→「帮我总结一下」

每一组的意思完全一样，但右边的版本大概率效果更好。

第三，句子结构也要简化。

不只是单个词的问题，复杂句式本身就包含更多低频词组。「鉴于当前的市场环境，我建议我们对产品策略进行相应的调整」→「市场变了，咱们产品策略也得跟着改」。

后者不光词频高，句式也是模型更常见的结构。

论文里提到他们建了一个叫 TFPD 的数据集，专门用来配对「同一个意思的高频和低频表达」。这说明未来可能会有工具自动帮你优化 prompt 的用词频率。

但在那之前，最简单的办法就是写完 prompt 读一遍，想象自己在跟朋友说话。把所有「书面腔」的地方改成「口语腔」。

聊到这，我想说一个更深层的事。

为什么我们这么执着于把 prompt 写得「高级」？

我猜是因为从小写作文就被教育要用「好词好句」。语文老师说「请对上述内容进行精炼概括」比「帮我总结一下」更有文采。这种思维定式，延伸到了写 prompt 上面。

但 AI 模型不是语文老师。它不需要你展示词汇量。它需要的是准确理解你的意图。

在 AI 面前，朴素才是真正的力量。

而且你想想，这个发现的影响范围远不止写 prompt。

训练数据的清洗标准，以后可能要加入「频率」这个维度。微调数据的构建方式，可能要重新设计。翻译系统、搜索引擎、对话系统，都可能因为这个规律而优化。

论文里说他们用高频词数据做微调，效果超过了原始标注数据。说真的，整个 AI 行业的数据工程，可能都需要重新审视「频率」这个被忽略的维度。

经济学以前只看「供给和需求」，后来加入了「预期」这个新维度，整个理论体系都不一样了。Adam's Law 做的事情有点类似，在「质量、规模、难度」三个维度之外，补上了「频率」这第四个维度。

说实话，写这篇文章的时候我自己也挺感慨的。

我一直以为 prompt 写得越专业越好，结果发现那些花里胡哨的表述一直在帮倒忙。就像你花了很大力气去装饰一把锤子，结果发现朴素的锤子敲钉子更准。

论文里那个「只赢不亏」的发现让我印象最深。高频输入能纠正错误但不会引入新错误。这种稳赚不赔的事儿，在 AI 领域真的不多见。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧。

谢谢你看我的文章，我们，下次再见。

/ 作者：夏尔AI
/ 邮箱：435452239@qq.com

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-30

Codex 入门最佳实践「OpenAI官方」

2026-05-29

天猫新品团队AI编码实战指南（下）

2026-05-27

我帮1000+程序员改过简历，把压箱底的提示词全公开了

2026-05-25

GPT-Image-2 提示词库：583+ 个真实可用的图像生成提示词

2026-05-25

Codex「自我蒸馏」提示词进化版！官方团队给出更强方案，一键打包你的专属工作流

2026-05-24

让你的 AI Agent更加听话

2026-05-24

高质量测试 Skill 编写手册 -- 渐进式披露

2026-05-23

如何把Codex用到极致？Codex真正厉害的地方，远不止是写代码

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

2026 Claude Skills 全岗位合集（新增篇）：6类全新岗位，18个高价值Agent Skill，告别无效加班

2026-03-07

OpenAI 发布 Codex 最佳实践指南：AI 编程工作流首次曝光

2026-03-13

别再裸用 Claude Code，这 20 个隐藏命令，太爽了

2026-03-18

GPT Image 2 提示词图库开源站点来了

2026-04-21

不再触发Claude使用限制，大幅降低Token的10个有效习惯！

2026-04-07

哭了！早知道这些Claude Code快捷键和命令，我能少熬80%的夜！

2026-03-05

TRAE 技术专家推荐：6个技巧让你的 Agent 更听话

2026-03-16

Claude Code终极指令速查表

2026-03-26

7 个 Karpathy 式提示词，让 Claude 变成你的研究员、工程师和思考搭档

2026-03-26

我逆向了 329 条 GPT-Image2 提示词模板，全部开源！

2026-04-25

大家都在问

Search Agent 要如何构造复杂有效的Query？

2026-05-23

写给产品经理的"AI工程"指南：提示词工程、上下文工程、Harness 工程到底是啥？

2026-05-16

AI 工程化实战：如何像设计函数参数一样设计 System Prompt？

2026-04-14

Google说只有5%的人真正会用AI，他们做对了什么？

2026-02-28

Prompt caching 技术是如何实现 1 折的推理成本优化的？

2026-02-12

几句话就能复刻一个付费Skill，Skills商店还能卖什么？

2026-02-12

从 Prompt 到 Skills：如何把业务流程切开，塞进AI的“技能槽”里？

2026-02-08

Prompt 的本质是“思维压缩包”：如何从结果中反推创作者的认知模型？

2026-02-05

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw