2026年6月4日 周四晚上19:30,报名腾讯会议了解“业务抓夹如何成为前线部署工程师(FDE)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

写Prompt别再拽高级词汇了,用大白话效果反而更好

发布日期:2026-05-31 11:21:18 浏览次数: 1507
作者:Shire AI实验室

微信搜一搜,关注“Shire AI实验室”

推荐语

写Prompt别再拽词了,用大白话能让AI表现更好。这篇顶会论文用数据证明,简单指令比复杂表达平均提升8%的准确率。

核心内容:
1. 颠覆认知的实验:简单prompt比“专业”表述效果更好
2. Adam's Law核心发现:高频词替换低频词能显著提升模型表现
3. 多任务验证:数学推理、翻译等任务均获得一致提升

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

我跟你说个真事。

有人做了一个实验,把同一个指令用两种方式写给AI。一种是「请对以下问题进行深入分析并给出详尽的解答」,另一种是「帮我分析一下这个问题」。

你猜哪种效果更好?

后者。

准确率高了整整8个百分点。


我第一次看到这个数据的时候,反应跟屏幕前的你应该一样,这不可能吧。写得越专业不应该效果越好吗?

但这篇论文说的不是一回事。

这是一个叫 Adam's Law 的东西,FaceMind 团队和香港中文大学联合做的研究,发在了 ACL 2026 主会上。ACL 是自然语言处理领域最顶级的会议,不是什么野鸡论文。

他们的发现用一句话概括就是,写 prompt 的时候,用大白话比用高级词汇效果更好。

不是玄学,不是经验之谈,是有数学证明的那种好。

我自己也是被这个发现震了一下。

坦白一件事。我之前写 Claude Code 的 prompt,特别喜欢拽词。比如我想让它帮我检查代码,我会写「请对以下代码段进行深入的逻辑审查和潜在缺陷识别,并给出具体的修复建议」。

我觉得这很专业,很严谨,AI 应该会更认真对待我的请求。

直到我看到这篇论文才意识到,那些花里胡哨的表述,可能一直在帮倒忙。


Adam's Law 到底说了啥

这个研究做了什么事儿呢,他们用 100 种语言、4 类核心任务做了大规模实验。

数学推理,机器翻译,常识推理,Agentic 工具调用。

四个完全不同的任务类型,得出的结论惊人一致,把 prompt 里的低频词换成高频词,准确率就能显著提升。

而且这不是某个模型的 bug,他们测了 DeepSeek-V3、GPT-4o-mini、LLaMA-3.3-70B,还有 Qwen-2.5 系列从 0.5B 到 72B 的所有变体。全部有效。

数学推理这块的数据最直观。GSM8K 是一个标准的数学推理测试集,他们把同一道题用两种方式写 prompt,一种用常见表达,一种用比较书面、高级的表达。

结果 DeepSeek-V3 从 63.55% 涨到了 71.54%。
GPT-4o-mini 从 60.70% 涨到了 68.70%。
LLaMA-3.3-70B 从 80.49% 涨到了 88.75%。

三个模型,涨了差不多 8 个百分点。

你想想,这在 AI 领域是什么概念。很多论文花几十页论证一个 0.5% 的提升,这里一个「换个说法」就搞定了 8%。

机器翻译那边更夸张。他们在 FLORES-200 数据集上测了 100 个语言对,用 DeepSeek-V3 做翻译。把 prompt 换成高频表达后,100 个语言对里 99 个的 BLEU 分数都上升了。

99 个。

只有 1 个轻微退化,不到 1 分,基本可以忽略。其中 63 个语言对改善超过 1 分,31 个超过 3 分,12 个超过 5 分。用 COMET 指标看,37 种语言全部改善,一个都没掉。


最让我震惊的一个发现。

实验里有一个结果,我反复看了三遍。

他们测试了微调场景。就是用高频词改写过的数据去微调模型,效果居然超过了用原始标注数据微调的模型。

你品品这代表了啥。

你花大量人力标注的数据,如果用词不够「常见」,效果可能反而不如用高频词改写过的版本。

标注数据是 AI 行业最贵的成本之一。很多公司花几百万去标注数据,结果可能因为标注员用了太多专业术语,效果还不如用大白话重写一遍。

还有一个发现也很重要,高频输入能纠正原本答错的样本,但不会让原本答对的样本变错。

这是一个「只赢不亏」的效果。

你用高频表达重写 prompt,答对的还是对,答错的有可能被纠正过来。稳赚不赔。

为什么会这样呢

论文给了基于 Zipf 定律的数学证明,但我想用人话解释一下。

大模型是怎么学会说话的?读互联网。它读了海量的文本,学会了「什么样的文字长什么样」。

高频词就是那些在互联网上出现次数特别多的词。「帮我」「分析」「总结」这些词,模型见过无数次。它的内部已经形成了非常精准的概率分布。

但「精炼」「阐释」「辨析」这些词,虽然意思差不多,出现频率低得多。模型对它们的内部表征就没那么「精准」。

打个比方。你去一个陌生城市,跟路人问路。

「你好,请问最近的地铁站怎么走?」

对方立马给你指方向。

但如果你说「敢问阁下,此地左近之轨道交通车站位于何方?」

对方可能直接报警。

模型也是一样的。高频表达就是它的「母语」。你在它的母语范围内跟它沟通,它理解得最准确。你拽一堆它不怎么见过的表达,它就得花更多「精力」去理解你在说什么,留给真正任务的「算力」就少了。

论文里有一个细节特别有意思。他们发现频率和文本复杂度的相关系数接近 0。

啥意思呢,就是用简单词不等于内容变简单。

你可以用大白话讨论量子力学,也可以用术语讨论天气。词的频率和内容的深度是两个独立的维度。

你想想看,你可以用最朴素的语言表达最复杂的思想。而模型恰好更喜欢朴素的语言。


这对我们的实际使用有啥影响呢

第一,改掉「越专业越好」的习惯。

很多人写 prompt 的时候,恨不得把每个词都换成术语。「基于 RAG 架构的知识库检索增强系统」,不如说「能搜索文档回答问题的 AI 助手」。意思完全一样,但后者可能效果更好。

第二,建立「频率意识」。

每次写完 prompt,问自己一个问题,这个词我日常跟朋友聊天会用吗?

如果不会,换一个。

「请对以下代码进行深入审查」→「帮我看看这段代码有没有问题」
「请生成一份详尽的分析报告」→「帮我写个分析,详细点」
「请对上述内容进行精炼概括」→「帮我总结一下」

每一组的意思完全一样,但右边的版本大概率效果更好。

第三,句子结构也要简化。

不只是单个词的问题,复杂句式本身就包含更多低频词组。「鉴于当前的市场环境,我建议我们对产品策略进行相应的调整」→「市场变了,咱们产品策略也得跟着改」。

后者不光词频高,句式也是模型更常见的结构。

论文里提到他们建了一个叫 TFPD 的数据集,专门用来配对「同一个意思的高频和低频表达」。这说明未来可能会有工具自动帮你优化 prompt 的用词频率。

但在那之前,最简单的办法就是写完 prompt 读一遍,想象自己在跟朋友说话。把所有「书面腔」的地方改成「口语腔」。


聊到这,我想说一个更深层的事。

为什么我们这么执着于把 prompt 写得「高级」?

我猜是因为从小写作文就被教育要用「好词好句」。语文老师说「请对上述内容进行精炼概括」比「帮我总结一下」更有文采。这种思维定式,延伸到了写 prompt 上面。

但 AI 模型不是语文老师。它不需要你展示词汇量。它需要的是准确理解你的意图。

在 AI 面前,朴素才是真正的力量。

而且你想想,这个发现的影响范围远不止写 prompt。

训练数据的清洗标准,以后可能要加入「频率」这个维度。微调数据的构建方式,可能要重新设计。翻译系统、搜索引擎、对话系统,都可能因为这个规律而优化。

论文里说他们用高频词数据做微调,效果超过了原始标注数据。说真的,整个 AI 行业的数据工程,可能都需要重新审视「频率」这个被忽略的维度。

经济学以前只看「供给和需求」,后来加入了「预期」这个新维度,整个理论体系都不一样了。Adam's Law 做的事情有点类似,在「质量、规模、难度」三个维度之外,补上了「频率」这第四个维度。

说实话,写这篇文章的时候我自己也挺感慨的。

我一直以为 prompt 写得越专业越好,结果发现那些花里胡哨的表述一直在帮倒忙。就像你花了很大力气去装饰一把锤子,结果发现朴素的锤子敲钉子更准。

论文里那个「只赢不亏」的发现让我印象最深。高频输入能纠正错误但不会引入新错误。这种稳赚不赔的事儿,在 AI 领域真的不多见。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧。

谢谢你看我的文章,我们,下次再见。

/ 作者:夏尔AI
/ 邮箱:435452239@qq.com


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询