我要投稿

斯坦福用一句Prompt就结束了提示工程。。。

发布日期：2025-12-03 20:49:22 浏览次数： 1548

作者：AI修猫Prompt

微信搜一搜，关注“AI修猫Prompt”

最近口述采样很火。如果您经常使用经过“对齐”训练（如RLHF）的LLM，您可能已经注意到一个现象：模型虽然变得听话、安全了，但也变得巨“无聊”。

当您让它“讲一个关于咖啡的笑话”时，它可能总是反复讲那个关于“police report”的老梗；当您让它写诗时，它总是遵循某种固定的韵律和陈词滥调。这种现象在学术界被称为“模式崩溃”（Mode Collapse）。

很多研究者认为这是算法的问题，但斯坦福的这篇论文提出了一个颠覆性的观点：这不是算法的错，而是人类偏好数据中自带的“典型性偏差”在作祟。研究者提出了一种无需重新训练模型的巧妙解法——口述采样（Verbalized Sampling, VS）。其实就一句话。你耐心看完，把它拷走。

什么造成“千篇一律”？

在深入解决方案之前，我们需要先知道为什么模型会失去多样性。过去的研究往往归咎于奖励模型不够好，或者强化学习的优化过程太激进。

但这篇论文的研究者通过心理学视角和数学推导，挖出了更深层的原因。

典型性偏差

简单来说，典型性偏差（Typicality Bias）是指：人（也就是数据标注员）在评估文本时，会下意识地更喜欢那些“眼熟”、“通顺”、“符合常规套路”的内容，而排斥那些虽然正确但略显陌生的表达。

论文指出，这种偏差并非人类故意为之，而是根植于我们的认知心理学机制。我们的大脑并不是客观的“真理检测机”，而是充满了各种省力的捷径：

处理流畅性（Processing Fluency）： 如果一段信息读起来顺口、逻辑简单，大脑会自动将其感知为“更真实”、“质量更高”。
图式一致性（Schema Congruity）： 如果新信息符合我们脑中已有的思维框架（比如笑话就该是“提问-回答”的格式），我们会不假思索地接受它；反之，如果信息比较新奇，我们需要消耗更多脑力去理解，从而可能产生排斥。
单纯曝光效应（Mere-exposure Effect）： 我们天生倾向于对自己熟悉的事物产生好感。

这意味着，当人类标注员在快速浏览大量数据进行打分时（这是RLHF的核心步骤），他们不仅仅是在选“对”的，更是在选“像标准答案”的。

举个栗子：为什么“老梗”总能赢？

为了让您更直观地理解这一点，让我们看一个具体的例子。假设我们要训练模型讲笑话，Prompt是：“讲一个关于咖啡的笑话。”

模型生成了两个回答：

回答A（典型回答）：

“为什么咖啡要去警察局备案？因为它被马克杯抢劫了（mugged）！”

特点： 这是一个非常经典的双关语笑话，结构标准，大家都听得懂，读起来毫不费力。在基座模型（Base Model）中，这种文本的生成概率很高。

回答B（非典型回答）：

“意式浓缩咖啡可能解决不了你所有的问题，但值得一试。”

特点： 这是一个有点冷幽默或哲理性的句子，虽然也是好笑话，但它不符合标准的“提问-回答”模板，读起来需要多想一秒。

标注员会怎么选？ 由于上述心理学机制，标注员在面对成千上万条数据时，会下意识地觉得回答A更好。因为它符合标注员对“笑话”的固有认知图式，处理起来更流畅。

于是，原本充满创意的回答B被打入冷宫，而千篇一律的回答A被奉为圭臬。

数据的“平局决胜”效应：即使正确，也要选“典型”

这种心理偏好在数据上留下了深刻的烙印。研究者提出了一个理论模型来描述这种带偏见的奖励函数：

这个公式说明，人类给出的奖励（r），实际上是由真实的任务效用（ $r_{true}$ ）和典型性偏差（ $\alpha \log \pi_{ref}$ ）共同组成的。

研究者在HelpSteer数据集上做了一个非常硬核的验证：他们找出了数千对客观正确性完全一样的回答。结果令人震惊——即便正确性一样，人类标注员依然显著偏向于给那些“基座模型概率更高”（也就是更典型）的回答打高分。

这种偏差不仅仅是噪音，而是一个显著的正向因子（ $\alpha > 0$ ），充当了残酷的“平局决胜者”（Tie-breaker）。

4. 数学的必然：RLHF如何放大偏差

如果只是数据有点偏差，问题可能还没那么严重。但当这些数据被送入 RLHF（基于人类反馈的强化学习） 算法时，灾难发生了。

论文推导指出，在KL正则化的约束下，RLHF的最优策略 $\pi^*$ 会对基座模型 $\pi_{ref}$ 进行指数级的“提纯”：

其中 $\gamma > 1$ 。这是一个幂次变换（Power Transformation）。这意味着算法会极其激进地放大人类的偏好：

多的更多： 哪怕标注员只是稍微更喜欢一点点典型的回答A，经过指数级放大后，A的生成概率会飙升。
少的更少： 那些有创意但略显生僻的回答B，概率会被极其严厉地压缩到接近于零。

模式崩溃由此诞生。 这不仅仅是训练失误，而是RLHF算法机制处理数据偏差时的必然数学结果。最终，模型学会了：“只要我输出最像标准答案的那句话，我就能拿高分。”

解决方案：口述采样（Verbalized Sampling）

既然问题出在“人类喜欢典型答案”这个根源上，且被数学机制放大了，那该怎么办？

研究者提出，我们可以通过改变提问的方式（Prompting Strategy）来绕过这个限制。这就是口述采样（Verbalized Sampling, VS）。

1. 核心理念：不要只问“一个”，要问“分布”

传统的提问方式（Direct Prompting）是让模型生成一个具体的实例。但在模式崩溃的状态下，模型只会给您那个概率最高的“典型实例”。

VS的核心在于： 明确要求模型用语言描述出一个包含概率的响应分布。

2. 操作实例：从“讲笑话”看区别

让我们通过一个具体的例子来看看VS是如何操作的：

传统提问（Direct Prompting）：

“讲一个关于咖啡的笑话。”

结果： 模型反复输出同一个老梗：“为什么咖啡要去警察局备案？因为它被马克杯抢劫了（mugged）！”。

口述采样（Verbalized Sampling）：

“生成5个关于咖啡的笑话，并给出它们对应的概率。”

结果： 模型会列出一组笑话，并附带概率：

“Espresso可能解决不了你的问题，但这值得一试。（概率：0.12）”
“404错误：未找到咖啡。（概率：0.07）”
“拿铁为什么要去看心理医生？（概率：0.15）” ...

为什么这招有效？ 研究者证明了一个关键理论：不同的提示词会坍缩到不同的“模式”上。

实例级提示（Instance-level）： 坍缩到基座模型中最典型的那个实例。
分布级提示（Distribution-level，即VS）： 坍缩到基座模型在预训练阶段学到的那个分布。

换句话说，VS能够唤醒模型沉睡的“潜意识”，帮它找回预训练时期那丰富多彩的记忆。

3. 具体的Prompt写法

如果您想在自己的应用中复现这个效果，可以参考论文提供的标准Prompt模板（以VS-Standard为例）：

System Prompt: Generate 5 responses to the user query, each within a separate <response> tag. Each <response> must include a <text> and a numeric <probability>. Please sample at random from the tails of the distribution, such that the probability of each response is less than 0.10.

</instructions>

Write a short story about a bear.

研究者还测试了两种进阶变体：

VS-CoT： 让模型先进行思维链（Chain-of-Thought）推理，再生成带概率的列表。
VS-Multi： 通过多轮对话，每一轮生成一组带概率的候选项。

4. 关键辨析：VS不是简单的“提高温度”

您可能会问：“如果只是为了多样性，我把解码参数里的Temperature调高不就行了吗？”

论文通过消融实验给出了否定的答案。VS与温度采样是正交且互补的关系，而非替代品。

单纯调高温度往往会导致模型胡言乱语，质量下降。
最佳实践： 在使用VS的同时适当调高温度，可以将“多样性-质量”的帕累托前沿（Pareto Front）推向极致。VS提供了结构化的多样性，而温度提供了随机性的微调，两者结合效果最好。

实战效果如何？全方位评测

研究者在创意写作、对话模拟、开放问答等多个领域进行了严苛的测试。结果表明，VS不仅能大幅提升多样性，而且没有牺牲质量。

1. 创意写作：多样性翻倍

在写诗、写故事和写笑话的任务中，VS展现了压倒性的优势：

多样性得分： 相比直接提问，VS在语义多样性上提升了1.6到2.1倍。
质量保持： 通过GPT-4和Claude的评审，以及人类志愿者的盲测，VS生成的内容质量并没有下降，甚至因为更有新意而获得了更高的评价。
有趣的“涌现”现象： 模型越强，VS的效果越好。GPT-4.1和Gemini-Pro这样的大模型从VS中获得的收益，远超Mini版的小模型。这说明VS需要一定的推理能力才能驾驭。

生动案例： 在“写一个关于宇航员骑马的图像提示词”任务中：

直接提示： 总是生成“写实的沙漠背景、金色阳光”。
VS提示： 生成了“复古未来主义的霓虹沙漠”、“异想天开的水彩画风格”、“巴洛克油画风格”等极具想象力的场景。

2. 对话模拟：更像真人的谈判

在模拟“劝捐对话”时，直接提示的模型往往表现得像个机器人，甚至在捐款金额上都表现出极度的单一性（例如总是捐1美元）。

而使用了VS的模型：

捐款分布： 模拟出的捐款金额分布与真实人类的分布高度吻合。
行为模式： 展现出了更像人类的“讨价还价”、“拒绝”和“回心转意”的行为，而不只是机械地同意或拒绝。

3. 开放式问答：重现真实世界分布

这是一个非常硬核的测试。研究者问模型：“列举一个美国的州”。

直接提示： 模型疯狂输出“加利福尼亚（95%）”和“德克萨斯（4.8%）”，其他48个州仿佛不存在。
VS提示： 模型生成的概率分布，与预训练语料库（RedPajama）中各州出现的频率分布惊人地一致（KL散度仅为0.12）。

这意味着VS成功地把模型从“只会说加州”的刻板印象中解救了出来，恢复了它对真实世界的认知分布。

4. 合成数据生成

在用大模型生成数据来训练小模型（如Qwen2.5-7B）的实验中：

正向数据： 使用VS生成的数学题进行训练，下游模型在MATH500等基准测试上的准确率显著高于使用直接提示生成的数据。VS-Multi变体取得了最好的平均成绩（37.5% vs Direct的30.6%）。
负向数据（关键补充）： 训练模型不仅需要正确的推理，还需要识别错误的推理。论文特别指出，直接提示很难生成多样化的错误路径（容易崩溃到同一种错误）。而VS可以生成覆盖面极广、有说服力的“似是而非”的错误答案。
效果： 混合VS生成的负样本进行Offline RL训练，能进一步将模型在GSM8K上的准确率从34.12% 提升至36.81%。这说明VS在构建鲁棒性训练集方面具有独特价值。