微信扫码
添加专属顾问
我要投稿
斯坦福研究揭示LLM"无聊"真相:一句Prompt就能破解模式崩溃,让AI重获创造力!核心内容: 1. 模式崩溃的根源:人类偏好数据中的典型性偏差 2. 口述采样技术:无需重新训练模型的创新解决方案 3. 认知心理学视角:处理流畅性、图式一致性等机制分析
最近口述采样很火。如果您经常使用经过“对齐”训练(如RLHF)的LLM,您可能已经注意到一个现象:模型虽然变得听话、安全了,但也变得巨“无聊”。
当您让它“讲一个关于咖啡的笑话”时,它可能总是反复讲那个关于“police report”的老梗;当您让它写诗时,它总是遵循某种固定的韵律和陈词滥调。这种现象在学术界被称为“模式崩溃”(Mode Collapse)。
很多研究者认为这是算法的问题,但斯坦福的这篇论文提出了一个颠覆性的观点:这不是算法的错,而是人类偏好数据中自带的“典型性偏差”在作祟。研究者提出了一种无需重新训练模型的巧妙解法——口述采样(Verbalized Sampling, VS)。其实就一句话。你耐心看完,把它拷走。
在深入解决方案之前,我们需要先知道为什么模型会失去多样性。过去的研究往往归咎于奖励模型不够好,或者强化学习的优化过程太激进。
但这篇论文的研究者通过心理学视角和数学推导,挖出了更深层的原因。
简单来说,典型性偏差(Typicality Bias)是指:人(也就是数据标注员)在评估文本时,会下意识地更喜欢那些“眼熟”、“通顺”、“符合常规套路”的内容,而排斥那些虽然正确但略显陌生的表达。
论文指出,这种偏差并非人类故意为之,而是根植于我们的认知心理学机制。我们的大脑并不是客观的“真理检测机”,而是充满了各种省力的捷径:
处理流畅性(Processing Fluency): 如果一段信息读起来顺口、逻辑简单,大脑会自动将其感知为“更真实”、“质量更高”。
图式一致性(Schema Congruity): 如果新信息符合我们脑中已有的思维框架(比如笑话就该是“提问-回答”的格式),我们会不假思索地接受它;反之,如果信息比较新奇,我们需要消耗更多脑力去理解,从而可能产生排斥。
单纯曝光效应(Mere-exposure Effect): 我们天生倾向于对自己熟悉的事物产生好感。
这意味着,当人类标注员在快速浏览大量数据进行打分时(这是RLHF的核心步骤),他们不仅仅是在选“对”的,更是在选“像标准答案”的。
为了让您更直观地理解这一点,让我们看一个具体的例子。假设我们要训练模型讲笑话,Prompt是:“讲一个关于咖啡的笑话。”
模型生成了两个回答:
回答A(典型回答):
“为什么咖啡要去警察局备案?因为它被马克杯抢劫了(mugged)!”
特点: 这是一个非常经典的双关语笑话,结构标准,大家都听得懂,读起来毫不费力。在基座模型(Base Model)中,这种文本的生成概率很高。
回答B(非典型回答):
“意式浓缩咖啡可能解决不了你所有的问题,但值得一试。”
特点: 这是一个有点冷幽默或哲理性的句子,虽然也是好笑话,但它不符合标准的“提问-回答”模板,读起来需要多想一秒。
标注员会怎么选? 由于上述心理学机制,标注员在面对成千上万条数据时,会下意识地觉得回答A更好。因为它符合标注员对“笑话”的固有认知图式,处理起来更流畅。
于是,原本充满创意的回答B被打入冷宫,而千篇一律的回答A被奉为圭臬。
这种心理偏好在数据上留下了深刻的烙印。研究者提出了一个理论模型来描述这种带偏见的奖励函数:
这个公式说明,人类给出的奖励(r),实际上是由真实的任务效用()和典型性偏差(
)共同组成的。
研究者在HelpSteer数据集上做了一个非常硬核的验证:他们找出了数千对客观正确性完全一样的回答。结果令人震惊——即便正确性一样,人类标注员依然显著偏向于给那些“基座模型概率更高”(也就是更典型)的回答打高分。
这种偏差不仅仅是噪音,而是一个显著的正向因子(),充当了残酷的“平局决胜者”(Tie-breaker)。
如果只是数据有点偏差,问题可能还没那么严重。但当这些数据被送入 RLHF(基于人类反馈的强化学习) 算法时,灾难发生了。
论文推导指出,在KL正则化的约束下,RLHF的最优策略 会对基座模型
进行指数级的“提纯”:
其中 。这是一个幂次变换(Power Transformation)。这意味着算法会极其激进地放大人类的偏好:
多的更多: 哪怕标注员只是稍微更喜欢一点点典型的回答A,经过指数级放大后,A的生成概率会飙升。
少的更少: 那些有创意但略显生僻的回答B,概率会被极其严厉地压缩到接近于零。
模式崩溃由此诞生。 这不仅仅是训练失误,而是RLHF算法机制处理数据偏差时的必然数学结果。最终,模型学会了:“只要我输出最像标准答案的那句话,我就能拿高分。”
既然问题出在“人类喜欢典型答案”这个根源上,且被数学机制放大了,那该怎么办?
研究者提出,我们可以通过改变提问的方式(Prompting Strategy)来绕过这个限制。这就是口述采样(Verbalized Sampling, VS)。
传统的提问方式(Direct Prompting)是让模型生成一个具体的实例。但在模式崩溃的状态下,模型只会给您那个概率最高的“典型实例”。
VS的核心在于: 明确要求模型用语言描述出一个包含概率的响应分布。
让我们通过一个具体的例子来看看VS是如何操作的:
传统提问(Direct Prompting):
“讲一个关于咖啡的笑话。”
结果: 模型反复输出同一个老梗:“为什么咖啡要去警察局备案?因为它被马克杯抢劫了(mugged)!”。
口述采样(Verbalized Sampling):
“生成5个关于咖啡的笑话,并给出它们对应的概率。”
结果: 模型会列出一组笑话,并附带概率:
为什么这招有效? 研究者证明了一个关键理论:不同的提示词会坍缩到不同的“模式”上。
实例级提示(Instance-level): 坍缩到基座模型中最典型的那个实例。
分布级提示(Distribution-level,即VS): 坍缩到基座模型在预训练阶段学到的那个分布。
换句话说,VS能够唤醒模型沉睡的“潜意识”,帮它找回预训练时期那丰富多彩的记忆。
如果您想在自己的应用中复现这个效果,可以参考论文提供的标准Prompt模板(以VS-Standard为例):
System Prompt: Generate 5 responses to the user query, each within a separate <response> tag. Each <response> must include a <text> and a numeric <probability>. Please sample at random from the tails of the distribution, such that the probability of each response is less than 0.10.
</instructions>
Write a short story about a bear.
研究者还测试了两种进阶变体:
VS-CoT: 让模型先进行思维链(Chain-of-Thought)推理,再生成带概率的列表。
VS-Multi: 通过多轮对话,每一轮生成一组带概率的候选项。
您可能会问:“如果只是为了多样性,我把解码参数里的Temperature调高不就行了吗?”
论文通过消融实验给出了否定的答案。VS与温度采样是正交且互补的关系,而非替代品。
最佳实践: 在使用VS的同时适当调高温度,可以将“多样性-质量”的帕累托前沿(Pareto Front)推向极致。VS提供了结构化的多样性,而温度提供了随机性的微调,两者结合效果最好。
研究者在创意写作、对话模拟、开放问答等多个领域进行了严苛的测试。结果表明,VS不仅能大幅提升多样性,而且没有牺牲质量。
在写诗、写故事和写笑话的任务中,VS展现了压倒性的优势:
多样性得分: 相比直接提问,VS在语义多样性上提升了1.6到2.1倍。
质量保持: 通过GPT-4和Claude的评审,以及人类志愿者的盲测,VS生成的内容质量并没有下降,甚至因为更有新意而获得了更高的评价。
有趣的“涌现”现象: 模型越强,VS的效果越好。GPT-4.1和Gemini-Pro这样的大模型从VS中获得的收益,远超Mini版的小模型。这说明VS需要一定的推理能力才能驾驭。
生动案例: 在“写一个关于宇航员骑马的图像提示词”任务中:
直接提示: 总是生成“写实的沙漠背景、金色阳光”。
VS提示: 生成了“复古未来主义的霓虹沙漠”、“异想天开的水彩画风格”、“巴洛克油画风格”等极具想象力的场景。
在模拟“劝捐对话”时,直接提示的模型往往表现得像个机器人,甚至在捐款金额上都表现出极度的单一性(例如总是捐1美元)。
而使用了VS的模型:
捐款分布: 模拟出的捐款金额分布与真实人类的分布高度吻合。
行为模式: 展现出了更像人类的“讨价还价”、“拒绝”和“回心转意”的行为,而不只是机械地同意或拒绝。
这是一个非常硬核的测试。研究者问模型:“列举一个美国的州”。
直接提示: 模型疯狂输出“加利福尼亚(95%)”和“德克萨斯(4.8%)”,其他48个州仿佛不存在。
VS提示: 模型生成的概率分布,与预训练语料库(RedPajama)中各州出现的频率分布惊人地一致(KL散度仅为0.12)。
这意味着VS成功地把模型从“只会说加州”的刻板印象中解救了出来,恢复了它对真实世界的认知分布。
在用大模型生成数据来训练小模型(如Qwen2.5-7B)的实验中:
正向数据: 使用VS生成的数学题进行训练,下游模型在MATH500等基准测试上的准确率显著高于使用直接提示生成的数据。VS-Multi变体取得了最好的平均成绩(37.5% vs Direct的30.6%)。
负向数据(关键补充): 训练模型不仅需要正确的推理,还需要识别错误的推理。论文特别指出,直接提示很难生成多样化的错误路径(容易崩溃到同一种错误)。而VS可以生成覆盖面极广、有说服力的“似是而非”的错误答案。
效果: 混合VS生成的负样本进行Offline RL训练,能进一步将模型在GSM8K上的准确率从34.12% 提升至36.81%。这说明VS在构建鲁棒性训练集方面具有独特价值。
模型在从SFT(监督微调)到DPO(直接偏好优化)再到RLVR的演进过程中,通常会付出惨重的“创造力代价”。
论文的纵向分析显示:
直接提示(Direct): 随着对齐程度加深,多样性断崖式下跌,仅保留了基座模型 23.8% 的多样性。
VS方法: 表现出极强的韧性,能够保留基座模型 66.8% 的多样性。
这有力地证明了VS是对抗对齐带来的创造力损失(Alignment Tax)的有效手段。
您可能会担心:让模型变得更多样化,会不会导致它开始胡言乱语,甚至绕过安全机制输出有害内容?
研究者在StrongReject基准上测试了353个有害提示。
结果: VS的拒绝率(Refusal Rate)超过 97%,与直接提示(Direct Prompting)几乎持平。
有趣的是: 模型即使在拒绝时,也表现出了多样性。它会生成各种不同风格的拒绝语,而不是千篇一律的“我不能回答这个问题”。
在SimpleQA常识推理测试中,VS的准确率(Top@1 Accuracy和Pass@N)与最强的基线方法(CoT)相当,并没有因为追求多样性而产生更多的幻觉。
VS还带来了一个意外之喜:您可以手动调节多样性的“阀门”。
通过在Prompt中加入概率阈值限制(例如:“只采样概率小于0.1的回答”),您可以强制模型去探索那些“长尾”的、更冷门的知识领域。实验显示,随着概率阈值的降低,输出的多样性呈线性上升趋势。这是传统方法完全无法做到的。
虽然VS效果显著,但我们在应用时也必须清醒地认识到它的代价,正如论文在局限性章节所指出的:
没有免费的午餐: 要生成一个分布,VS需要让模型一次性生成 个候选项(Candidate Responses)。
计算成本激增: 相比于直接生成一个答案,VS会显著增加推理的延迟(Latency)和Token消耗量。
应用场景受限: 在对实时性要求极高或资源受限的端侧设备上,VS可能不是最佳选择。它更适合离线生成(如合成数据、辅助创作)或高价值的复杂推理场景。
这篇论文通过严谨的理论和实验,为我们揭示了LLM “变笨”的一个重要原因——为了迎合人类的典型性偏好,模型牺牲了它原本广博的可能性。
给您的建议:
如果您在实际应用中(无论是开发RPG游戏NPC、创意写作助手,还是生成合成数据)发现模型总是“车轱辘话来回说”,不妨试着改写您的Prompt:
不要只求一个答案,试着让它生成5个或10个。
强制要求输出概率,这会迫使模型调用其底层的分布知识。
尝试VS-CoT,让模型先思考再列举,效果往往更好。
这不仅是一个技术技巧,更是一种与AI交流的新哲学:与其把它当作一个只会给标准答案的搜索框,不如把它看作一个拥有丰富可能性的概率库。提示工程并没有消失,它只是简化了,可能就是一句话,但这是迈向一个新时代的开始。。。
未来已来,有缘一起同行!
<本文完结>
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-04
像水一样编程:我的 Vibe Coding 进化史与实战心法
2025-12-03
n8n一键生成验收文档和表格(excel读取任务写入word,excel)
2025-12-03
如何在Cursor、Trae等工具中使用Skills?
2025-12-03
Gemini Prompt:我把全身照发给了AI,它用“物理学”治好了我的穿搭焦虑
2025-12-02
Gemini Prompt:小红书变现达人-流量的尽头是变现
2025-12-02
如何写出完美的Prompt(提示词)?
2025-12-01
未来可能有个新职位,叫「Skill设计工程师」
2025-12-01
Prompt 的尽头不是技术,而是想明白:一份“想明白”的提问指南让AI更理解你。
2025-10-09
2025-11-14
2025-09-12
2025-10-21
2025-09-23
2025-10-13
2025-09-23
2025-09-08
2025-09-26
2025-10-30