我要投稿

沃顿商学院重磅Prompt报告：别再对AI"循循善诱"了！我们在错误地使用它！

发布日期：2025-06-10 04:26:14 浏览次数： 1961

作者：AI修猫Prompt

微信搜一搜，关注“AI修猫Prompt”

宾夕法尼亚大学沃顿商学院生成式AI实验室刚刚发布了两份重磅研究报告，通过严格的科学实验揭示了一个令人震惊的事实：我们可能一直在用错误的方式与AI对话。这不是胡说八道，而是基于近4万次实验得出的硬核数据推理的结论。

核心发现预告
基于近4万次实验的硬核数据
礼貌用语效果完全不可预测
Chain of Thought正在成为"鸡肋"
单次测试严重高估模型可靠性
格式化约束是唯一确定有效的优化手段

? 发现一：礼貌用语竟然可能让AI表现更差

实验揭秘：对AI说"请"真的有用吗？

你是否也在prompt中习惯性地加上"请"字？沃顿团队用GPT-4o和GPT-4o-mini做了一个让人大跌眼镜的实验。

实验设计：

测试模型： GPT-4o 和 GPT-4o-mini
测试题目： 198道博士级别理科题目
测试次数： 每题100次重复测试
对比条件： "请回答以下问题" vs "我命令你回答以下问题"

震撼结果：

影响类型	提升幅度	降低幅度	整体效果
正面影响	+60%	-	部分问题显著提升
负面影响	-	-60%	部分问题显著下降
整体表现	-	-	几乎相互抵消

关键发现
花时间琢磨的那些"温柔"提示词，可能根本没有想象的那么重要。其实之前也有研究论述这个命题，您可以看下文末。

单个问题层面的巨大差异

更令人困惑的是，研究发现prompt的效果在单个问题层面存在巨大差异，但在整体数据集上这些差异会被抵消。

实际场景模拟：

查询A： 礼貌提示让准确率从30%提升到90%
查询B： 同样的礼貌提示让准确率从80%降到20%

警告
这种不可预测性对于需要稳定表现的AI项目而言，会是一场噩梦。

图表解读： 这张图展示了GPT-4o在"请"和"我命令你"两种提示方式下的前10大差异问题。看那些正负60%的差异！这种剧烈波动完全无法预测，说明礼貌用语的效果高度依赖具体问题。

? 发现二：Chain of Thought可能正在成为"鸡肋"

非推理模型：CoT的双刃剑效应

如果你以为Chain of Thought（让AI"一步步思考"）是万能神器，那就大错特错了。

测试模型：

GPT-4o、Sonnet 3.5、Gemini Flash 2.0、GPT-4o-mini、Gemini Pro 1.5

核心发现：

评估标准	CoT效果	具体表现
平均表现	✅ 提升	小幅提升整体准确率
100%正确率	❌ 下降	5个模型中3个表现下降
副作用	⚠️ 增加变异性	简单题目出现新错误

典型案例：Gemini Flash 2.0

平均准确率：+13.5%
完美答题数量：-13.1%

重要洞察
CoT虽然让AI在难题上表现更好，但同时让它在简单题目上出现了原本不会犯的错误。

图表解读： 这个对比清楚展示了CoT的"双刃剑"效应。看蓝色条（直接回答）vs橙色条（CoT）：在平均表现上CoT确实有提升，但在100%正确率标准下，多数模型的表现反而下降了！

推理模型：CoT几乎毫无价值

对于专门设计的推理模型（如o3-mini、o4-mini），CoT的效果更是微乎其微。

性能提升对比：

模型	平均准确率提升	响应时间增加	成本效益评估
o3-mini	+2.9%	+20-80%	❌ 不划算
o4-mini	+3.1%	+20-80%	❌ 不划算
Gemini Flash 2.5	-3.3%	+20-80%	❌ 负收益

成本警告
微不足道的提升是否值得付出如此高昂的成本代价？

图表解读： 推理模型的表现对比几乎让人怀疑数据是否有误！蓝色和橙色条之间的差异小到几乎看不出来，这就是花费额外20-80%时间和成本换来的"提升"。

? 发现三：我们的评估方法可能根本就是错的

单次测试的巨大欺骗性

绝大多数开发者在测试Agent性能时，都是让模型回答一遍就得出结论。但沃顿研究显示，这种做法可能严重高估了模型的可靠性。

GPT-4o在最严格标准下的表现：

只比随机猜测好5个百分点
这个差异在统计学上甚至不显著

现实场景警告
如果一个AI产品在Demo演示时表现完美，但实际部署后却频繁出错，这种落差足以摧毁用户信心。

三种评估标准的天壤之别

研究团队建立了三种评估标准，同一个模型的表现可能完全不同：

评估标准	要求	GPT-4o表现
100%正确	25次测试全对	几乎与瞎猜无异
90%正确	25次中对23次	中等表现
51%正确	25次中对13次以上	显著超越随机猜测

图表解读： 从这个对比图可以清楚看到，同一个模型在不同评估标准下的表现差异巨大。注意看100%正确率条件下，两个模型的表现都非常接近随机猜测的25%基线。

✅ 唯一确定有效：格式化约束

为什么去掉格式化会让AI"发疯"

在所有测试的prompt技巧中，只有格式化约束表现出了一致的正面效果。

格式化约束测试：

标准格式要求：
"请按以下格式回答：'正确答案是（填入答案）'"

去除格式要求：
移除所有格式化指令，让AI自由回答

性能下降数据：

GPT-4o：下降 8.6个百分点
GPT-4o-mini：下降 12.1个百分点

核心启示
与其花时间琢磨各种花哨的提示技巧，不如专注于设计清晰明确的输出格式要求。

结构化输出的实际价值

格式化约束之所以有效，原因如下：

聚焦注意力 - 帮助模型将注意力聚焦在任务核心上
减少随意性 - 降低输出的不确定性
提高一致性 - 确保响应格式的标准化

实际应用建议：

// 推荐：明确的JSON格式要求
{
  "answer": "具体答案",
  "confidence": "0.0-1.0",
  "reasoning": "简要推理过程"
}

总结
一个明确的JSON格式要求，比十个"请"字更能保证AI的稳定表现。

? 现代模型的内置推理能力正在改变游戏规则

默认行为的根本性变化

许多现代模型即使没有明确的CoT提示，也会自动进行某种形式的逐步推理。

对比实验结果：

模型	CoT vs 直接回答	CoT vs 默认行为	效果变化
Sonnet 3.5	+11.7%	-1.9%	大幅缩水
其他模型	有提升	微弱提升	普遍缩水

重要发现
模型本身已经具备了相当强的推理能力，外部的CoT提示反而可能是多余的。

图表解读： 现代模型已经"聪明"到不需要你教它怎么思考了！这张图对比了模型自然状态（蓝色）vs被明确要求CoT（橙色）的表现。看看那些微不足道的差异，你还觉得CoT提示有必要吗？

Agent开发的新思路

这个发现为Agent开发带来了全新的思路：

传统方式：

请一步步思考这个问题：
1. 首先分析...
2. 然后考虑...
3. 最后得出结论...

推荐方式：

请分析以下问题并按JSON格式返回结果：
{任务描述 + 格式要求}

核心理念
现代大模型就像一个已经受过良好训练的员工，只需要给他明确的任务目标和输出要求，不需要再手把手教他如何思考了。

? 成本效益分析：时间就是金钱

CoT的隐性成本计算

响应时间增加统计：

模型类型	时间增加幅度	实际延迟
非推理模型	35-600%	5-15秒
推理模型	20-80%	10-20秒

成本计算示例：

假设场景：Agent每天处理1万次查询
CoT额外时间成本：25-150万秒/天
准确率提升：仅2-3%
结论：ROI极低

成本警告
对于需要实时响应的Agent应用来说，这种延迟可能是致命的。

图表解读： 时间成本的残酷真相！看那些黄色条（CoT）相比蓝色条（直接回答）的巨大差异。Gemini Pro 1.5的CoT响应时间几乎是直接回答的6倍！这就是你为那点微不足道的准确率提升付出的代价。

精准的ROI计算框架

作为Agent开发者，你需要建立精确的ROI计算框架：

评估维度：

准确率提升 - 实际业务价值
响应时间 - 用户体验成本
Token消耗 - 直接经济成本
开发维护 - 间接成本

决策公式：

ROI = (准确率提升带来的价值) / (时间成本 + 经济成本 + 维护成本)

?️ 给Agent开发者的实战建议

重新设计你的测试流程

停止的做法：

❌ 单次测试评估性能
❌ 只关注平均表现
❌ 忽视可靠性边界

推荐的做法： ✅ 每个关键功能至少测试25次
✅ 建立多层次评估标准
✅ 记录性能变异范围

评估标准分配：

功能类型	推荐标准	应用场景
关键业务逻辑	100%正确	金融计算、安全认证
一般查询	90%正确	常规问答、信息检索
辅助功能	51%正确	推荐系统、创意辅助

优化策略的重新排序

新的优先级排序：

? 第一优先级：输出格式清晰明确

设计标准化JSON模板
明确字段要求和约束
统一错误处理格式

? 第二优先级：根据模型类型决定CoT使用

现代大模型：通常不需要
早期模型：可考虑使用
特定任务：基于实测决定

? 第三优先级：prompt用词优化

明确效果高度依赖场景
避免过度优化陷阱
专注于清晰表达

重要：
一个结构清晰的系统提示比十个精雕细琢的用户提示更重要。

建立场景化的优化体系

不同场景的策略矩阵：

应用场景	核心要求	优化重点	避免陷阱
金融计算	绝对准确性	格式化约束 + 多次验证	避免创意性提示
客服对话	快速响应	简洁直接提示	避免复杂CoT
创意任务	灵活性	适度开放性	避免过度约束
代码生成	结构化输出	明确格式要求	避免模糊指令