我要投稿

让 LLM 来评判 | 设计你自己的评估 prompt

发布日期：2025-03-31 21:06:13 浏览次数： 2542

作者：Hugging Face

微信搜一搜，关注“Hugging Face”

通用 prompt 设计建议

我总结的互联网上通用 prompt 的通用设计原则如下:

任务描述清晰:

Your task is to do X (你的任务是 X).
You will be provided with Y (你拿到的信息是 Y).

评估标准精细，评分细则详尽 (如有必要)：

You should evaluate property Z on a scale of 1 - 5, where 1 means ... (根据属性 Z 的表现进行评分，评分范围为 1 - 5，其中 1 分表示 ...)
You should evaluate if property Z is present in the sample Y. Property Z is present if ... (请指出样本 Y 中是否具备属性 Z，如果具备，那么 ...)

加入一些 “推理” 评估步骤

To judge this task, you must first make sure to read sample Y carefully to identify ..., then ... (评估此任务之前，请先仔细阅读样本 Y，识别出 ...，然后再 ...)

输出格式明确 (添加特定字段可以提升一致性)

Your answer should be provided in JSON, with the following format {"Score": Your score, "Reasoning": The reasoning which led you to this score} (以 JSON 格式回答，格式为 {"Score": 评分, "Reasoning": 评分推理过程})

Prompt 书写灵感可以参考或的 prompt 模板。

其他要点:

成对比较比对输出评分，且通常更稳健
如果任务确实需要对输出评分为具体的值，建议使用整数，并详细解释，或添加说明 prompt 如 provide 1 point for this characteristic of the answer, 1 additional point if ... (回答具备某项特性得 1 分，如果 ... 再加 1 分) 等
尽量每评估一项能力就使用专门评分 prompt，会得到更好而鲁棒的结果

提升评估准确性

可以通过以下方式或技术来提升评估准确性 (有可能会增加成本):

Few-shot 示例：提供少量示例可以帮助模型理解和推理，但也会增加上下文长度。
引用参考：提供参考内容可以提高模型输出的准确性。
思维链 (CoT) ：要求模型 在评分之前 给出推理过程，可以(参考这篇)。
多轮分析：可以更好地
陪审团机制：汇总多个评价模型的结果。

使用多个小模型替代一个大模型可以大幅降低成本。
也可以使用一个模型的多个温度参数来进行多次实验。

社区意外发现，prompt 引入奖励机制 (例如：回答正确将得到一只小猫) 可以提高回答正确性。这个方法的效果视场景而异，你可以根据需求灵活调整。

注：如要减少模型偏见，可以参考社会学中的问卷设计，然后根据使用场景来书写 prompt。如想使用模型来替代人工评估，可以设计类似的评价指标：如计算标注员一致性，使用正确的问卷方法来减少偏见等。

不过在实际应用中，大多数人并不需要完全可复现且高质量无偏的评估，快速且略显粗糙的 prompt 就能满足需求。(只要知悉使用后果，这种情况也是能接受的)。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-31

写Prompt别再拽高级词汇了，用大白话效果反而更好

2026-05-30

Codex 入门最佳实践「OpenAI官方」

2026-05-29

天猫新品团队AI编码实战指南（下）

2026-05-27

我帮1000+程序员改过简历，把压箱底的提示词全公开了

2026-05-25

GPT-Image-2 提示词库：583+ 个真实可用的图像生成提示词

2026-05-25

Codex「自我蒸馏」提示词进化版！官方团队给出更强方案，一键打包你的专属工作流

2026-05-24

让你的 AI Agent更加听话

2026-05-24

高质量测试 Skill 编写手册 -- 渐进式披露

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

2026 Claude Skills 全岗位合集（新增篇）：6类全新岗位，18个高价值Agent Skill，告别无效加班

2026-03-07

OpenAI 发布 Codex 最佳实践指南：AI 编程工作流首次曝光

2026-03-13

别再裸用 Claude Code，这 20 个隐藏命令，太爽了

2026-03-18

GPT Image 2 提示词图库开源站点来了

2026-04-21

不再触发Claude使用限制，大幅降低Token的10个有效习惯！

2026-04-07

哭了！早知道这些Claude Code快捷键和命令，我能少熬80%的夜！

2026-03-05

TRAE 技术专家推荐：6个技巧让你的 Agent 更听话

2026-03-16

Claude Code终极指令速查表

2026-03-26

7 个 Karpathy 式提示词，让 Claude 变成你的研究员、工程师和思考搭档

2026-03-26

我逆向了 329 条 GPT-Image2 提示词模板，全部开源！

2026-04-25

大家都在问

Search Agent 要如何构造复杂有效的Query？

2026-05-23

写给产品经理的"AI工程"指南：提示词工程、上下文工程、Harness 工程到底是啥？

2026-05-16

AI 工程化实战：如何像设计函数参数一样设计 System Prompt？

2026-04-14

Google说只有5%的人真正会用AI，他们做对了什么？

2026-02-28

Prompt caching 技术是如何实现 1 折的推理成本优化的？

2026-02-12

几句话就能复刻一个付费Skill，Skills商店还能卖什么？

2026-02-12

从 Prompt 到 Skills：如何把业务流程切开，塞进AI的“技能槽”里？

2026-02-08

Prompt 的本质是“思维压缩包”：如何从结果中反推创作者的认知模型？

2026-02-05

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部