我要投稿

我把Prompt优化效果从2.8分提到4.7分，只用了这套“工程化”流程

发布日期：2025-06-20 12:47:22 浏览次数： 2172

作者：林生说AI

微信搜一搜，关注“林生说AI”

如果你和我一样，是个天天和AI打交道的人，那你一定懂这种感觉：

你花了大半天，精心写出了一版自认为完美的Prompt，前两次测试效果惊艳，心里刚想这下稳了，可以摸会鱼了，结果多跑几次，AI的回答就开始飘忽不定，不像预期的那么稳定。

更要命的是，老板让你优化一下核心业务的Prompt，你对着那几百行的文本，小心翼翼地改了几个词。到底是变好了还是变坏了？全凭“感觉”。最终上线哪个版本会有最好的效果，自己心里也没有底，只期望不要出什么问题就行。

同样的，在提示词相关的文件夹里，是不是都躺着关于同一提示词的多个演进版本：prompt_v1.txt, prompt_v2_final.txt, prompt_v3_really_final.txt...

这些痛点，本质上是因为我们一直把Prompt当成一种“手艺活”，充满了不确定性。我们缺的，是一套能衡量、能管理、能迭代的“工程方法”。

直到最近，我找到了火山引擎的PromptPilot^[1]这个网站。它给我的感觉，就像是把Prompt开发从一个不确定性且极度依赖直觉的工作，变成了可量化、可习得、可演进和管理的“工程”。

废话不多说，我将用一个我打磨了很久的“电信智能客服”真实案例，带你完整走一遍，如何用“工程化”的思路，将一个平平无奇的Prompt，调优成一个专业、稳定、可堪大用的“金牌客服”。

第一步：从一个简单的想法开始

我们的需求很明确：开发一款中国电信的智能客服，期望能处理服务故障、话费查询等常见问题。

好了，接到需求之后。我们先打开 PromptPilot 的网站，会看到如下界面：

我们点击 “帮我生成一个Prompt” 按钮，进行页面跳转，同样的跳转之后你可以自定义对你提示词进行测试的大模型：

好了，接下来是提示词编写。既然这工具是帮助我们写提示词的，那么我就先简单的描述一下该机器人的定位：

点击确认之后，它就生成了优化之后的提示词：

我们点击“继续调试 Prompt” 按钮，会让我们进行调试模式的选择：

通常如果想更精准的调试提示词的话，就选择“评分模式”就行：

我们直接依次点击“AI生成变量内容”，“生成模型回答”，来看看效果：

从图中我们可以看到，我连续问了两个问题：

1. 我的手机突然没信号了，这是什么原因？
2. 那哪里算是开阔位置？

这两个问题其实是承上启下的，第二个问题是基于第一个的回答来接着问的，理论上大模型应该能回答的，它此时却不能很好的回答，说明在没有干预情况下自动生成的 Prompt 不够好，得人工进行干预，继续进行优化。

第二步：搭建骨架，让AI“知道自己是谁，知道如何回答”

我们点击“优化你的Prompt”按钮，来对提示词进行优化：

点击“优化”，它会自动生成优化后的提示词：

我们可以继续点击“优化你的Prompt”按钮，来对提示词进行优化,也可以在 {{QUESTION}} 中输入问题，来测试优化后的提示词。

如此反复，可以得到比较好的提示词效果。

现在再看，是不是像模像样了？V3版本有了基本的角色认知，不会再胡说八道了。但当我以为大功告成时，现实又给了我一击。

一上强度，它就“露馅”了。比如我问处理宽带报障相关问题时，它只会简单的方案，不懂得通过多轮追问来定位复杂问题。

它的回答只能说算是“对”，但还远远“不够好”。

第三步：引入度量，从“感觉”到“数据”的进化

V3版本的问题根源在于，我们对“好”的定义，依然停留在模糊的感觉层面。要让AI真正进化，就必须让它知道什么才是“好”，而且要能给它的表现打分。

这正是PromptPilot最强大的地方：系统化的调优与评估。我的操作是这样的：

1. 建立一个“考纲”——评测集

我没有几百上千条标注数据，没关系。我先在PromptPilot里新建了一个“评测集”，然后手动添加了几个最核心、最典型的用户问题作为“种子样本”，比如“查询本月话费”、“宽带时断时续”、“怎么改WiFi密码”等，并为每个问题都精心撰写了最完美的标准答案。

2. 定义“评分标准”——量化好坏

接下来是关键一步：量化评估。我使用了PromptPilot的“评分模式”。

比如，对于“查询话费”这个场景，一个回答如果正确提供了话费，但忘了验证用户身份，那它就不是一个满分答案。我就可以给它打3分（满分5分）。如果它既验证了身份，又提供了详细的话费构成，最后还引导用户评价，那这就是一个完美的5分答案。

这样一来，每个回答的好坏，就从一个模糊的“感觉”，变成了一个可以比较的、明确的数字。

3. “智能优化”与“手动迭代”双管齐下

有了带分数的“考纲”（评测集），进化就可以开始了。

我启动了PromptPilot的“智能优化”功能。它会自动用评测集里的所有问题去“拷问”我的V3版Prompt，然后分析那些低分回答的共性问题，并尝试生成一个它认为能得更高分的新版本Prompt。

同时，我也没闲着。我将V3版本中缺失的、具体的业务流程和话术，比如“话费查询的具体步骤”、“宽带报障的追问逻辑”、“合规性检查的强化要求”等，一条条手动补充和细化，与AI生成的新版本融合，最终形成了我们的V3终极版。

最后，我们将V3版本的Prompt，在同一个评测集上重新跑了一遍。

结果非常惊人！PromptPilot生成了一份清晰的优化报告，V3版本在评测集上的平均分，从V2的2.8分（及格线挣扎）飙升到了4.7分（优秀）！

至此，我认为这个提示词已经很棒了，能够应对绝大多数的场景。同时，我能明确地、有数据支撑地告诉老板：“新版本比旧版本效果提升了67%！我这有数据支撑！”。因为每一次的优化不再是仅凭感觉，而是有据可查、可度量的进化。

总结一下

回顾整个过程，PromptPilot帮我解决了三个核心痛点：

• 从“模糊”到“精确”： 通过结构化调试，让Prompt意图清晰，有章可循。
• 从“感觉”到“数据”： 通过评测集和评分机制，让优化效果可度量、可比较。
• 从“混乱”到“有序”： 通过版本管理和优化报告，让迭代过程可控、可追溯。

它真正把Prompt的生命周期，变成了一套严谨、高效的系统工程。这对于每一个想开发可靠、高质量AI应用的人来说，价值不言而喻。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-10

终于用上了Google 的Antigravity，体验一把最新的Skills吧！

2026-02-10

MSE Nacos Prompt 管理：让 AI Agent 的核心配置真正可治理

2026-02-06

Claude Code Skill 开发完全指南：从入门到精通

2026-02-05

业务稳定造就大模型的降本增效？Claude 核心能力拆解（一）

2026-02-05

Prompt 的本质是“思维压缩包”：如何从结果中反推创作者的认知模型？

2026-02-04

Agent Skills 终极指南：从零到精通

2026-02-04

AI 原生研发范式：从“代码中心”到“文档驱动”的演进

2026-02-03

一文看懂现在最火的Agent Skills：自动化的提示词工程

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Gemini 3 提示词最佳实践指南

2025-11-20

别再问“怎么写 Skill.md”了，直接抄生产级的Skills 库

2026-01-04

一文带你看懂，火爆全网的Skills到底是个啥。

2026-01-13

关于智能体（AI Agent）最常用框架，做了超详细的总结！

2025-11-15

这个大师级Prompt，你一定要用起来

2025-11-15

Spec Kit 实践：从 Prompt 工程到规范驱动开发

2025-12-02

Prompt Engineering 最佳实践：一份全面的实战指南

2025-11-16

一份把 GPT-5.1 用到极致的实战提示词大全

2025-11-15

Cursor、CC、Codex 直接用！上下文工程 Agent Skills 来了，一周狂揽 4k Star

2026-01-10

永远不要自己写 Skill，除非你看完这一篇——深度拆解 Claude 官方 Skills [附清单下载]

2025-12-07

大家都在问

Prompt 的本质是“思维压缩包”：如何从结果中反推创作者的认知模型？

2026-02-05

Skills 真能取代 MCP 和 Prompts 吗？

2026-01-23

如何编写和部署Agent SKill？

2026-01-19

SDD 如何在复杂业务系统中真正落地？

2026-01-19

万物皆可 Prompt：AI 巨头们是在发明技术，还是在发明名词？

2026-01-15

别再把 Prompt 写死在代码里了：如何构建动态模板库？

2026-01-05

给你的 Agent 招个“前台”：如何用 Router 模式解决工具调用的混乱？

2025-12-30

如何评估与优化提示词？

2025-12-26

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean