我要投稿

YC 揭秘顶尖 AI 智能体 Prompt 工程：不再是「黑箱」，而是可进化的「代码」与「员工」

发布日期：2025-06-07 12:53:22 浏览次数： 2018

作者：AI科技前哨站

微信搜一搜，关注“AI科技前哨站”

Prompt 被视为大语言模型的「咒语」，已经演变为与 AI 交互的核心，成为构建高效、可靠 AI 应用的关键环节。

最近，在 YC 的 Lightcone 的播客节目中，来自 AI 创投和技术前沿的专家 Garry, Harj, Diana, 和 Jared 深入剖析了他们在与数百名 LLM 领域创始人合作过程中积累的宝贵经验。

他们探讨了为何 Prompt 依然至关重要，它在哪些环节容易失效，以及顶尖团队是如何在生产环境中提升其可靠性的。他们不仅分享了 Prompt 失败的真实案例，还揭示了公司如何进行质量测试，以及优秀团队如何使 LLM 的输出变得实用且可预测。

ParaHelp 实战：六页 Prompt 只为客服智能体更「懂」你

要理解当前最先进的 Prompt 工程，不妨从一个具体的例子入手。AI 客服公司 ParaHelp 为 Perplexity、Replika、Bolt 等知名 AI 公司提供客户支持服务，其 AI 智能体背后正是由精心设计的 Prompt 驱动。ParaHelp 慷慨地公开了其核心 Prompt 之一，让我们得以一窥究竟。

这份 Prompt 首先给人的印象是「长」和「细致」，展开足有六页之多。其核心设计理念包括：

角色设定 (Role Setting)：明确告知 LLM 其扮演的角色，例如「你是一名客服坐席的经理」。并用项目符号详细列出其职责。
任务定义 (Task Definition)：清晰说明需要完成的任务，比如「批准或拒绝一个工具调用」。
分步计划 (Step-by-Step Plan)：将任务拆解为具体的步骤，如步骤 1、2、3、4、5。
行为约束 (Constraints)：明确指出在执行任务时需要注意的关键点，例如不能随意调用未授权的工具。
结构化输出 (Structured Output)：规定输出的格式，以便于不同智能体之间的协作和 API 调用。ParaHelp 的 Prompt 要求以特定格式（如接受或拒绝）输出，以便进行后续处理。
Markdown 风格排版：使用 Markdown 格式（如标题、子标题、项目符号）来组织 Prompt 内容，使其更易读、更清晰。
推理逻辑 (Reasoning)：最优秀的 Prompt 会阐述如何思考和推理任务。
XML 标签格式：在 Prompt 中使用类似 XML 的标签来指定计划和步骤。研究发现，由于许多 LLM 在 RLHF (Reinforcement Learning from Human Feedback) 阶段接触过类似 XML 的输入，这种格式能让 LLM 更易遵循，并产生更好的结果。ParaHelp 的规划 Prompt 中就使用了 , , , , 等标签。
条件逻辑 (Conditional Logic)：通过标签实现条件判断，使得智能体能够根据不同情况执行不同的步骤。有趣的是，ParaHelp 特意不让模型使用「else」块，而是要求为每条路径定义明确的「if」条件，他们发现这能提升评估中的性能。
变量引用：允许模型在规划步骤时使用变量名（如代表工具调用结果，{{policy_variable}} 代表特定策略中的变量），这样模型可以在不知道具体输出值的情况下规划跨多个工具调用的流程。

这类为垂直领域 AI 智能体设计的 Prompt 通常被视为公司的核心知识产权。他还指出，实际应用中，Prompt 会分为不同层次：

系统 Prompt (System Prompt)：定义公司运营的高级 API，如 ParaHelp 展示的这个通用框架。
开发者 Prompt (Developer Prompt)：针对特定客户或场景进行定制，包含具体上下文信息，例如为 Perplexity 处理 RAG 问题的方式可能与 Bolt 不同。
用户 Prompt (User Prompt)：由终端用户直接输入，例如在 Replika 中用户输入「帮我生成一个包含这些按钮的网站」。ParaHelp 的产品形态决定了它可能没有直接的用户 Prompt。

围绕 Prompt 工程的工具开发存在大量创业机会，例如自动从客户数据集中提取最佳范例并集成到 Prompt 工作流中，从而避免手动操作。

元提示 (Metaprompting)：让 Prompt 自我进化

一个令人兴奋的趋势是「元提示」(Metaprompting)。Garry 将其比作 1995 年的编程，工具尚不完善，但潜力巨大。元提示的核心思想是让 Prompt 动态地生成自身更好的版本。

Prompt 折叠 (Prompt Folding)：一个分类器 Prompt 可以根据前一个查询动态生成一个更专业的 Prompt。
利用失败案例改进：可以将导致 Prompt 失效的案例反馈给 LLM，让它帮助改进原 Prompt。由于 LLM 对自身「更了解」，这种方式非常有效。
扮演专家角色：一个简单的元提示技巧是，让 LLM 扮演「Prompt 工程专家」，然后输入你自己的 Prompt，它会给出详细的改进建议。Harj 表示，可以持续迭代这个过程。
大模型优化，小模型执行：Diana 提到，一些公司会用更强大的模型（如 Claude 3 Opus 或 GPT-4）进行元提示，优化得到一个高质量 Prompt 后，再将其用于更小、更快的模型。这对于需要低延迟的语音 AI 智能体尤为重要，以通过「图灵测试」的感觉。

高质量范例的力量

除了元提示，提供高质量范例也是提升 LLM 输出的关键。比如一家名为 Jazzberry 的公司，通过向 LLM 输入大量只有专家级程序员才能解决的复杂代码缺陷（如 N+1 查询）范例，来训练模型自动发现代码中的 Bug。

这种「授之以渔不如授之以例」的方法，能帮助 LLM 理解和处理难以用文字精确描述的复杂任务，类似于编程中的「测试驱动开发」(TDD)。

如何避免 LLM 一本正经地胡说八道

LLM 有时会为了满足输出格式要求而「一本正经地胡说八道」，即产生幻觉。因此，必须为 LLM 提供一个「逃生出口」(escape hatch)。

明确告知「我不知道」：需要告诉 LLM，如果信息不足以做出判断，就不要臆造，而是停下来询问。
「抱怨」机制：YC 内部的一个创新方法是，在 LLM 的响应格式中增加一个「调试信息」(debug info) 参数，允许 LLM 向开发者「抱怨」输入信息模糊或不充分。这会形成一个待办事项列表，指导开发者改进 Prompt。

评估 (Evals) 为王：真正的护城河所在

尽管 Prompt 本身非常重要，但评估 (Evals) 才是这些 AI 公司真正的「皇冠上的明珠」和数据资产。ParaHelp 之所以愿意公开其 Prompt，部分原因在于他们认为，没有评估，就无法理解 Prompt 为何这样设计，也难以对其进行改进。

Garry 对此深表赞同，他认为，对于垂直领域的 AI 和 SaaS 公司而言，获取高质量评估数据的能力至关重要。这需要深入理解特定用户的真实工作流程，例如，「你必须亲自坐在内布拉斯加州的拖拉机销售区域经理旁边，了解他关心什么，他的激励机制是什么，他如何处理发票和保修问题。」将这些一手观察转化为具体的评估标准，才是真正的价值所在，也是初创企业对抗「我们只是套壳公司」质疑的有力武器。这正是创业公司的「护城河」。

创始人即「前线部署工程师」(FDE)：深入用户场景是制胜关键

这种对用户场景的极致洞察，引出了「创始人即前线部署工程师」(Founder as a Forward Deployed Engineer, FDE) 的理念。Garry 曾就职于 Palantir，他解释说，FDE 的概念源于 Palantir 将工程师直接派往客户（如 FBI 探员）的办公室，与他们并肩工作，理解其真实需求和痛点，并将这些洞察迅速转化为可用的软件解决方案。

工程师直面客户：与传统派遣销售人员不同，Palantir 派遣工程师直接与客户沟通，这使得他们能够更深刻地理解问题，并快速迭代产品。
快速原型与反馈：FDE 模式的核心在于「展示而非空谈」。在与客户会面后，工程师能迅速构建出原型并获得真实反馈，而不是花费数周甚至数月在销售文档和合同上。
AI 时代的加速器：Diana 指出，FDE 模式与 AI 的结合，使得垂直领域的 AI 智能体公司能够迅速崛起。创始人团队可以直接与大型企业的采购决策者沟通，获取上下文信息，快速调整 Prompt，甚至在第二天就能展示出令人惊艳的 Demo，从而签下六位数甚至七位数的订单。Harj 提到的 Giga ML 和 Diana 提到的 Happy Robot 都是成功案例。
创始人的多重角色：在这种模式下，创始人必须集技术专家、产品经理、用户研究员和设计师于一身。

大模型「个性」差异：因材施教的 Prompt 艺术

一个有趣的观察是，不同的大模型似乎有各自的「个性」。Diana 提到，Claude 通常被认为更「乐于助人」且易于引导，而 Llama 则可能需要更多明确的指令，更像是在与一个开发者沟通，这可能与其 RLHF 阶段的训练程度有关。

Harj 分享了他们在使用不同模型进行投资者评分时的经验。他们为 LLM 提供了评估标准 (rubric)，要求输出一个 0-100 的分数。

Claude ：表现得非常「刻板」，严格遵守评估标准，对于不完全符合标准的情况会给予重罚。
Gemini：则展现出更高的「灵活性」，它会运用评估标准，但也能理解并考虑到一些例外情况，就像一个有高度自主性的员工，能够更深入地思考。

Garry 指出，这种差异对于评估复杂情况（如判断一个投资者是否值得接受其投资）非常有用。有些投资者流程无可挑剔，而另一些可能能力很强但因事务繁忙而显得反馈缓慢。LLM 在处理这类细微差别时，其「调试信息」和最终判断会非常耐人寻味。

Prompt 工程新认知：编码、管理与「改善」

Garry 总结道，当前的 Prompt 工程，一方面像是回到了 1995 年的编程初期，工具不完善，很多东西尚未标准化，充满了未知的探索；另一方面，它又极像学习如何管理一名员工，需要清晰地沟通目标、期望和评估标准。

更深层次地，这其中蕴含着「持续改善」(Kaizen) 的哲学——这一源于日本制造业、并在上世纪 90 年代助力日本汽车产业腾飞的理念，强调身处流程之中的人才是改进流程的最佳人选。这与「元提示」让 Prompt 自我迭代的思想不谋而合。

我们正处在一个激动人心的新时代。Prompt 工程不再是神秘的「黑箱操作」，而是逐渐演变成一门融合了编码技巧、管理智慧和持续改进理念的复杂艺术。未来，我们无疑将见证更多围绕 Prompt 的创新和突破。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业