微信扫码
添加专属顾问
我要投稿
揭开顶尖AI智能体Prompt工程的秘密,探索如何打造高效、可靠的AI对话体验。核心内容:1. Prompt在AI交互中的核心作用及其在生产环境中的可靠性提升策略2. 深入分析Prompt失败案例,探讨公司如何进行质量测试和优化LLM输出3. ParaHelp实战案例:六页Prompt如何驱动AI客服智能体,包含角色设定、任务定义等关键要素
Prompt 被视为大语言模型的「咒语」,已经演变为与 AI 交互的核心,成为构建高效、可靠 AI 应用的关键环节。
最近,在 YC 的 Lightcone 的播客节目中,来自 AI 创投和技术前沿的专家 Garry, Harj, Diana, 和 Jared 深入剖析了他们在与数百名 LLM 领域创始人合作过程中积累的宝贵经验。
他们探讨了为何 Prompt 依然至关重要,它在哪些环节容易失效,以及顶尖团队是如何在生产环境中提升其可靠性的。他们不仅分享了 Prompt 失败的真实案例,还揭示了公司如何进行质量测试,以及优秀团队如何使 LLM 的输出变得实用且可预测。
要理解当前最先进的 Prompt 工程,不妨从一个具体的例子入手。AI 客服公司 ParaHelp 为 Perplexity、Replika、Bolt 等知名 AI 公司提供客户支持服务,其 AI 智能体背后正是由精心设计的 Prompt 驱动。ParaHelp 慷慨地公开了其核心 Prompt 之一,让我们得以一窥究竟。
这份 Prompt 首先给人的印象是「长」和「细致」,展开足有六页之多。其核心设计理念包括:
这类为垂直领域 AI 智能体设计的 Prompt 通常被视为公司的核心知识产权。他还指出,实际应用中,Prompt 会分为不同层次:
围绕 Prompt 工程的工具开发存在大量创业机会,例如自动从客户数据集中提取最佳范例并集成到 Prompt 工作流中,从而避免手动操作。
一个令人兴奋的趋势是「元提示」(Metaprompting)。Garry 将其比作 1995 年的编程,工具尚不完善,但潜力巨大。元提示的核心思想是让 Prompt 动态地生成自身更好的版本。
除了元提示,提供高质量范例也是提升 LLM 输出的关键。比如一家名为 Jazzberry 的公司,通过向 LLM 输入大量只有专家级程序员才能解决的复杂代码缺陷(如 N+1 查询)范例,来训练模型自动发现代码中的 Bug。
这种「授之以渔不如授之以例」的方法,能帮助 LLM 理解和处理难以用文字精确描述的复杂任务,类似于编程中的「测试驱动开发」(TDD)。
LLM 有时会为了满足输出格式要求而「一本正经地胡说八道」,即产生幻觉。因此,必须为 LLM 提供一个「逃生出口」(escape hatch)。
尽管 Prompt 本身非常重要,但评估 (Evals) 才是这些 AI 公司真正的「皇冠上的明珠」和数据资产。ParaHelp 之所以愿意公开其 Prompt,部分原因在于他们认为,没有评估,就无法理解 Prompt 为何这样设计,也难以对其进行改进。
Garry 对此深表赞同,他认为,对于垂直领域的 AI 和 SaaS 公司而言,获取高质量评估数据的能力至关重要。这需要深入理解特定用户的真实工作流程,例如,「你必须亲自坐在内布拉斯加州的拖拉机销售区域经理旁边,了解他关心什么,他的激励机制是什么,他如何处理发票和保修问题。」将这些一手观察转化为具体的评估标准,才是真正的价值所在,也是初创企业对抗「我们只是套壳公司」质疑的有力武器。这正是创业公司的「护城河」。
这种对用户场景的极致洞察,引出了「创始人即前线部署工程师」(Founder as a Forward Deployed Engineer, FDE) 的理念。Garry 曾就职于 Palantir,他解释说,FDE 的概念源于 Palantir 将工程师直接派往客户(如 FBI 探员)的办公室,与他们并肩工作,理解其真实需求和痛点,并将这些洞察迅速转化为可用的软件解决方案。
一个有趣的观察是,不同的大模型似乎有各自的「个性」。Diana 提到,Claude 通常被认为更「乐于助人」且易于引导,而 Llama 则可能需要更多明确的指令,更像是在与一个开发者沟通,这可能与其 RLHF 阶段的训练程度有关。
Harj 分享了他们在使用不同模型进行投资者评分时的经验。他们为 LLM 提供了评估标准 (rubric),要求输出一个 0-100 的分数。
Garry 指出,这种差异对于评估复杂情况(如判断一个投资者是否值得接受其投资)非常有用。有些投资者流程无可挑剔,而另一些可能能力很强但因事务繁忙而显得反馈缓慢。LLM 在处理这类细微差别时,其「调试信息」和最终判断会非常耐人寻味。
Garry 总结道,当前的 Prompt 工程,一方面像是回到了 1995 年的编程初期,工具不完善,很多东西尚未标准化,充满了未知的探索;另一方面,它又极像学习如何管理一名员工,需要清晰地沟通目标、期望和评估标准。
更深层次地,这其中蕴含着「持续改善」(Kaizen) 的哲学——这一源于日本制造业、并在上世纪 90 年代助力日本汽车产业腾飞的理念,强调身处流程之中的人才是改进流程的最佳人选。这与「元提示」让 Prompt 自我迭代的思想不谋而合。
我们正处在一个激动人心的新时代。Prompt 工程不再是神秘的「黑箱操作」,而是逐渐演变成一门融合了编码技巧、管理智慧和持续改进理念的复杂艺术。未来,我们无疑将见证更多围绕 Prompt 的创新和突破。
参考:https://www.youtube.com/watch?v=DL82mGde6wo
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-06-07
写了两年提示词,我发现大家都写"死"了
2025-06-04
为什么不会提示词(Prompt)用不好AI?
2025-06-04
Prompt到底是如何工作的?看懂这3个底层原理,你也能成为提示词高手
2025-06-03
看完Cursor记忆功能提示词后,我发现了AI智能体记忆设计的秘诀
2025-06-03
函数调用提示词咋写,看下OpenAI发布的Function Calling指南(万字含示例)|最新
2025-06-02
1 条 Prompt 顶 10 行代码:YC 合伙人讲透 AI 创业护城河
2025-06-02
Claude 4 核心提示词曝光|最懂提示词的大模型公司,现在怎么写 Prompt?
2025-05-31
YC访谈:顶级公司如何写AI提示词
2024-08-20
2024-06-29
2023-06-08
2024-09-17
2024-06-27
2024-06-26
2024-09-16
2024-07-09
2024-07-12
2025-03-12
2025-06-04
2025-06-02
2025-05-17
2025-05-16
2025-05-09
2025-04-29
2025-04-27
2025-04-20