支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


做 Prompt 工程师半年,我被大模型按在地上摩擦后悟了些什么?

发布日期:2025-06-17 06:50:23 浏览次数: 1522
作者:小酒遇见猫

微信搜一搜,关注“小酒遇见猫”

推荐语

从被AI惊艳到被AI折磨,一位Prompt工程师半年的血泪史告诉你:大模型不是许愿机。

核心内容:
1. Prompt工程的两大困境:模糊需求表达 vs 模型能力边界
2. 调试过程中的三大痛点:无报错机制、评测标准缺失、测试成本高昂
3. 实战总结出的关键认知:模型能力取决于训练数据而非完美Prompt

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

过去半年,除了产品设计工作,我还多了一个身份:Prompt 工程师。

什么感受呢?仿佛站在了一个旧逻辑失效、新路径未明的中间地点。

尽管如此,从最初的迷茫,到如今也逐步摸索出了一些要点。


我们都是从被 AI 惊艳到开始的。

一句简单的 Prompt 就可以生成一些看起来很牛逼的东西。

可当你开始尝试,就会发现 LLM(大模型) 可以做任何东西,除了你想要的东西。

比如,你想做一个炫酷的网站。

LLM 会给你一个很不错的网站,但不是你脑子中的那种炫酷。

炫酷太模糊了,LLM 没有你脑子中的约束条件。

可一旦尝试提出更具体的需求,就会发现

解构与表达,是一件极难的事情


大部分情况下,其实都没有太多成文本的领域知识,很多人懂,但是却说不出来。

你去看了一些 Prompt 工程的文档,发现几乎没什么用…

什么角色、思维链,都不解决最核心的问题

你脑子中的炫酷是什么呢??

于是你开始试着堆叠词汇,黑色的,渐变的,科技感的字体…


一方面你会发现:

约束条件越多,效果反而不好;

因为我们的表达很可能是错的,起码没那么精准。LLM 去强行匹配我们的需求,必然会降低质量。

比如,比起「黑色」,「深色」是不是更合理一些?


另一个方面你会发现:

这种对抽象概念的解构,边界在哪里?什么时候才算充分?

无法回答。

只能一步一步的做测试,这个过程中,很快就会发现

LLM的能力边界难以预测


我们常常把模型比作一个"超级魔盒",认为只要找到正确的"咒语"(Prompt),就能召唤出它最强大的能力。

这种想法虽然浪漫,但是却忽视了一个最基本事实:

模型的核心能力来自于它的「训练数据样本」和「调教参数」,而不是输入提示的"咒语"。

Prompt 仍然不能解决很多问题。

LLM在很多地方表现优异,但在某些问题的解决上,表现的像个弱智。

LLM 一边做高考题,一边分不清 9.11 和 9.8 谁更大。

只能一点一点的修改 Prompt,来推测LLM能力的边界。


这个过程非常痛苦。

一边是表达不一定精准,一边是LLM能力不行。

Prompt 已经写了几百字,实际调试的时候,又不像代码一样可以报错。

不知道哪句话有问题,不知道问题出在哪,导致盲目的试错。

经常一天过去了,但是一无所获。

评测也是个大难题


个人使用LLM来说,这并不是一个问题。

但在 Prompt 工程中,Prompt 的产出通常是流程中的一个环节,其单独输出的结果,往往缺乏评价标准

更头疼的是,很好很差的结果都很少见,大部分的结果都处在不上不下的中间环节。

拔剑四顾心茫然,很难评测。


另一个问题是, Prompt 工程要解决的,往往是一类问题。

需要覆盖大量、多样化的 case 来评测。

而设计、执行和分析这些测试,其时间成本往往高得惊人。


所以,Prompt工程师的日常是什么?是在“表达不清的需求”和“能力莫测的模型”的夹缝中,用无穷尽的试错和玄学般的调试,试图搭建一座沟通的桥梁。

它远非吟诵咒语般简单,而是一个充满探索、调试与评估挑战的持续过程。我仍在这条路上摸索前行

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询