微信扫码
添加专属顾问
我要投稿
从被AI惊艳到被AI折磨,一位Prompt工程师半年的血泪史告诉你:大模型不是许愿机。 核心内容: 1. Prompt工程的两大困境:模糊需求表达 vs 模型能力边界 2. 调试过程中的三大痛点:无报错机制、评测标准缺失、测试成本高昂 3. 实战总结出的关键认知:模型能力取决于训练数据而非完美Prompt
过去半年,除了产品设计工作,我还多了一个身份:Prompt 工程师。
什么感受呢?仿佛站在了一个旧逻辑失效、新路径未明的中间地点。
尽管如此,从最初的迷茫,到如今也逐步摸索出了一些要点。
我们都是从被 AI 惊艳到开始的。
一句简单的 Prompt 就可以生成一些看起来很牛逼的东西。
可当你开始尝试,就会发现 LLM(大模型) 可以做任何东西,除了你想要的东西。
比如,你想做一个炫酷的网站。
LLM 会给你一个很不错的网站,但不是你脑子中的那种炫酷。
炫酷太模糊了,LLM 没有你脑子中的约束条件。
可一旦尝试提出更具体的需求,就会发现
大部分情况下,其实都没有太多成文本的领域知识,很多人懂,但是却说不出来。
你去看了一些 Prompt 工程的文档,发现几乎没什么用…
什么角色、思维链,都不解决最核心的问题
你脑子中的炫酷是什么呢??
于是你开始试着堆叠词汇,黑色的,渐变的,科技感的字体…
一方面你会发现:
约束条件越多,效果反而不好;
因为我们的表达很可能是错的,起码没那么精准。LLM 去强行匹配我们的需求,必然会降低质量。
比如,比起「黑色」,「深色」是不是更合理一些?
另一个方面你会发现:
这种对抽象概念的解构,边界在哪里?什么时候才算充分?
无法回答。
只能一步一步的做测试,这个过程中,很快就会发现
我们常常把模型比作一个"超级魔盒",认为只要找到正确的"咒语"(Prompt),就能召唤出它最强大的能力。
这种想法虽然浪漫,但是却忽视了一个最基本事实:
模型的核心能力来自于它的「训练数据样本」和「调教参数」,而不是输入提示的"咒语"。
Prompt 仍然不能解决很多问题。
LLM在很多地方表现优异,但在某些问题的解决上,表现的像个弱智。
LLM 一边做高考题,一边分不清 9.11 和 9.8 谁更大。
只能一点一点的修改 Prompt,来推测LLM能力的边界。
这个过程非常痛苦。
一边是表达不一定精准,一边是LLM能力不行。
Prompt 已经写了几百字,实际调试的时候,又不像代码一样可以报错。
不知道哪句话有问题,不知道问题出在哪,导致盲目的试错。
经常一天过去了,但是一无所获。
个人使用LLM来说,这并不是一个问题。
但在 Prompt 工程中,Prompt 的产出通常是流程中的一个环节,其单独输出的结果,往往缺乏评价标准
更头疼的是,很好很差的结果都很少见,大部分的结果都处在不上不下的中间环节。
拔剑四顾心茫然,很难评测。
另一个问题是, Prompt 工程要解决的,往往是一类问题。
需要覆盖大量、多样化的 case 来评测。
而设计、执行和分析这些测试,其时间成本往往高得惊人。
所以,Prompt工程师的日常是什么?是在“表达不清的需求”和“能力莫测的模型”的夹缝中,用无穷尽的试错和玄学般的调试,试图搭建一座沟通的桥梁。
它远非吟诵咒语般简单,而是一个充满探索、调试与评估挑战的持续过程。我仍在这条路上摸索前行
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-07-16
提示词 Remix:把任意提示词作为模板,按要求生成 Prompt
2025-07-15
xAI 新的虚拟角色 Ani 的系统提示词
2025-07-08
【Augment】 Augment技巧之 Rewrite Prompt(重写提示) 有神奇的魔法
2025-07-07
每周帮你节省20小时的10个高效DeepSeek提示词
2025-07-06
告别"AI味儿"!5个提示词帮你润色文章!
2025-06-29
提升AI编程效果的13个Prompt技巧
2025-06-28
很多人用不好AI,写不好提示词,打造不出自己的提示词系统,是因为不明白这一点!
2025-06-26
程序员的提示工程实战手册
2025-05-25
2025-05-09
2025-06-02
2025-04-30
2025-06-18
2025-05-12
2025-05-18
2025-04-20
2025-05-07
2025-06-07
2025-06-17
2025-04-21
2025-03-31
2025-03-29
2025-03-17
2025-02-06
2025-01-10
2024-12-25