支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


如何构建生产级Prompt?这四个阶段的工程化方法论值得收藏(by 火山Meetup复盘)

发布日期:2025-08-04 08:22:57 浏览次数: 1534
作者:甲木未来派

微信搜一搜,关注“甲木未来派”

推荐语

火山引擎AI创新巡展干货分享,揭秘生产级Prompt构建的四大阶段工程化方法论,助你玩转大模型应用!

核心内容:
1. 基于成本与效果平衡的模型选择策略
2. 场景化Prompt设计思路与实战技巧
3. 生产级Prompt构建全流程与投产方案

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

前几天,我去厦门参加了火山引擎的AI创新巡展,玩的很开心,也见到了很多朋友~

在上篇文章的开头也跟大家说了,

今天会跟大家唠唠他们发布会的主要内容,

以及重点会给大家分享,

1、「基于成本和效果平衡如何选择模型?」

2、「有场景没思路的时候如何写Prompt?」

3、「生产级场景的Prompt如何构建与投产使用?」

这些也是很多企业朋友关心的问题,借此机会,跟大家分享一下~

看图找人,猜猜甲木在哪里...

我本来是冲着他们全新升级的豆包1.6系列大模型去的,

毕竟更强的模型意味着我们手里的“武器”又升级了。

但没想到他们还对外公开了很多有意思的产品,

哦对了,该怎么形容上午发布会的火爆程度呢。。

我和乔木、一泽、苍何、袋鼠帝都是站着看完发布会的,后边站着三排人...

对,没错,这是我的「站排」视角

话不多说,我们挨个来看看~

基于成本和效果平衡如何选择模型?

开场谭待老师就从「“有好模型”到“做好应用”」的分享中

介绍了豆包大模型过去一段时间的发展,能力不断提升。

之后,带出了豆包1.6系列的全新升级!

也是本场的重头戏,现在也都可以在火山方舟上去进行体验,

咱们今天就掰开揉碎了分开说一说:

首先是Doubao-Seed-1.6-thinking的模型,它主打的就是一个“深度思考”。

对比上一代,它在Coding、Math、逻辑推理这些硬核基础能力上又精进了不少,还支持了视觉理解,能看懂图。更关键的是,它支持256k的超长上下文窗口,输出长度最大能到16k tokens,处理复杂任务和长文档简直是降维打击。

适合我们去处理一些复杂多模态场景的问题,比如,我让它直接帮我进行作业批改

火山方舟上可以直接体验🔗 https://www.volcengine.com/experience/ark

它在长达四分钟的阅读、思考、理解之后,会给到我一系列的修改建议,还会给出一个总结。

大家可以去体验一下效果~多模态理解层面非常👍🏻

这,就是Seed-1.6-thinking-0715模型的升级,

除了1.6-thinking之外,他们的1.6-Flash也同步升级了,

如果说thinking是“最强大脑”,那flash就是“闪电侠”。

它的推理速度快到极致,TPOT(每个输出token的时间)仅需10ms。同样支持文本和视觉理解,纯文本能力还比上一代lite提升了近10%。

同样具备256k长上下文,追求极致响应速度的场景,选它准没错。

比如,让它总结下沐神的B站首页进行分析,非常迅速给出结果

上述两个模型其实或多或少在其它渠道都有所耳闻,

而他们这次还更新了Seed1.6-embedding模型,这绝对是这次的重头戏,做RAG和搜索的兄弟们估计已经坐不住了。它不只是一个普通的向量模型,而是全模态的!

不光在MTEB(纯文本)和MMEBv2(多模态)两大权威榜单上拿下了SOTA,在图文检索、语义匹配(STS)这些通用任务上也表现超神,泛化能力极强

而且首次引入了视频向量化能力!这意味着它可以统一处理文本、图像、视频帧,并支持多模态的混合输入。无论是在跨模态搜索、内容理解还是多模态Agent场景,都提供了更灵活、更强大的表达能力,是业界首发支持混合模态检索的embedding模型。

可以先感受下图像检索,视频这块我还没权限- -

而且模型能更好地理解你的“指令”,你可以通过定制化的指令模板来引导向量的生成,让embedding表达更贴合你的具体业务目标,用更低的成本提升场景效果。

这三个模型能力的升级都非常不错,那么我们来聊聊对于企业而言,

如何「基于成本和效果平衡如何选择模型?」

其实不管是哪家模型,我们都需要考虑「成本」和「效果」,

不存在一个“万能”的完美模型,「最优选择永远是“最适合业务场景”的模型」

企业选择的过程,本质上是在性能、成本和控制权这三个维度上进行权衡和取舍。

拿Seed模型来举例:

1、当业务场景对结果的准确性、深度和逻辑性有最高要求,且预算相对充足时,应优先选择Doubao-Seed-1.6-thinking模型。

2、当业务场景对响应延迟要求苛刻,或需要处理海量请求,希望在保证良好基础效果的同时最大化成本效益时,Doubao-Seed-1.6-flash是理想选择。

为什么呢?我们可以看下两者的价格:

两者相差几倍

3、而如果需要构建搜索和推荐系统,尤其是涉及图片、视频等多模态内容的业务,Seed1.6-embedding模型反而是优选,提供极具竞争力的成本优势。

这里也可以给企业方朋友们提供一个问题清单:

而对于成熟的企业应用而言,最优解通常不是单一模型,而是构建一个“模型矩阵”或“模型瀑布”。

比如:

  • 所有用户请求首先由一个成本极低的“路由”模型进行意图识别。
  • 简单问候或分类任务,该模型直接处理。
  • 复杂一点的,则转发给性价比高的主力模型。
  • 如果识别出是需要深度创作或复杂逻辑的请求,再升级调用最顶级的性能模型。

抛砖引玉,最优选择永远是“最适合业务场景”的模型,

而业务场景,我相信你自己再熟悉不过了~

其实除了模型选型方面之外,Prompt也是我们应用好AI必不可少的一环,

有很多小伙伴比较好奇我平时写Prompt的思路,以及在有场景没思路的时候如何来写Prompt?

而这,也是这次下午场火山方舟端出的另一道“主菜” —— PromptPilot

生产级场景的Prompt如何构建与投产使用?

我们都心知肚明,再强的模型,也得有人会用才行。

就像红杉峰会上大佬们的共识:「下一轮 AI,卖的不是工具,而是收益」

真正的AI产品,看的不是“能力”,而是“结果”。

而连接“能力”和“结果”的最大瓶颈,就是我们每个每天都在抓耳挠腮的Prompt工程!

大家常常遇到的痛点是:

  • 要么效果全凭运气,反复横跳,心态爆炸;
  • 要么就是上线后被用户的各种奇葩输入干翻,疯狂救火。

而PromptPilot,我愿称之为终结这种“手工作坊”式开发的“新物种”。

主界面如图所示,目前还都是免费使用,快来薅羊毛...

它不是一个教你写Prompt的老师,而是一个能帮你自动生成、评估、迭代、优化Prompt的智能领航员。

来一句话总结:

PromptPilot 是目前国内对外提供Prompt工程化应用实践的最好用的工具,它提供全流程智能优化,涵盖引导用户生成Prompt、根据内容进行调优、再到批量case评估prompt的各种边界,最后自动优化和管理Prompt全阶段。只有经历过全链路的测试之后,生成的Prompt,才能够投入到百万级请求的生产环境中。

当然,它也是打通产品和开发沟通对齐的最重要的一个媒介,

为什么这么说,我们一会在看。

接下来,甲木就带大家一起深度体验一下,看看它到底是怎么把“炼丹”变成“工程”的。

Case 1:质检巡检(图片理解任务)

任务:我们打算让AI看一张工厂车间的图片,判断有没有违规操作或没戴安全帽的情况。

第一步:说人话,AI出活

我们直接把需求用大白话丢给PromptPilot:“为了安全生产,你需要根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全帽的情况,需要给出违规类别。” ,同时选择“视觉理解”类型。

感兴趣的可以看看官方文档: https://www.volcengine.com/docs/82379/1544106

点击发送后,一个结构清晰、逻辑严谨的Prompt就自动生成了,连思考过程、判断、违规类别这些输出格式都给你安排得明明白白。

为了后续更方便测试,可以将变量名修改为常用的变量名,比如“image_url”。

最后得到的prompt为:

你是一位专业的图像分析AI。你的任务是严格对照给定的判定标准,仔细分析提供的生产车间图像,并按照规定的JSON格式输出判断结果。
## 输入:
- 生产车间图像: {{image_url}}
## 判定标准与JSON输出字段定义:
1.  **`是否存在违规操作设备`**: (字符串, "是"/"否")
    *   **判定**: 图像中是否存在违规操作设备的情况?
    *   "是": 至少有一人违规操作设备。
    *   "否": 无人违规操作设备,或者图像中无人操作设备。
2.  **`是否存在未佩戴安全帽`**: (字符串, "是"/"否")
    *   **判定**: 图像中是否存在未佩戴安全帽的人员?
    *   "是": 至少有一人未佩戴安全帽。
    *   "否": 所有人都佩戴了安全帽,或者图像中无人。
3.  **`违规类别`**: (字符串)
    *   如果`是否存在违规操作设备`为“是”且`是否存在未佩戴安全帽`为“是”,则值为“违规操作设备、未佩戴安全帽”。
    *   如果`是否存在违规操作设备`为“是”且`是否存在未佩戴安全帽`为“否”,则值为“违规操作设备”。
    *   如果`是否存在违规操作设备`为“否”且`是否存在未佩戴安全帽`为“是”,则值为“未佩戴安全帽”。
    *   如果`是否存在违规操作设备`为“否”且`是否存在未佩戴安全帽`为“否”,则值为“无”。
## 输出格式:
请按照以下JSON格式输出你的判断结果。所有字段的值必须是字符串。
{
    "是否存在违规操作设备""是",
    "是否存在未佩戴安全帽""否",
    "违规类别""违规操作设备"
}

第二步:上考卷,AI当考官

点击右下角的“验证Prompt”,跳转到调试页面。

首先进行单张图片的测试,点击“填写变量”,上传一张图片。

同时在右侧选择所需模型,这里我们选择带thinking的模型。

这里就先用默认模型给大家展示了~

全部选择完毕后,点击“保存并生成模型答案”,

可以看到很快模型就给到了判断结果。

如果对结果不满意,可以点击下方的“去添加理想回答”。

在这里,可以自己添加理想回答,也可以打开“更多模型回答参考”,然后基于不同模型的不同回答去选择理想回答。

测完单张图没问题不代表模型就毕业了,

要记住,单个case场景有效不能证明prompt的普适性,我们必须经过严格的测试,才能得到更有意义的证明。

接着选择“批量评测”。

我们直接上传了一整个包含多张图片中的文件当“考卷”(评测集)。

Tip:这里有个小提示,数据集中的列名需要和变量名保持一致,才能完成批量上传~

点击生成,就可以批量对评测集的图片进行判定。

同时我们还可以添加理想回答,给模型评分,如果不想手动评分,也可以给AI一套评分标准。

比如,我们规定:“思考过程、判断、违规类别都跟标准答案一样,才给5分;否则就给1分。”

或者让AI帮助我们生成标准,标准一旦确定,PromptPilot就化身魔鬼考官,

唰唰唰地给所有模型回答自动打上了分数。

第三步:见证奇迹,一键优化

我们根据评测结果和评分结果,可以直接点“智能优化”。

PromptPilot会自己去琢磨那些高分和低分的答案,理解你的评分偏好,然后……它自己把Prompt给改了!

当然如果还是不满意还可以继续优化,这里就不再过多演示了。

刚才给大家看的是关于图片理解型的任务,接下来我们再来看一个文本型任务。

Case 2:品牌评价情感分类(文本理解任务)

任务:分析网上关于某个品牌的用户评论,判断好评差评,并提取负面评价的维度和产品名,输出JSON。

第一步:说人话,AI出Prompt

我们直接把需求发送给PromptPilot,让其自动生成Prompt。

如果对生成的prompt不满意,可以手动修改,也可以在右下角直接点击“优化你的Prompt”,在对话框内输入反馈/优化要求。

比如:你需要关注模型的思考过程。“请增加在<思考>标签,在<思考>中详细分析你对每条评价的情感判断、评价维度和产品名称识别的依据。”。

最后得到的prompt为:

第二步:上考卷,AI当考官

点击右下角的“验证Prompt”,跳转到调试页面。填写变量,选择模型,并生成模型回答。

如果对模型的回答不满意,可以继续优化Prompt,

或者添加理想回答指导模型做出满意的答复。

接着,继续可以进行批量评测和智能优化,上传case集,同时添加理想回答,给模型评分。

第三步:见证奇迹,一键优化

根据评测结果和评分结果,可以直接点击“智能优化”。

PromptPilot会自己去分析评测集的结果,然后生成分析报告。

分析报告的结果中,它会根据我们的评分标准自动优化Prompt直到分数有明显提升。

当然,如果我们企业有知识库的情况,它也同样支持引入知识库RAG的形式。

Case 3:医疗知识问答(知识库RAG)

任务:让AI扮演专业医生,根据我们提供的医疗知识来回答问题,不能自由发挥。

第一步:创建知识库并引用

在Prompt生成页面,点击“知识库”。

将我们提前准备好的资料上传上去,方便后续引用。

上传完成后,回到Prompt生成页面,输出需求并引用刚才上传的知识库。

可以看到引入知识库后,生成的Prompt中按疾病进行分类,并增加了很多专业词汇。

第二步:批量评测

我们直接对Prompt进行批量评测,上传一份包含疑难杂症的文件。

点击生成全部回答后,模型很快给出了包含可能的病因和判定依据的回答。

以上就是PromptPilot的几个简单应用场景,接下来我们来回答一下开头的几个问题:

有场景没思路的时候如何写Prompt?

甲木知道在很多时候我们都是了解需求场景,但没有办法把它转化成Prompt,

这时候我们可以去选择一个MetaPrompt(元提示词)帮我们根据自己所需去打造初版prompt的内容,然后进行调试,比如大家都知道的LangGPT提示词专家等等,

以及我之前给大家分享过的如何构建初版提示词的方法论文章,

归根结底一句话:“通过AI的能力拓展我们的行业knowhow,根据Prompt方法论帮我们完成场景prompt编写”

甲木在平时,也会有很多各行各业的应用场景不知悉,不清楚,

你不了解行业知识怎么能写好这个行业的应用Prompt呢?

这时候,虽然我不了解,但是AI了解啊,

它懂世界知识,我们就不断地跟它沟通,不断地跟它交流,告诉它我们的预期,再按照我们的方法论让它去进行整合和补充,

这样,我们就能完成初版prompt的构建。

而现在,有了更好的方案,

PromptPilot平台的设计初衷之一,就是为了解决这种“冷启动”困难。

它将这个过程从“苦思冥想”变成了“互动探索”。

当有场景没prompt思路时,不要把压力都放在自己身上。

可以利用PromptPilot等之类的工具成为一个优秀的“任务指挥官”。

只需要提出一个初始目标,然后通过不断的交互和反馈,让AI来帮助您探索、澄清和实现最终的意图。

生产级场景的Prompt如何构建与投产使用?

我们评判一个提示词的好与坏,不在于它一次任务的完成度有多好,而是能否在多次任务中都能够重复、有效、可稳定的实现目标任务。

这正是区分“玩具级”Prompt和“生产级”Prompt的核心标准。

生产级场景追求的不是一次惊艳的“神抽卡”,而是像工业流水线一样,高效率、高稳定性和可迭代地输出符合业务要求的结果。

这里可以给大家看个生产级场景中的case,真不是广告,我在生产级场景中一直在频繁的使用promptpilot工具。。

那么我的工作流是什么样的呢?也可以分享给大家:

简单来说四个核心阶段:开发与调试、批量评测、智能优化、投产与监控

阶段一:开发与调试阶段 (从0到1)

这是冷启动阶段,目标是快速将一个模糊的业务需求,转化为一个可用的、结构化的Prompt。

这里可以根据自己的任务描述通过PromptPilot(以下简称PP)生成初版prompt,也可以自己根据经验写prompt,拿我这个生产场景,是我自己写的。

隐私保护,就不完全展示了

然后进行单点验证,在业务场景中,在变量处填入自己的真实数据,进行prompt调试,

如果对生成的结果不满意,可以直接在局部进行修改,或通过对话向AI提出修改意见,

同样地,如果您手头没有现成的测试数据,还可以让AI根据Prompt上下文自动生成逼真的变量内容,帮助您验证和激发思路

阶段二:批量评测阶段 (从1到N)

单一案例的成功不具备代表性。生产级的Prompt必须在大量的、多样化的数据上证明其稳定性。

  1. 构建评测数据集:准备一个包含数十甚至数百个案例的数据集(通常是Excel或CSV文件),其中应覆盖各种正常情况、边界情况和已知的Badcase。

  2. 建立客观评估标准:这是确保“稳定有效”的关键。您需要为“好结果”下一个明确、可量化的定义。PromptPilot支持AI辅助生成标准和自定义标准:

  1. 自动化评估与打分:PP将使用您的Prompt处理整个评测集,并根据您建立的标准,对每一个结果进行自动评分。

最终,您会得到一个关于当前Prompt版本的综合得分和详细的评分分布,让您对Prompt的整体表现有清晰、客观的认知(隐私原因暂不展示了)。

阶段三:智能优化阶段 (追求更优)

有了量化的评估结果,下一步就是系统性地提升Prompt性能。

  1. 一键智能优化:基于带有评分的评测数据集,启动“智能优化”功能。PP会分析所有高分和低分案例,理解您的评估偏好和业务目标,然后自动进行多轮迭代,生成一个效果更好的新版Prompt
进入优化阶段
  1. 查看优化报告:优化完成后,平台会提供一份详细的对比报告,清晰展示新旧版本Prompt的综合得分对比(例如从3.2分提升至4.8分)、评分分布变化以及具体的Prompt修改内容,让每一次优化的效果都一目了然。

当Prompt优化遇到瓶颈时,PP还可以判断是否需要发起精调,并与火山方舟的精调功能联动,实现模型级的深度优化,这块感兴趣的可以了解一下。

阶段四:投产与持续监控阶段 (闭环进化)

一个生产级的Prompt不是交付后就结束了,它需要一个能在线上环境中持续进化的机制。

它支持版本管理与上线,将优化后、表现最佳的Prompt版本进行保存,并通过API或SDK集成到您的生产应用中。

(ps.可以看到,我每个场景都迭代了十几个版本...)

或许之后,我们的线上应用还可以调用PromptPilot的SDK,将生产环境中的真实调用数据(输入、输出、用户反馈等)反馈回系统。

之后自动对回流的线上数据进行“裁判”和评分,精准捕获Badcase。

这些来自真实场景的Badcase会成为最高质量的“新考题”,用于启动下一轮的“智能优化”,形成一个开发-评测-优化-投产-监控-再优化的自动化闭环。

通过以上四个阶段,

企业就能够将Prompt的构建从依赖个人经验和灵感的“手工业”,

转变为一个数据驱动、可量化、可迭代的“标准化工业生产流程”,

从而确保AI应用在生产环境中的长期稳定和高效。

当然,它们目前还有一些局限和可优化的点,比如:

seed-1.6模型,或者是其它场景输出的时候,<think> </think>标签内容可以收起,或者是,增加一个换行来区分,要不视觉上太不容易理解

或者是整体的token消耗数目前没有展示,如果能在对应区域把消耗的token数量,展示出来,这样大家才能从提示词稳定性和成本方面取得一个平衡,等等

在现场也跟PP团队的小伙伴们反馈了,如果还没改,我要去大钟寺push了~

作为一个对外发布没多长时间的工具,我们也应该对它多一些包容和理解~

期待以后PromptPilot越来越好~

更多内容

其实上午场和下午场还发布了很多有意思,又好玩有用的产品,

企业N件套

比如Responses API:写过Agent的兄弟都懂,管理多轮对话和工具调用有多烦人。 而这个API它原生支持上下文管理,能让多轮对话的开发成本和延迟大幅降低。更牛的是,它还能自主选择调用工具,你只管发请求,它能自己组合模型和工具来解决复杂任务,开发时间能大幅缩短。。

比如AI知识库:如果说普通RAG是给AI外挂一个U盘,那AI知识库就是给它配了个智能云盘+私人秘书。它能理解包括图像、视频和超大文件在内的海量多模态数据。

还有VikingDB:知识库&向量库:最后必须提一下支撑这一切的底层“核动力”——VikingDB。作为字节自研、支撑了抖音推荐系统多年的高性能向量数据库,它的性能和稳定性毋庸置疑。

还有实用的同声传译,围观了一堆人。。

哦对,聊了这么多,你肯定想问,这么牛的东西用起来贵不贵?

这就是为啥我觉得火山方舟这次特别有诚意的原因。他们推出了一个简单粗暴的「协作奖励计划」

https://www.volcengine.com/product/ark

个人认证和企业认证都有,简单说,就是官方出钱让你来体验和测试,帮你省钱,顺便帮你把模型和应用打磨得更好用。

这种双赢的好事,上哪找去?活动持续到今年11月30日,赶紧冲!

结语

这一趟厦门执行,收获很大。

也借此机会,跟各位聊一下这三个话题,

  • 「基于成本和效果平衡如何选择模型?」
  • 「有场景没思路的时候如何写Prompt?」
  • 「生产级场景的Prompt如何构建与投产使用?」

抛砖引玉,希望能给大家一些思路和启发。

我们正亲眼见证,AI应用开发正从一个依赖个人经验和灵感的“手工作坊”时代,

大步迈向一个有方法论、有工具链的“标准化工业”时代。

真正的AI落地,拼的不是某个单点技巧,而是全链路的工程化能力。

而这,或许就是这次巡展给我,也希望能带给大家的最大启发。

未来,我们与AI的关系将不再是简单的“人机交互”,而是一种深度的“意图共鸣”。

我们不再需要穷尽所有技术细节,只需怀揣清晰的愿景,就能借助愈发智能的工程化工具,

将心中的答案,

转化为改变世界的结果。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询