微信扫码
添加专属顾问
我要投稿
火山引擎AI创新巡展干货分享,揭秘生产级Prompt构建的四大阶段工程化方法论,助你玩转大模型应用! 核心内容: 1. 基于成本与效果平衡的模型选择策略 2. 场景化Prompt设计思路与实战技巧 3. 生产级Prompt构建全流程与投产方案
前几天,我去厦门参加了火山引擎的AI创新巡展,玩的很开心,也见到了很多朋友~
在上篇文章的开头也跟大家说了,
今天会跟大家唠唠他们发布会的主要内容,
以及重点会给大家分享,
1、「基于成本和效果平衡如何选择模型?」
2、「有场景没思路的时候如何写Prompt?」
3、「生产级场景的Prompt如何构建与投产使用?」
这些也是很多企业朋友关心的问题,借此机会,跟大家分享一下~
我本来是冲着他们全新升级的豆包1.6系列大模型去的,
毕竟更强的模型意味着我们手里的“武器”又升级了。
但没想到他们还对外公开了很多有意思的产品,
哦对了,该怎么形容上午发布会的火爆程度呢。。
我和乔木、一泽、苍何、袋鼠帝都是站着看完发布会的,后边站着三排人...
话不多说,我们挨个来看看~
开场谭待老师就从「“有好模型”到“做好应用”」的分享中
介绍了豆包大模型过去一段时间的发展,能力不断提升。
之后,带出了豆包1.6系列的全新升级!
也是本场的重头戏,现在也都可以在火山方舟上去进行体验,
咱们今天就掰开揉碎了分开说一说:
首先是Doubao-Seed-1.6-thinking的模型,它主打的就是一个“深度思考”。
对比上一代,它在Coding、Math、逻辑推理这些硬核基础能力上又精进了不少,还支持了视觉理解,能看懂图。更关键的是,它支持256k的超长上下文窗口,输出长度最大能到16k tokens,处理复杂任务和长文档简直是降维打击。
适合我们去处理一些复杂多模态场景的问题,比如,我让它直接帮我进行作业批改
它在长达四分钟的阅读、思考、理解之后,会给到我一系列的修改建议,还会给出一个总结。
这,就是Seed-1.6-thinking-0715模型的升级,
除了1.6-thinking之外,他们的1.6-Flash也同步升级了,
如果说thinking是“最强大脑”,那flash就是“闪电侠”。
它的推理速度快到极致,TPOT(每个输出token的时间)仅需10ms。同样支持文本和视觉理解,纯文本能力还比上一代lite提升了近10%。
同样具备256k长上下文,追求极致响应速度的场景,选它准没错。
上述两个模型其实或多或少在其它渠道都有所耳闻,
而他们这次还更新了Seed1.6-embedding模型,这绝对是这次的重头戏,做RAG和搜索的兄弟们估计已经坐不住了。它不只是一个普通的向量模型,而是全模态的!
而且首次引入了视频向量化能力!这意味着它可以统一处理文本、图像、视频帧,并支持多模态的混合输入。无论是在跨模态搜索、内容理解还是多模态Agent场景,都提供了更灵活、更强大的表达能力,是业界首发支持混合模态检索的embedding模型。
而且模型能更好地理解你的“指令”,你可以通过定制化的指令模板来引导向量的生成,让embedding表达更贴合你的具体业务目标,用更低的成本提升场景效果。
这三个模型能力的升级都非常不错,那么我们来聊聊对于企业而言,
其实不管是哪家模型,我们都需要考虑「成本」和「效果」,
不存在一个“万能”的完美模型,「最优选择永远是“最适合业务场景”的模型」。
企业选择的过程,本质上是在性能、成本和控制权这三个维度上进行权衡和取舍。
拿Seed模型来举例:
1、当业务场景对结果的准确性、深度和逻辑性有最高要求,且预算相对充足时,应优先选择Doubao-Seed-1.6-thinking模型。
2、当业务场景对响应延迟要求苛刻,或需要处理海量请求,希望在保证良好基础效果的同时最大化成本效益时,Doubao-Seed-1.6-flash是理想选择。
为什么呢?我们可以看下两者的价格:
3、而如果需要构建搜索和推荐系统,尤其是涉及图片、视频等多模态内容的业务,Seed1.6-embedding模型反而是优选,提供极具竞争力的成本优势。
这里也可以给企业方朋友们提供一个问题清单:
而对于成熟的企业应用而言,最优解通常不是单一模型,而是构建一个“模型矩阵”或“模型瀑布”。
比如:
抛砖引玉,最优选择永远是“最适合业务场景”的模型,
而业务场景,我相信你自己再熟悉不过了~
其实除了模型选型方面之外,Prompt也是我们应用好AI必不可少的一环,
有很多小伙伴比较好奇我平时写Prompt的思路,以及在有场景没思路的时候如何来写Prompt?
而这,也是这次下午场火山方舟端出的另一道“主菜” —— PromptPilot。
我们都心知肚明,再强的模型,也得有人会用才行。
就像红杉峰会上大佬们的共识:「下一轮 AI,卖的不是工具,而是收益」
真正的AI产品,看的不是“能力”,而是“结果”。
而连接“能力”和“结果”的最大瓶颈,就是我们每个每天都在抓耳挠腮的Prompt工程!
大家常常遇到的痛点是:
而PromptPilot,我愿称之为终结这种“手工作坊”式开发的“新物种”。
它不是一个教你写Prompt的老师,而是一个能帮你自动生成、评估、迭代、优化Prompt的智能领航员。
来一句话总结:
PromptPilot 是目前国内对外提供Prompt工程化应用实践的最好用的工具,它提供全流程智能优化,涵盖引导用户生成Prompt、根据内容进行调优、再到批量case评估prompt的各种边界,最后自动优化和管理Prompt全阶段。只有经历过全链路的测试之后,生成的Prompt,才能够投入到百万级请求的生产环境中。
当然,它也是打通产品和开发沟通对齐的最重要的一个媒介,
为什么这么说,我们一会在看。
接下来,甲木就带大家一起深度体验一下,看看它到底是怎么把“炼丹”变成“工程”的。
任务:我们打算让AI看一张工厂车间的图片,判断有没有违规操作或没戴安全帽的情况。
我们直接把需求用大白话丢给PromptPilot:“为了安全生产,你需要根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全帽的情况,需要给出违规类别。” ,同时选择“视觉理解”类型。
点击发送后,一个结构清晰、逻辑严谨的Prompt就自动生成了,连思考过程、判断、违规类别这些输出格式都给你安排得明明白白。
为了后续更方便测试,可以将变量名修改为常用的变量名,比如“image_url”。
最后得到的prompt为:
你是一位专业的图像分析AI。你的任务是严格对照给定的判定标准,仔细分析提供的生产车间图像,并按照规定的JSON格式输出判断结果。
## 输入:
- 生产车间图像: {{image_url}}
## 判定标准与JSON输出字段定义:
1. **`是否存在违规操作设备`**: (字符串, "是"/"否")
* **判定**: 图像中是否存在违规操作设备的情况?
* "是": 至少有一人违规操作设备。
* "否": 无人违规操作设备,或者图像中无人操作设备。
2. **`是否存在未佩戴安全帽`**: (字符串, "是"/"否")
* **判定**: 图像中是否存在未佩戴安全帽的人员?
* "是": 至少有一人未佩戴安全帽。
* "否": 所有人都佩戴了安全帽,或者图像中无人。
3. **`违规类别`**: (字符串)
* 如果`是否存在违规操作设备`为“是”且`是否存在未佩戴安全帽`为“是”,则值为“违规操作设备、未佩戴安全帽”。
* 如果`是否存在违规操作设备`为“是”且`是否存在未佩戴安全帽`为“否”,则值为“违规操作设备”。
* 如果`是否存在违规操作设备`为“否”且`是否存在未佩戴安全帽`为“是”,则值为“未佩戴安全帽”。
* 如果`是否存在违规操作设备`为“否”且`是否存在未佩戴安全帽`为“否”,则值为“无”。
## 输出格式:
请按照以下JSON格式输出你的判断结果。所有字段的值必须是字符串。
{
"是否存在违规操作设备": "是",
"是否存在未佩戴安全帽": "否",
"违规类别": "违规操作设备"
}
点击右下角的“验证Prompt”,跳转到调试页面。
首先进行单张图片的测试,点击“填写变量”,上传一张图片。
同时在右侧选择所需模型,这里我们选择带thinking的模型。
全部选择完毕后,点击“保存并生成模型答案”,
可以看到很快模型就给到了判断结果。
如果对结果不满意,可以点击下方的“去添加理想回答”。
在这里,可以自己添加理想回答,也可以打开“更多模型回答参考”,然后基于不同模型的不同回答去选择理想回答。
测完单张图没问题不代表模型就毕业了,
要记住,单个case场景有效不能证明prompt的普适性,我们必须经过严格的测试,才能得到更有意义的证明。
接着选择“批量评测”。
我们直接上传了一整个包含多张图片中的文件当“考卷”(评测集)。
Tip:这里有个小提示,数据集中的列名需要和变量名保持一致,才能完成批量上传~
点击生成,就可以批量对评测集的图片进行判定。
同时我们还可以添加理想回答,给模型评分,如果不想手动评分,也可以给AI一套评分标准。
比如,我们规定:“思考过程、判断、违规类别都跟标准答案一样,才给5分;否则就给1分。”
或者让AI帮助我们生成标准,标准一旦确定,PromptPilot就化身魔鬼考官,
唰唰唰地给所有模型回答自动打上了分数。
我们根据评测结果和评分结果,可以直接点“智能优化”。
PromptPilot会自己去琢磨那些高分和低分的答案,理解你的评分偏好,然后……它自己把Prompt给改了!
当然如果还是不满意还可以继续优化,这里就不再过多演示了。
刚才给大家看的是关于图片理解型的任务,接下来我们再来看一个文本型任务。
任务:分析网上关于某个品牌的用户评论,判断好评差评,并提取负面评价的维度和产品名,输出JSON。
我们直接把需求发送给PromptPilot,让其自动生成Prompt。
如果对生成的prompt不满意,可以手动修改,也可以在右下角直接点击“优化你的Prompt”,在对话框内输入反馈/优化要求。
比如:你需要关注模型的思考过程。“请增加在<思考>标签,在<思考>中详细分析你对每条评价的情感判断、评价维度和产品名称识别的依据。”。
最后得到的prompt为:
点击右下角的“验证Prompt”,跳转到调试页面。填写变量,选择模型,并生成模型回答。
如果对模型的回答不满意,可以继续优化Prompt,
或者添加理想回答指导模型做出满意的答复。
接着,继续可以进行批量评测和智能优化,上传case集,同时添加理想回答,给模型评分。
根据评测结果和评分结果,可以直接点击“智能优化”。
PromptPilot会自己去分析评测集的结果,然后生成分析报告。
分析报告的结果中,它会根据我们的评分标准自动优化Prompt直到分数有明显提升。
当然,如果我们企业有知识库的情况,它也同样支持引入知识库RAG的形式。
任务:让AI扮演专业医生,根据我们提供的医疗知识来回答问题,不能自由发挥。
在Prompt生成页面,点击“知识库”。
将我们提前准备好的资料上传上去,方便后续引用。
上传完成后,回到Prompt生成页面,输出需求并引用刚才上传的知识库。
可以看到引入知识库后,生成的Prompt中按疾病进行分类,并增加了很多专业词汇。
我们直接对Prompt进行批量评测,上传一份包含疑难杂症的文件。
点击生成全部回答后,模型很快给出了包含可能的病因和判定依据的回答。
以上就是PromptPilot的几个简单应用场景,接下来我们来回答一下开头的几个问题:
甲木知道在很多时候我们都是了解需求场景,但没有办法把它转化成Prompt,
这时候我们可以去选择一个MetaPrompt(元提示词)帮我们根据自己所需去打造初版prompt的内容,然后进行调试,比如大家都知道的LangGPT提示词专家等等,
以及我之前给大家分享过的如何构建初版提示词
的方法论文章,
归根结底一句话:“通过AI的能力拓展我们的行业knowhow,根据Prompt方法论帮我们完成场景prompt编写”
甲木在平时,也会有很多各行各业的应用场景不知悉,不清楚,
你不了解行业知识怎么能写好这个行业的应用Prompt呢?
这时候,虽然我不了解,但是AI了解啊,
它懂世界知识,我们就不断地跟它沟通,不断地跟它交流,告诉它我们的预期,再按照我们的方法论让它去进行整合和补充,
这样,我们就能完成初版prompt的构建。
而现在,有了更好的方案,
PromptPilot平台的设计初衷之一,就是为了解决这种“冷启动”困难。
它将这个过程从“苦思冥想”变成了“互动探索”。
当有场景没prompt思路时,不要把压力都放在自己身上。
可以利用PromptPilot等之类的工具成为一个优秀的“任务指挥官”。
只需要提出一个初始目标,然后通过不断的交互和反馈,让AI来帮助您探索、澄清和实现最终的意图。
我们评判一个提示词的好与坏,不在于它一次任务的完成度有多好,而是能否在多次任务中都能够重复、有效、可稳定的实现目标任务。
这正是区分“玩具级”Prompt和“生产级”Prompt的核心标准。
生产级场景追求的不是一次惊艳的“神抽卡”,而是像工业流水线一样,高效率、高稳定性和可迭代地输出符合业务要求的结果。
这里可以给大家看个生产级场景中的case,真不是广告,我在生产级场景中一直在频繁的使用promptpilot工具。。
那么我的工作流是什么样的呢?也可以分享给大家:
简单来说四个核心阶段:开发与调试、批量评测、智能优化、投产与监控。
这是冷启动阶段,目标是快速将一个模糊的业务需求,转化为一个可用的、结构化的Prompt。
这里可以根据自己的任务描述通过PromptPilot(以下简称PP)生成初版prompt,也可以自己根据经验写prompt,拿我这个生产场景,是我自己写的。
然后进行单点验证,在业务场景中,在变量处填入自己的真实数据,进行prompt调试,
如果对生成的结果不满意,可以直接在局部进行修改,或通过对话向AI提出修改意见,
同样地,如果您手头没有现成的测试数据,还可以让AI根据Prompt上下文自动生成逼真的变量内容,帮助您验证和激发思路
单一案例的成功不具备代表性。生产级的Prompt必须在大量的、多样化的数据上证明其稳定性。
构建评测数据集:准备一个包含数十甚至数百个案例的数据集(通常是Excel或CSV文件),其中应覆盖各种正常情况、边界情况和已知的Badcase。
建立客观评估标准:这是确保“稳定有效”的关键。您需要为“好结果”下一个明确、可量化的定义。PromptPilot支持AI辅助生成标准和自定义标准:
最终,您会得到一个关于当前Prompt版本的综合得分和详细的评分分布,让您对Prompt的整体表现有清晰、客观的认知(隐私原因暂不展示了)。
有了量化的评估结果,下一步就是系统性地提升Prompt性能。
当Prompt优化遇到瓶颈时,PP还可以判断是否需要发起精调,并与火山方舟的精调功能联动,实现模型级的深度优化,这块感兴趣的可以了解一下。
一个生产级的Prompt不是交付后就结束了,它需要一个能在线上环境中持续进化的机制。
它支持版本管理与上线,将优化后、表现最佳的Prompt版本进行保存,并通过API或SDK集成到您的生产应用中。
(ps.可以看到,我每个场景都迭代了十几个版本...)
或许之后,我们的线上应用还可以调用PromptPilot的SDK,将生产环境中的真实调用数据(输入、输出、用户反馈等)反馈回系统。
之后自动对回流的线上数据进行“裁判”和评分,精准捕获Badcase。
这些来自真实场景的Badcase会成为最高质量的“新考题”,用于启动下一轮的“智能优化”,形成一个开发-评测-优化-投产-监控-再优化的自动化闭环。
通过以上四个阶段,
企业就能够将Prompt的构建从依赖个人经验和灵感的“手工业”,
转变为一个数据驱动、可量化、可迭代的“标准化工业生产流程”,
从而确保AI应用在生产环境中的长期稳定和高效。
当然,它们目前还有一些局限和可优化的点,比如:
seed-1.6模型,或者是其它场景输出的时候,<think> </think>
标签内容可以收起,或者是,增加一个换行来区分,要不视觉上太不容易理解
或者是整体的token消耗数目前没有展示,如果能在对应区域把消耗的token数量,展示出来,这样大家才能从提示词稳定性和成本方面取得一个平衡,等等
作为一个对外发布没多长时间的工具,我们也应该对它多一些包容和理解~
期待以后PromptPilot越来越好~
其实上午场和下午场还发布了很多有意思,又好玩有用的产品,
比如Responses API:写过Agent的兄弟都懂,管理多轮对话和工具调用有多烦人。 而这个API它原生支持上下文管理,能让多轮对话的开发成本和延迟大幅降低。更牛的是,它还能自主选择调用工具,你只管发请求,它能自己组合模型和工具来解决复杂任务,开发时间能大幅缩短。。
比如AI知识库:如果说普通RAG是给AI外挂一个U盘,那AI知识库就是给它配了个智能云盘+私人秘书。它能理解包括图像、视频和超大文件在内的海量多模态数据。
还有VikingDB:知识库&向量库:最后必须提一下支撑这一切的底层“核动力”——VikingDB。作为字节自研、支撑了抖音推荐系统多年的高性能向量数据库,它的性能和稳定性毋庸置疑。
还有实用的同声传译,围观了一堆人。。
哦对,聊了这么多,你肯定想问,这么牛的东西用起来贵不贵?
这就是为啥我觉得火山方舟这次特别有诚意的原因。他们推出了一个简单粗暴的「协作奖励计划」。
个人认证和企业认证都有,简单说,就是官方出钱让你来体验和测试,帮你省钱,顺便帮你把模型和应用打磨得更好用。
这种双赢的好事,上哪找去?活动持续到今年11月30日,赶紧冲!
这一趟厦门执行,收获很大。
也借此机会,跟各位聊一下这三个话题,
抛砖引玉,希望能给大家一些思路和启发。
我们正亲眼见证,AI应用开发正从一个依赖个人经验和灵感的“手工作坊”时代,
大步迈向一个有方法论、有工具链的“标准化工业”时代。
真正的AI落地,拼的不是某个单点技巧,而是全链路的工程化能力。
而这,或许就是这次巡展给我,也希望能带给大家的最大启发。
未来,我们与AI的关系将不再是简单的“人机交互”,而是一种深度的“意图共鸣”。
我们不再需要穷尽所有技术细节,只需怀揣清晰的愿景,就能借助愈发智能的工程化工具,
将心中的答案,
转化为改变世界的结果。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-04
Prompt Engineering vs Context Engineering:我们与LLM交互方式的演变
2025-08-04
一文了解提示词、提示词工程和上下文工程
2025-08-04
OpenAI 学习模式提示词深度剖析
2025-08-02
仅靠提示词就想让AI帮你业务落地?太天真了,你需要的是上下文工程!
2025-07-30
一套让提示词可靠性提升10倍的工程框架
2025-07-24
三步打造你的AI专属提示词库,终结无效输入!
2025-07-24
在一个智能体中,提示词应该有那几个模块组成?
2025-07-24
别只会写Prompt!聪明人都在玩“上下文工程”了!
2025-05-08
2025-05-08
2025-05-07
2025-05-08
2025-05-19
2025-06-27
2025-06-12
2025-06-21
2025-05-07
2025-07-03
2025-07-24
2025-07-22
2025-07-19
2025-07-08
2025-07-04
2025-06-23
2025-06-14
2025-06-04