继Coze开源后，火山引擎又一大动作！重磅推出豆包新模型+PromptPilot

发布日期：2025-08-05 05:44:29 浏览次数： 2686

作者：小智AI指南

微信搜一搜，关注“小智AI指南”

使用好大模型LLM，让LLM发挥出更大的威力，提示词Prompt是关键。

不管是国内还是国外都已经有很多提供提示词的平台，平台的作用就是提供各个分类或者业务场景下的

提示词模板，让使用AI工具的人可以很便捷的找到。还有一些大模型平台直接提供提示词专家这项功能，你可

以只说出你的需求，提示词专家自动帮你生成专业的提示词模板。

字节火山最近也出了一套专业的提示词工程平台(PromptPilot)，那么它和其他的平台有什么区别？这个平台能

给用户带来什么不一样的体验，咱们一起来看看。

PromptPilot产品介绍

首先简单的说一下如何进入到PromptPilot，字节提供了独立站点访问链接

https://promptpilot.volcengine.com/home

进入到首页给我一个很直观的感受就是页面简洁清晰，没那么多复杂和过重的设计，左侧菜单栏最核心的功能

一目了然，分别是任务管理、Prompt生成、Prompt调试、Prompt批量、知识库。长使用AI大模型平台的用户

看到这些功能菜单想必也能清楚每个功能菜单的作用。

Prompt调试

我们先来创建一个任务把整个流程体验一遍，这里使用平台自带的Prompt示例，文档总结。

需求描述：从提供的文档中提取总结要点，要点数量不超过10个。

对比一下PromptPilot和其他平台Kimi+提示词专家提供的提示词优化后的差异

PromptPilot一键改写后的提示词如下：最与众不同的是提供了{{DOCUMENT}}这个文档变量

你的任务是从提供的文档中提取不超过10个总结要点。请仔细阅读以下文档，并按照给定的指南进行要点提取：
<document>
{{DOCUMENT}}
</document>
在提取总结要点时，请遵循以下指南：
1. 仔细阅读整个文档，理解其核心内容。
2. 识别文档中的关键信息和主要观点。
3. 避免重复和琐碎的细节，只选取最重要的要点。
4. 要点应简洁明了，能够概括文档的主要内容。
请在<要点总结>标签内写下你的总结要点。

Kimi改写后的提示词
Kimi提示词专家生成的是一个固定的提示词模板，有角色、背景、技能、目标、限制条件、输出格式、工作流

以及示例，这个目前是业界最标准的模板，不管是国内还是国外的大模型提供的提示词大同小异，这里就不再

粘贴出来，框架结构就是那几个固定的关键词。万变不离其中的都是带有扮演角色，对于大模型来说你给了定

义角色，大模型就以角色的身份来回复你的需求。但是这个提示词中缺少的是变量，如果让我使用这个提示词

我肯定要改一下，把变量加进去，然后让大模型去读取这个变量。

这里我想说的是，Promptpilot真的是做了大量用户的使用调研，提示词中增加变量是非常棒的设计。这一点

是一个很大的差异点，而且还加了变量生成规则使用说明。

如果觉得提示词不够好可以进行局部优化或者全部优化，这里选择豆包新模板：Doubao-Seed-1.6-thinking｜250715来进行模型回答， Doubao-Seed-1.6-thinking模型思考能力大幅强化，对比Doubao-1.5-thinking-pro，在Coding、Math、逻辑推理等基础能力上进一步提升，支持视觉理解。支持 256k 上下文窗口，输出长度支持最大 16k tokens。

优化了一下提示词，对于开发者来说返回的内容通常以结构化的形式输出最佳，这样可以通过程序进行数据再加工和处理，让它以json格式输出

{
    "keypoints":[]
}

生成的效果还不错

有个改进点可以优化一下，既然返回的是json格式的数据可以加个格式化工具，这样呈现效果上会更好一些。

Prompt批量评测数据集

评测数据集是其它平台都不具备的功能，PromptPilot居然也提供了这个功能，咱们先试用一下这个功能然后再来评价。首先还是创建一个提示词任务，先进行单用例调试。

需求描述：对客户发布的关于“脱敏品牌1”产品的评价内容进行识别和格式化整理。你需要判断评价是正面还是负面，若为负面评价，要进一步分类，并确定评价对应的产品名称。

这个提示词优化除了变量还加了一个标签，我个人认为这个标签是为了对大模型输出的内容进行了限制，输出的内容一定要在这个标签内。这样对于开发者来说非常友好，可以很方便的获取到返回的结果。

<result>
{
    "情感判断": "负面",
    "评价维度": ["价格", "包装不当"],
    "产品名称": "巧克力饼干"
}
</result>

批量评测需要上传评测数据集，如果不会使用可以参考使用引导页，有两个参数需要注意匹配正确就可以，提示词中的变量名称和数据集中的列的名称保持一致，第2个参数是理想回答参数名称也需要和excel表中的列名保持一致。

导入后的数据集呈现方式真的让我眼前一亮，这个功能确实超出了我的预期，相当于对导入的数据集excel进行了批量AI问答，有些类似加了AI功能的飞书文档。可以对文档中表格进行增加和删除操作。关键是还加了评测打分机制，数据集中给的是理想回答结果，还有模型回答结果，对这两项进行对比评测打分。

提示词功能差异化

维度	传统提示词平台	PromptPilot
提示词结构	固定“角色-目标-约束-输出格式”模板；缺乏变量占位	模板+变量占位（{{DOCUMENT}}）、标签，天然支持批量输入
Prompt 生成方式	仅给出文本模板，用户需手动替换变量	一键改写+变量生成规则说明；可局部/全局优化
调试体验	单行单轮对话；看不到批量效果	单用例调试→一键切换到批量评测；实时对比模型输出
批量评测	无此功能	支持上传 Excel 数据集，自动按变量匹配列；多轮打分，自动生成评测报告
结果可编程性	输出为纯文本，需二次解析	支持指定 JSON/结构化输出，可直接被下游程序消费
可视化交互	无数据集级 UI	类似飞书表格的在线编辑、增删行列、可视化打分
评测指标	无	理想回答 vs 模型回答的自动对比评分（准确率、召回率、F1 等）
模型选择	固定平台模型	可选 Doubao-Seed-1.6-thinking 等新模型，支持 256k 上下文、16k 输出
使用门槛	需熟悉提示词模板语法	全流程引导 + 变量/列名自动匹配，小白可快速上手
适用场景	单点问答、一次性使用	业务级 Prompt 迭代、A/B 测试、模型效果持续监控

写在最后

不得不说字节这次重磅推出的PromptPilot功能确实挺强大的，操作起来也非常丝滑。当然小智这里只是针对提示词文本调试进行了测评，还有视觉理解方面的功能计划下一期文章和大家分享。对于提示词结构我想补充一点，变量这块可以继续优化，比如用户输入需求：提供一个博客文章评论的提示词，优化后的提示词，除了把博客文章内容作为一个变量，还可以自动增加其它的变量比如评论风格，评论内容的长度，用什么语言评论，评论的语气等等。这样给到用户的提示词就更加具象化，变量越多用户自己可以发挥的空间也越大，这样的提示词就不再是一个千篇一律的模板而是一个高度定制化模板。