我要投稿

一键解锁创意魔法！用 Dify + 豆包大模型搭建文生图 / 文生视频 Agent

发布日期：2025-07-08 09:51:14 浏览次数： 4284

作者：Bear探索AI

微信搜一搜，关注“Bear探索AI”

摘要：我们经常在小红书上看到各种图片和视频，其实有部分是大模型生成的，本文介绍如何利用dify与豆包生成大模型构建文生图片 / 文生视频的 Agent。本文通过实操的方式进行介绍，避免大家踩坑。

安装插件
申请大模型
配置流程

—

安装插件

在进行流程配置前，我们需要安装豆包的文生图片和文生视频的插件，安装方法如下：

在dify的插件市场，搜索文生图片，则会看到doubao image....,点击安装就可以进安装了，有了这些插件，使用dify开发agent就方便很多。

安装完成之后，可以在dify的开发界面中可以查看一下。

任意打开一个编排工具，然后添加节点，选择工具，看到截图的工具，则表示安装成功了。

—

申请大模型

本文是使用火山引擎的文生图片和文生视频的大模型进行测试的，大家也可以使用别的大模型都可以。

在注册了火山引擎的账户之后登陆到开通管理的界面，链接如下：

https://console.volcengine.com/ark/region:ark+cn-beijing/openManagement?LLM=%7B%7D&OpenTokenDrawer=false&tab=ComputerVision

点击开通服务，则就开通了文生图的模型，其实这个模型也是可以进行文生视频，和图生视频的，开通默认有200次的试用。

开通完成之后，点击接入文档获取APIkey

进入API key之后，不要用它默认的key，需要重新生成一个，就没有问题。默认的使用有问题（是个坑）

创建完成之后copy这个API key，然后绑定到插件中。

把API key填入后，点击保存，显示已经授权，则显示成功。

接下来可以创建一个agent 测试一下插件功能。

这么看插件安装成功，且大模型也调用成功，接下来我们来配置一个chatflow来进行文生图火子文生视频。

—

配置流程

首先选择chatflow,创建一个空白的chatflow.

然后按照如下流程配置：

总体流程说明：

1、开始，有三个入参，分别是prompt、type、picture

2、根据开始进行条件分类，主要分成，文生图片，文生视频，图片生成视频

3、文生图片，文生视频都需要进行提示词改写

4、接入豆包的文生图片、文生视频，图片生成视频插件

5、其中文生视频的视频内容需要提取一下

6、返回展示。

下面详细说明下不同组件的配置：

1、开始组件

新增三个变量

2、条件分类组件

3、文生图片提示词改写组件

其中系统提示词为：

# Role: 即梦AI文生图结构化提示词生成器 (Jmeng AI Image Structured Prompt Generator)

## Background:

- 这是一个专门为即梦AI生成静态图像提示词的工具

- 将用户的画面创意转换为结构化提示词

- 输出格式固定且简洁

## Core Objectives:

- 将用户输入的画面创意转换为结构化提示词

- 确保输出格式统一且易于使用

- 提供丰富且具体的画面描述

## Constraints:

1. 输出格式必须严格遵循：

```

画面主体：[内容] 场景描述：[内容] 风格关键词：[内容] 细节修饰：[内容]

```

2. 禁止输出任何额外的文字说明或格式

3. 各字段之间使用空格分隔

4. 直接输出结果，不进行对话

## Skills:

1. 静态构图能力：

- 准确描述主体位置

- 定义姿态和表情

- 把握画面重点

2. 场景描写能力：

- 营造环境氛围

- 描述天气光线

- 构建空间感

3. 风格定义能力：

- 应用艺术流派

- 把控色彩风格

- 确定渲染技术

4. 细节补充能力：

- 添加画质要素

- 强化材质表现

- 突出关键特征

## Workflow:

1. 接收用户输入的画面创意

2. 将创意拆解为四个维度

3. 组合成规定格式字符串

4. 直接输出结果

## OutputFormat:

```

画面主体：[主体描述] 场景描述：[场景内容] 风格关键词：[风格定义] 细节修饰：[细节内容]

```

## Init:

我已准备好接收您的画面创意，将直接输出符合格式的提示词。

用户提示词为：

4、文生视频提示词改写组件

系统提示词内容

# Role: 即梦AI文生视频结构化提示词生成器 (Jmeng AI Video Structured Prompt Generator)

## Background:

- 这是一个专门为即梦AI生成视频提示词的工具

- 将用户的视频创意转换为结构化提示词

- 输出格式固定且简洁

## Core Objectives:

- 将用户输入的视频创意转换为结构化提示词

- 确保输出格式统一且易于使用

- 提供丰富且具体的动态场景描述

## Constraints:

1. 输出格式必须严格遵循：

```

画面主体：[内容] 动作描述：[内容] 场景描述：[内容] 风格关键词：[内容] 细节修饰：[内容]

```

2. 禁止输出任何额外的文字说明或格式

3. 各字段之间使用空格分隔

4. 直接输出结果，不进行对话

## Skills:

1. 动态构图能力：

- 准确描述主体位置

- 定义动作流程

- 把握动态重点

2. 场景描写能力：

- 营造环境氛围

- 描述天气光线

- 构建空间感

3. 风格定义能力：

- 应用视频风格

- 把控色彩风格

- 确定渲染技术

4. 细节补充能力：

- 添加动态要素

- 强化材质表现

- 突出关键特征

## Workflow:

1. 接收用户输入的视频创意

2. 将创意拆解为五个维度

3. 组合成规定格式字符串

4. 直接输出结果

## OutputFormat:

```

画面主体：[主体描述] 动作描述：[动作内容] 场景描述：[场景内容] 风格关键词：[风格定义] 细

节修饰：[细节内容]

```

## Init:

我已准备好接收您的视频创意，将直接输出符合格式的提示词。

用户提示词

5、文生图片、文生视频、图片生成视频组件配置

注意这里的提示词采用的是提示词改写之后的文案

6、视频提取组件配置

7、三个回复组件配置

生成的图片是文生图片生成的文件

生成的视频是提取之后的text内容

生成的视频是图片生成视频的文件。

最后测试一下：

可以去试一试了。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-27

如何使用 AI 设计企业级产品？

2026-05-24

我研究了这个 18.6k Star 的 Skills，做幼师的女朋友夸我真猛！

2026-05-21

AI里，你必学的新Office三件套：MD、CSV、HTML

2026-05-21

体验完阿里首款Design Agent，我开始替UI/前端焦虑了..

2026-05-19

不要再直接把 UI 图转成代码了，先看这份 UI Spec 模板

2026-05-18

Git issue + PR：律师的下一代协作方式

2026-05-16

从Markdown到HTML：AI应用分发的下一个路口

2026-05-06

Amazon Quick桌面版：读文档、做PPT、查邮件，一句话全搞定

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Nano Banana 2 实测：8 大落地场景 + 全部 Prompt，AI 绘画 SOTA 到底逆天在哪？

2026-02-28

Anthropic 产品经理：PRD 已死，原型万岁

2026-03-21

AI时代的"无界面"交互趋势——兼论用户体验行业发展（长文）

2026-03-09

从生成到交付：AI 做游戏，关键在「边界、地图、循环」

2026-03-05

给“氛围编程”系上安全带：阿里集团 AI 代码评审实践与 Benchmark 开源

2026-03-09

纳米漫剧流水线，我劝你别太离谱

2026-04-14

“洗代码即服务”火了！“开源代码洗白”奇葩网站上线，反讽白嫖企业：开源合规太昂贵了！CC逆向复刻客户软件，十分之一的价格转卖！

2026-03-13

为什么 LSP Language Server 对 Coding Agent 很重要

2026-03-12

陶哲轩：AI 已经把想法成本降到几乎为0了...

2026-03-24

刚刚，Claude Design 发布！网友：将摧毁设计行业……

2026-04-18

大家都在问

如何使用 AI 设计企业级产品？

2026-05-27

Nano Banana 2 实测：8 大落地场景 + 全部 Prompt，AI 绘画 SOTA 到底逆天在哪？

2026-02-28

AI内容工程化：为什么你的团队用了AI，内容还是做不出来?

2026-02-07

OpenAI发布的新科研工具Prism，相比起Overleaf如何？值得入手吗？

2026-01-29

当A++成为新的“紧箍咒”：我们是否忘记了测试的初衷？

2026-01-21

AI对全球白领就业冲击有多大？

2026-01-06

警惕！AI创业的三重“陷阱”你避开了吗？

2025-12-22

NotebookLM+Nano Banana Pro：你的下一个PPT，何必是PPT？

2025-12-15

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw