我要投稿

Dify调用firecrawl工具扒取单网页信息的工作流各节点设置逐项解析

发布日期：2025-07-17 22:55:03 浏览次数： 2912

作者：架构面面观

微信搜一搜，关注“架构面面观”

从我使用dify构建各类应用的小半年折腾经验出发，当前AI可以极大提升工作效率的应用场景就是使用网络爬虫工具帮助获取目标站点的信息并进行检索和自动化处理。今天我就用一个最简单的Dify工作流流程来展现这一过程，后续根据需求的变化和深入可以添加更多的功能进来。

一、Dify工作流的设计目标

使用AI应用开发工具dify调用网络爬虫工具firecrawl根据用户提供的目标网址去自动化抓取信息。

二、应用工作流的详细步骤拆解

1、总流程框图：

整个应用设计突出“简单”二字，功能实现围绕“自动化爬取指定网页信息”构建，所以仅选取了dify工作流构建中最基本的“开始——单页面抓取——Markdown转MD文件——结束”四个节点来进行，全程并未动用AI大模型的功能。

2、开始【节点】：

开始节点从字面意思理解就需要为整个工作流提供启动所需的信息。这里肯定要提供需要firecrawl去爬取的网页地址的URL链接（变量名：get_url；文本格式，256长度），另外考虑到流程的最后我们需要工具把爬取下来的网页信息转换为AI最能理解而且人类也可以直接读的Markdown格式文件，在开始节点可以提前指定这个输出文件的名字（变量名：output_name；文本格式，最大长度48）。

3、单页面抓取【节点】：

在设置“单页面抓取节点”之前，先要在dify的“插件”-->“探索Marketplace”-->搜索“firecrawl”。

然后在firecrawl官方网址（https://www.firecrawl.dev/ ）注册自己的账号，并生成自己的API KEY。

然后在dify的“插件”页面找到firecrawl，填入自己的API KEY，对它进行授权。

“单页面抓取”节点的设置是我们这个工作流最核心的部分。从开始节点到下一个节点时选取“工具”里面的“firecrawl”。

firecrawl工具有4种用法：

爬取任务处理；
深度爬取；
地图式快爬；
单页面抓取；

这里我们就选择最简单和基本的动作——单页面抓取。

在具体设置做如下设置：

“结果的格式”：填“markdown”。这就是我们最后要的输出格式，当然也可以选HTML、截图、压缩包等格式；
“仅抓取主要内容”：选“True”。这样就只会抓取页面上有用的文本信息；
“仅抓取这些标签”：留空。我不太确定，所以先留空了；但“script”一般表示代码等描述格式，“.ad”代表广告信息，“footer”代表页脚信息等等；
“要移除这些标签”：留空。不需要的页面元素都在这里剔除；
“请求头”：留空。其实这是个关键设置，很多网址的反爬校验都需要通过设置“请求头”去突破；
“等待时间”：留空。单页一般不需要设置，只有多页爬取的时候需要留一个等待时间，避免被判定为机器行为；
“Timeout”：30000秒；
“提取时的结构”：留空。
“提取时的系统提示词”：留空。
“提取时的提示词”：留空。用于无schema时提取的提示词；

输出变量有3种：“text”（文本信息）、“files”（文件）、“json”。（写到此处我有个新的疑问，结束是否可以直接输出单页面抓取节点的files输出呢？这样就节省Markdown转换节点了，因为原来的流程我已经跑通，所以该疑问留到下一次测试。）

4、Markdown转md文件【节点】：

输入变量：{x}单页面抓取/{x}text

输出文件名：“开始/ {x}output_name”

5、结束【节点】：

在结束节点设置2个输出，一个是爬取回来的信息按Markdown格式文件输出（可下载至本地），另一个是扒回来的信息要在当前dify对话框界面中输出。

三、测试用例

本人在日常IT信息系统规划的过程中经常会查询各类国家标准规定，因此“国家标准化管理委员会”（官方网址：https://www.sac.gov.cn/ ）是必须要查询的，例如：2025年充电宝爆炸罗马仕公司高管跑路之后，就传出国家要重新制定充电宝的行业标准。委员会下属的“国家标准全文公开系统”（网址：https://openstd.samr.gov.cn/bzgk/gb/index ）就能查询到所有的国家标准化文档。