微信扫码
添加专属顾问
我要投稿
用Dify和Firecrawl轻松实现网页信息自动化抓取,快速构建高效爬虫工作流。核心内容: 1. Dify工作流设计目标与基本框架 2. 单页面抓取节点的关键设置与API配置 3. 结果格式选择与反爬策略注意事项
从我使用dify构建各类应用的小半年折腾经验出发,当前AI可以极大提升工作效率的应用场景就是使用网络爬虫工具帮助获取目标站点的信息并进行检索和自动化处理。今天我就用一个最简单的Dify工作流流程来展现这一过程,后续根据需求的变化和深入可以添加更多的功能进来。
一、Dify工作流的设计目标
使用AI应用开发工具dify调用网络爬虫工具firecrawl根据用户提供的目标网址去自动化抓取信息。
二、应用工作流的详细步骤拆解
1、总流程框图:
整个应用设计突出“简单”二字,功能实现围绕“自动化爬取指定网页信息”构建,所以仅选取了dify工作流构建中最基本的“开始——单页面抓取——Markdown转MD文件——结束”四个节点来进行,全程并未动用AI大模型的功能。
2、开始【节点】:
开始节点从字面意思理解就需要为整个工作流提供启动所需的信息。这里肯定要提供需要firecrawl去爬取的网页地址的URL链接(变量名:get_url;文本格式,256长度),另外考虑到流程的最后我们需要工具把爬取下来的网页信息转换为AI最能理解而且人类也可以直接读的Markdown格式文件,在开始节点可以提前指定这个输出文件的名字(变量名:output_name;文本格式,最大长度48)。
3、单页面抓取【节点】:
在设置“单页面抓取节点”之前,先要在dify的“插件”-->“探索Marketplace”-->搜索“firecrawl”。
然后在firecrawl官方网址(https://www.firecrawl.dev/ )注册自己的账号,并生成自己的API KEY。
然后在dify的“插件”页面找到firecrawl,填入自己的API KEY,对它进行授权。
“单页面抓取”节点的设置是我们这个工作流最核心的部分。从开始节点到下一个节点时选取“工具”里面的“firecrawl”。
firecrawl工具有4种用法:
爬取任务处理;
深度爬取;
地图式快爬;
单页面抓取;
这里我们就选择最简单和基本的动作——单页面抓取。
在具体设置做如下设置:
“结果的格式”:填“markdown”。这就是我们最后要的输出格式,当然也可以选HTML、截图、压缩包等格式;
“仅抓取主要内容”:选“True”。这样就只会抓取页面上有用的文本信息;
“仅抓取这些标签”:留空。我不太确定,所以先留空了;但“script”一般表示代码等描述格式,“.ad”代表广告信息,“footer”代表页脚信息等等;
“要移除这些标签”:留空。不需要的页面元素都在这里剔除;
“请求头”:留空。其实这是个关键设置,很多网址的反爬校验都需要通过设置“请求头”去突破;
“等待时间”:留空。单页一般不需要设置,只有多页爬取的时候需要留一个等待时间,避免被判定为机器行为;
“Timeout”:30000秒;
“提取时的结构”:留空。
“提取时的系统提示词”:留空。
“提取时的提示词”:留空。用于无schema时提取的提示词;
输出变量有3种:“text”(文本信息)、“files”(文件)、“json”。(写到此处我有个新的疑问,结束是否可以直接输出单页面抓取节点的files输出呢?这样就节省Markdown转换节点了,因为原来的流程我已经跑通,所以该疑问留到下一次测试。)
4、Markdown转md文件【节点】:
输入变量:{x}单页面抓取/{x}text
输出文件名:“开始/ {x}output_name”
5、结束【节点】:
在结束节点设置2个输出,一个是爬取回来的信息按Markdown格式文件输出(可下载至本地),另一个是扒回来的信息要在当前dify对话框界面中输出。
三、测试用例
本人在日常IT信息系统规划的过程中经常会查询各类国家标准规定,因此“国家标准化管理委员会”(官方网址:https://www.sac.gov.cn/ )是必须要查询的,例如:2025年充电宝爆炸罗马仕公司高管跑路之后,就传出国家要重新制定充电宝的行业标准。委员会下属的“国家标准全文公开系统”(网址:https://openstd.samr.gov.cn/bzgk/gb/index )就能查询到所有的国家标准化文档。
在网站上搜索关键字“数据中心”得到如下与数据中心相关的国家标准,本页仅显示最新的10条结果。
运行dify应用“firecrawl单页爬取”,得到Markdown格式的文件《20250716国家标准化网站“数据中心”类标准列表.md》,本机使用Windows的“记事本”程序(本人用Obsidian开源软件)打开显示如下:
虽然格式显得有点凌乱,但页面中对我们来说最重要的那张10行的表格的所有信息与格式都是准确对应的。后续,根据需求可以依据页面上的“下一页”等等链接,自动化的爬取更多的网页页面。下载到本地的md文件就可以导入Dify知识库中以供查询。
四、最后
firecrawl工具在dify的加持下已经可以自动化的帮我们爬取所需的网页信息,但firecrawl的API KEY并不是完全免费的,官网的收费方式如下:
免费的API KEY能支持500张网页页面的扒取操作,如果想大批量的使用,还需要考虑将firecrawl做本地私有化的部署才行。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-07-16
是真的很卷啊!这次Dify升级到1.6.0,突然就有了很火的MCP方案了!
2025-07-12
性能提升 10 倍,零改造实现 DIFY 模式迁移至 Spring AI Alibaba 模式
2025-07-11
Dify v1.6.0:原生集成 MCP,实现 AI 能力的双向流通
2025-07-11
Dify 1.6.0 重磅上线:原生MCP 双向集成、结构化输出升级!
2025-07-11
Dify终于全面支持MCP了!就在刚刚,Dify发布V1.6.0版本,并宣布支持Anthropic 的模型上下文协议 (MCP)
2025-07-10
我用Dify打造了批量发票识别助手,一键识别上百张发票,这才是AI识别发票的正确方式
2025-07-10
Dify 中 Function Calling 与 MCP使用不同使用场景对比解析
2025-07-04
Dify中的sandbox服务
2025-06-25
2025-06-04
2025-04-28
2025-05-08
2025-06-03
2025-05-08
2025-06-02
2025-05-19
2025-06-29
2025-05-22
2025-06-26
2025-06-17
2025-05-29
2025-05-28
2025-05-22
2025-04-27
2025-04-15
2025-03-20