支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


扣子实战【自动获取指定网页信息,并制作新闻卡片定时推送】工作流,太方便了!

发布日期:2025-05-14 20:52:09 浏览次数: 1542 作者:周小没六儿
推荐语

无需编码,轻松抓取网页信息并自动生成新闻卡片,每天定时推送最新资讯!

核心内容:
1. 如何一键获取任意网页信息并制作新闻卡片
2. 工作流逻辑拆解:无需代码,重点在于筛选目标板块链接
3. 详细步骤:从网页链接抓取到大模型筛选,实现个性化内容推送

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

哈喽,朋友们,扣子专场的第7篇教程来了!

今天这个工作流也是很多小伙伴私信来想要学习的需求:

一键获取任意指定网页信息

不仅如此,还可以获取到网页上的不同模块或者不同区域的内容。(不受限于只能在特定网页或者固定模块)。

并以新闻卡片的形式,每天定时推送给你(包含“文章标题“文章中心思想”“文章链接”)

工作流逻辑拆解:

整体实现可拆分为这2个部分:

学习要点:

不需要编写代码

唯一的重点就是搞清楚“如何筛选目标板块链接”,一旦搞清楚这个实现原理,那就可以根据需要获取任意想要的内容板块信息了。

工作流详解:

1 筛选出目标内容板块链接

实现这个目标需要4个动作:这个第一部分也是这个工作流的重点,大家要仔细看!

1.1 开始
1.2 添加“网页链接抓取”插件

这里可能有小伙伴会问,我不是给了一个网页链接了吗?为什么还要在这个网页里抓取链接。

咱们以“极客公园”的这个“https://www.geekpark.net/column/304”为例。

这个页面里其实可以提取几十或者上百个包含了各种各样的内容链接,每个内容点开都是一个链接,其中也包含你想要的内容链接。

这一步,就是先把网页里的链接都获取下来。

1.3 添加“大模型”对上一级的链接进行筛选-只保留我们想要的内容的链接

重点!!提示词,我会逐一讲解这里每句提示词的意思;

1 请将{{input}}result里
的“href”后面的链接地址输出;
2 只取链接地址中带“/news/”的
链接,其他不需要;
3 要保证输出的链接地址
具有唯一性,如有重复,只取其一;
4 链接输出顺序请按照
时间顺序输出,只取7条信息;
5 不同的链接地址中间用“|”区分开;

要搞清楚我为啥这么写提示词,就要回到我想要获取的内容信息是哪些?

还是举“极客公园”的例子,我想要获取这个

“https://www.geekpark.net/column/304“

网址里的关于“AI新浪潮观察”里的文章。


但是网页链接里有那么多内容链接,我要如何定位这些内容的链接?

我们只需要将鼠标放到这想要的区域内容页面上,然后点击右键,找到这个“检查”

点击后,你就会看到这个页面,然后将你得鼠标放在“ELEMENTS”这个右边的板快来回滑动,你会发现,你滑动到不同的地方,就会在“左边”的文章区域有不同颜色的覆盖。

如下图,能看出来我图里鼠标放在的右边的“elements”区域代表的正是左边百度这篇文章。

而代表这篇文章的链接就是我红框里框出来的 “href=/news/348854”

但是这个链接会重复,是因为你点击左边的标题,图片等都需要会跳转到同一个文章内容,所以要有去重的动作

这就解释了大模型里的这3句提示词

1 请将{{input}}result里
的“href”后面的链接地址输出;
2 只取链接地址中带“/news/”的
链接,其他不需要;
3 要保证输出的链接地址
具有唯一性,如有重复,只取其一;

举一反三,同样,如果你想获取其他网址的指定内容,还是按照同样的办法去找

这里我们举一个36氪的例子

如果想要找到我左边黄框里的文章,这个就是只取链接地址中带“/p/”的 链接

大家找到后,可以检验下,你点开想要的内容,看下链接是不是你在右边找到的那个链接。

接下来,还有一个要点,就是这句提示词

5 不同的链接地址中间用“|”区分开;

这是为了后续将这7条链接,分割成一条一条的链接,方便对每一条链接进行文本信息的提取。

到这一步,这个链接的处理结果是以下这个样子:


这7条链接被“|”隔开,但是还是连在一起。

1.4 对大模型筛选出的指定内容链接进行处理;

添加“文本处理”

点击完自定义后,在下面的对话框里,把在上一级大模型提示词里“|”符号复制进去,选择使用即可;

到这一步,你会看到上一级的7条链接已经变成了:



2 指定链接的内容提取与处理

2.1 添加“链接读取”
2.2 添加大模型

这里的输入有两个变量,如下:

重点!提示词!

##角色
你是一个资深的新闻编辑专家,
擅长将网页信息按用户要求梳理总结

##要求
1 总结{{input}}里的文章信息的中心思想,控制在30字以内,
要有一定的细节。
2 总结{{input}}里文章的标题,
如没有,则根据理解总结一个标题;
3 找到{{links}}中与{{input}}
里的文章内容对应上的文章链接;

##输出格式
请严格按照JSON格式进行输出:
{
"articles": [
    {
      "文章标题""标题1",
      "文章中心思想""内容1",
       "文章链接""找到对应的文章urlL1"
    },
    {
      "文章标题""标题2",
      "文章中心思想""内容2",
    "文章链接""找到对应的文章url2"
    }
  ]
}

工作流到这里,就可以运行了,咱们试一试:

能看出这个输出就是有7条,每一条点开都有“中心思想”“标题”“对应的链接”

如果我们想让这个推送更美观一点,可以试试“卡片”的展示形式。

点击每个卡片,会跳转对应的内容页面。

如何操作?

1 点击发布工作流

2 回到“智能体编辑”的页面,点击添加"工作流”,选择已发布的这个工作流,点击“添加”

3 在已经选定的这个工作流右侧有一个“绑定卡片数据”点击这个

4 进入编辑页面

因为我没有图片,所以我选了不带图片的卡片。

最后,我们可以通过设定“定时触发”的指令,让这个智能体按照要求定时发送指定网页的信息。

直接在对话框给予触发指令

这样,每天早上8点,智能体就会自动发送这个网页链接里我们想要的AI相关的7条最新新闻

写在最后

今天这篇教程也是写了很久,希望能对大家有所帮助。

相信大家如果搞清楚了这个工作流的运行逻辑,以及第一部分的内容,举一反三,想要获取任一指定信息就会容易很多,大大提高了工作效率!

如果觉得这篇文章还不错的话,期待您的关注,转发哦!

我们下期见。


往期内容:

DeepSeek+扣子【批量生成小红书爆款图文】" data-itemshowtype="0" target="_blank" linktype="text" data-linktype="2">上万点赞的秘密!用DeepSeek+扣子【批量生成小红书爆款图文】

免费!DeepSeek+扣子,一键实现视频文案提取+自动存档飞书,效率神器

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询