支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


RPA+AI才是爬取公众号的正确方式

发布日期:2025-06-09 07:42:10 浏览次数: 1541 作者:禾冉一起
推荐语

公众号文章自动化保存的高效方案,RPA与AI的完美结合。

核心内容:
1. 公众号文章保存的需求与手动保存的痛点
2. RPA自动化操作与AI技术的应用实践
3. 整体思路、工具准备与详细操作教程

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


最近研究出来了躺着就可以保存公众号的办法了,说白了,就是RPA自动化操作。
为什么要保存文章呢
有些文章写的确实不错,讲述方法的同时又兼顾有趣
在保存文章的时候,我尝试了rsshub,效果不理想。又搜索到了一些GitHub上的一些项目,但是怎么说,我总柑橘不安全,毕竟电脑里面还是有些小秘密的。。。
我决定,走最为稳妥的路线
手动保存!
在重复过多次打开文章,点击插件,保存文章,关闭obsidian,关闭浏览器,这些重复性的动作之后,
我都感觉快成为生产队的那头驴了,只知道转圈拉磨,
这种事情不应该交给AI来做嘛,起码不是我这种懒人啊。。。
突然脑子灵光乍现,犹如打通任督二脉,开启慧根。。。其实就是懒了,推动我去找方法
想到了卡神发过的一篇关于RPA(机器人自动化流程 Robotic Process Automation)的文章,
“我为什么不能做一个自动化的流程呢”
在对影刀RPA以及obsidian深入的研究,对自动化程序的不断完善之后。我完美的创建了一条工作流
在跑了六个多小时之后,终于保存完了那个公众号所有的文章,从2023年2月25日到今天2025年5月28日,整整433篇,433篇啊。。。

在保存文章的时候还结合了AI,让deep seekI结合文章内容生成summary,并且利用dataview插件进行排序和展示,结果就是这个样子

这个效果还是挺和我心意的,可以根据文章总结主旨再决定看不看,个人知识库完美创建

下面直接进入教程吧

整体思路

首先,创建一个RPA是要有一个整体的思路的,这里我画了一个流程图,为了防止在整个创建的过程中忘记某一步从而手忙脚乱

工具准备:

  1. 1. 影刀RPA,主要执行整个自动化的过程
  2. 2. obsidian,文章保存的地方
  3. 3. obsidian Web Clipper,把文章保存下来的插件,obsidian官方的插件
  4. 4. 其实整个过程并不难,主要就是一个自动化的思路,让重复性的,确定性的工作交给机器来做,然后我去歇着。。。
    看到这里,如果你没有看下去的欲望,但是还是想实现这个过程,可以直接跳到文章的最后,按照最后的操作去做

详细教程

前期安装与准备

  1. 1. 首先,下载并安装影刀RPA,链接:
    https://www.yingdao.com/client-download/
    然后选择电脑对应的版本下载。
  2. 2. 在浏览器的插件市场安装obsidian web clipper,这里有一个小小的前提,就是你要用obsidian。然后这篇文章会通过这个插件保存到你的obsidian本地文件夹中

打开软件,创建流程应用

首先登录,这个就不用我教了吧,不会的冰箱里找块冻豆腐撞死算了。。。

在创建之前,还要下载影刀的插件。点击头像,工具,自动化插件,下载对应的浏览器插件就行,你到时候用那个浏览器打开公众号文章,就下载那个插件,下载不成功就多试一下。
然后,回到主界面
点击左上角的新建,pc自动化应用

左上角可以对创建的流程进行一个命名,最左边是可以选择的指令,框框圈出来的是可以进行搜索指令的,你大可可以按照我的流程去模仿者着来创建,也就是搜索我创建的指令的名字

影刀整个流程图

流程图中,每一个指令下面的小字介绍中蓝色和绿色的字体是可以选择更改的(一半更改的是在高级那里的)

流程图介绍

我主要描述一下其中几个比较难理解的步骤

第1步

这一步就是获取你打开的公众号的窗口,但前提就是你要先打开一个公众号的窗口。。。
怎么感觉我在说废话。。。

第2步

聪明的你会发现,第二步和最后一步之间有一条连接的线,没错,这代表一个区间,正如第二步的名字说的那样“循环相似元素”,这一整个区间会循环执行下去,从第二步开始,到第15步结束,然后再回到第2步,直到你暂停或者结束运行。落到实际的话,就是每一次按照顺序拿出来一个捕获到的相似元素去执行接下来的步骤。

捕获相似元素

这里要说一下这个绿色的部分"捕获相似元素公众号文章图片"这个绿色的是我捕获的一个元素。怎么捕获?
首先你已经创建了一个自动化程序的应用,你肯定会在下面找到一个,元素库的选项


你可以在右边发现“捕获新元素”对,点击它,然后你就可以捕获新的元素,然后把鼠标移动到文章的链接处的图片上,影刀会自动识别元素,然后,Ctrl+左键点击,就可以捕获了,我当时捕获的就是这个元素,长这个样子:

捕获的就是这张图片中红色框的东西(公众号链接的图片)
捕获这一个还不够,因为公众号窗口友很多篇文章,你还要点击捕获相似元素

当然了,你也可以先校验一下元素。在捕获相似元素的时候,就随便选择另一篇文章的图片这个元素再次捕获进行了,不出意外的话,两次捕获就成功了。如果捕获成功的话,就会出现下面的这个提示(已找到12个元素)

这个就已经成功了,捕获到的元素的个数取决于你的这个窗口中有多少文章显示,不单单是你能看到的,只要是你加载出来的都可以捕获到,这里我只是加载了12个,所以只捕获了12个,当然,你仍然可以校验一下,以确保你捕捉到了正确的元素。
再之后,你就可以使用这个元素了
对了,这里还是建议给这个元素名称编辑一下,如果后来元素捕获的多了,就会很乱,不知道使用哪个了。

第7步


这个点击元素,就是,在上一步我的介绍中,获取的元素,其中的英文只是个名字而已,我最后选择的是随机位置。也就是点击获取的图片的随机的位置。随机是害怕被封号。

第9步


这个滚动500其实是一个概念数字,当浏览器打开文章时候,并不会完全的加载文章,还是要往下翻加载完文章的。以便于保存的时候可以完整的保存下来,这个执行的时候挺快的,可以多设置一点也没问题的

obsidian方面

一定要确保你的用的是obsidian,因为这个就是要保存在你的obsidian中的

插件安装

直接在插件市场搜索obsidian web clipper安装

published_time设置

(这个步骤主要是使得保存的文章属性包含文章的发表时间)
右键插件,点击选项,再次点击属性
在这个插件的属性里面,这个页面设置一下
其中,published_time是文章的发表时间,这个是要有的,后面两个是结合AI来完成的文章的属性。
{{selector:#publish_time|date:"YYYY-MM-DD"}}

当然了,publish_time可以更改,他只是一个名字,后面的格式就不要改了

插件接入AI

在解释器里面,把上面的两个开关打开,然后提供商选择deep seek,我这里是的,其他的可以自行尝试,模型选择deep seek chat,这里其实都是设置好的,直接选择就可以用。
关于API,这里的API是只能用deep seek官方的API的(我真的专门跑到平台冲了十块,跑完这423篇文章,就花费我四块三毛六。。。)其他的平台用不了,你像是之前deep seek刚出来的时候,硅基流动有那个邀请送token的活动,我还有几十块钱在那个平台,但是用不了,我用了很多方法去测试,.py,cmd,powershell,.py的没成功,但是后两个成功调用了。不是硅基流动的问题,是这个插件就不支持调用siliconflow的API。(猜测而已)

成功配置之后也是需要运用的,可以用在属性中,也可以用在文章正文部分比如我的
属性中,绿色框的后面两个,以及下面的笔记内容,都是AI基于这篇文章实现的。

笔记的内容就是你保存之后的文章的内容,我这里怎么设置的最后保存出来的就是怎样的,可以对照的看一下
其中,文章的发表时间已经有了,AI生成的tags以及summary都存在属性以及我设置的正文的内容中。

这里给出我的设置

# 文章总结
{{prompt:"请你总结这篇文章的主题,字数为100字以内"}}
# 标签
{{prompt:"请你全方面的总结这篇文章,并且根据文章的主题,总结出文章的五个tags,输出的形式是#tags,只用输出tags就行"}}
# 正文内容
{{content}}

其中的prompt就是你向AI发送的问题,当然可以随意的更改,或者是添加其他的prompt

设置完成之后,基本上就可以正常使用了

最后

如果你是一个深入使用obsidian的佬,最后可以尝试使用dataview插件使得保存的文章按照发表时间的顺序排列一下。
代码长这个样子

```dataview
table summary,publish_time
from "数字生命卡兹克公众号文章"
sort publish_time desc
``

效果是这个样子的


基本上到这里,你就可以成功的保存自己喜欢的文章到本地了,并且如果使用了AI总结+dataview,你还可以对文章进行浏览,后续闲来无事,扒一扒文章的summary,说不定就会有意想不到的灵感。
但是注意不要长时间的运行哦,因为很有可能会被微信检测到

最后

其实,我知道
按照步骤一步一步去操作挺反人性的
所以我的建议是
不看具体的步骤
知道一些具体细节的设置、最后的成果图之后
然后直接上手一步一步摸索就行了
偶尔某些地方卡壳了
再回来找找原因
我记得有一个词叫做
“干中学”
慢慢摸索,慢慢收获
探索的过程难道不比直接得到的更为惊喜嘛
我们没有必要等什么都准备好了再出发
什么条件都可以出

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询