我要投稿

OpenClaw 永久免费的提取任何网页的终极方案

发布日期：2026-03-10 07:40:05 浏览次数： 5132

作者：石臻说AI

微信搜一搜，关注“石臻说AI”

导读： 用 AI 写文章，最大的隐藏成本不是模型调用次数，而是每次抓网页时塞进去的 token。今天做了一次完整的实测，对比了 Jina、Scrapling、web_fetch 三个方案——发现差别大到出乎意料。

问题是怎么暴露的

在用 AI 做内容创作时，流程大概是这样的：找到一篇参考文章 → 读取全文 → AI 消化后写稿。

web_fetch 是最直接的工具，给一个 URL 就返回内容。但用着用着发现不对：

一篇普通技术博客，轻松返回 8000-15000 token
遇到 GitHub README 或文档页，可能更多
一篇文章采集 3-5 个信息源，光读内容就烧掉几万 token

更麻烦的是，web_fetch 返回的是整个页面，包括：导航栏、侧边栏、页脚、广告、"相关推荐"……真正有用的正文可能只占 30%。

三个方案的实测对比

拿了一篇 Substack 文章做测试：《How I Dropped Our Production Database》，同条件（max 12000字符）横向对比三种提取方式。

方案一：Jina Reader

用法：

web_fetch("https://r.jina.ai/原始URL", maxChars=30000)

Jina 是专门做网页内容提取的服务，会自动渲染页面、抽取正文、去掉导航和广告，返回干净的 Markdown。

实测效果：

Title: How I Dropped Our Production Database and Now Pay 10% More for AWS

I'm working on expanding the [AI Shipping Labs website](https://aishippinglabs.com/) ...

My gradual plan was:

1. Move the current static site from GitHub Pages to AWS S3
2. Move DNS to AWS so the domain is fully managed there
...

标题、正文、链接、图片、列表——格式全保留，干净利落。速度约 1.4 秒。

缺点：每天免费限额 200 次。高产时期两三天就能跑完。

方案二：web_fetch 直接抓

web_fetch(url, maxChars=30000)

测试同一篇文章——直接报错：fetch failed。

Substack 有反爬机制，web_fetch 根本进不去。对于 Medium、部分付费博客、微信公众号，同样的问题。

即使是能抓到的页面，返回的也是全页 HTML 转 Markdown，噪音多、token 浪费严重。

结论：只适合静态页面（GitHub README、普通技术博客），不适合有反爬的主流平台。

方案三：Scrapling + html2text

Scrapling 是一个开源 Python 爬虫框架（GitHub: D4Vinci/Scrapling），项目定位是"为现代 Web 设计的自适应爬虫"。核心特性：

原生绕过反爬：StealthyFetcher 能绕过 Cloudflare Turnstile 等主流反爬系统，不需要额外配置
自适应选择器：网站改版导致 selector 失效时，能自动重新定位元素，不需要手动维护
零依赖启动：pip install scrapling，没有复杂的浏览器驱动配置

用法：

python3 scrapling_fetch.py <url> 30000

脚本逻辑：

1用 Fetcher.get() 拿到页面 HTML
2按优先级尝试正文选择器：article → main → .post-content → [class*="body"]
3找到正文后，用 html2text 把 HTML 转成 Markdown
4截断到指定字符数

实测效果：

# How I Dropped Our Production Database and Now Pay 10% More for AWS

### A Terraform command executed by an AI Agent wiped the production infrastructure...

I'm working on expanding the [AI Shipping Labs website](https://aishippinglabs.com/) ...

1. Move the current static site from GitHub Pages to AWS S3
2. Move DNS to AWS so the domain is fully managed there
...

和 Jina 几乎一样干净，标题层级、链接、图片 URL、列表都保留了。速度约 3 秒，无限制，不需要 API Key。

意外发现：微信公众号文章

测试微信公众号链接（mp.weixin.qq.com）时：

Jina → 直接 403 拦截，内容为空
web_fetch → 请求被中断
Scrapling → 完整拿到正文，Markdown 格式，图片链接也保留

微信公众号有专门的反爬，Jina 和 web_fetch 都进不去，但 Scrapling 的 StealthyFetcher 能绕过去。

这个发现意义很大——之前我们读公众号文章要么靠搜索工具（只能拿摘要），要么靠浏览器渲染（慢且复杂），现在一行命令就能拿全文。

微信公众号文章：Scrapling 直接能拿全文，Jina 403，这一条就值得把 Scrapling 装上。

最终推荐策略

经过实测，确定了这套分级策略：

优先级	方案	适用场景	限制
1	Jina Reader	大部分英文博客、Substack、Medium	200次/天
2	Scrapling	Jina 超限、微信公众号、反爬平台	无限制
3	web_fetch	静态页面、GitHub、技术文档	全页噪音多
4	Browser Firefox	需要登录态、极端反爬	最慢

域名快捷路由： mp.weixin.qq.com 直接用 Scrapling，跳过 Jina，不浪费配额。

关于 maxChars： 统一设 30000，既保证完整正文，又不会塞爆 context。

坑：Scrapling 必须配合 html2text

最开始用 Scrapling 时，直接调 get_all_text() 提取文本，以为可以省事。结果发现：

How I Dropped Our Production Database and Now Pay 10% More for AWS A Terraform command executed by an AI agent wiped the production infrastructure...

纯文字流，段落消失，链接消失，图片消失，标题层级消失。对 AI 写稿来说，链接和图片 URL 都是有价值的素材——引用图片、追溯信息源都要用。

正确做法是先拿 html_content，再用 html2text 转换：

import html2text
h = html2text.HTML2Text()
h.ignore_links = False
h.ignore_images = False
h.body_width = 0# 不自动折行
md = h.handle(element.html_content)

这一步加上去，输出就和 Jina 一样干净了。

Jina：最好用，格式最干净，但每天 200 次限额
Scrapling + html2text：效果和 Jina 相当，无限制，能读微信公众号（Jina 做不到）
web_fetch：有反爬的平台直接失败，只适合静态页面
maxChars 统一设 30000：省 token 的同时保留完整正文
微信公众号直接走 Scrapling，不要浪费 Jina 配额

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-01

OpenClaw 5月28日更新：更加提升稳定性

2026-05-31

Claw Team 在 SRE 场景下的实践

2026-05-29

OpenClaw与Hermes：源码里的 AI Agent 架构知识大复盘

2026-05-24

李想谈 AI：价值藏在生产环境里

2026-05-19

龙虾的 Skill 数量和描述的长度，真的不能随便写

2026-05-19

AI 开始做梦以后：/Dream、DMN 与必要难度

2026-05-18

给 OpenClaw 装上第二大脑：GBrain 开源，Agent 终于不再"失忆"了

2026-05-15

治理之智 | OpenClaw类自主智能体的分层治理（下）

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

微信官方接入龙虾，我顺手给接上了 Claude Code。已开源

2026-03-23

Chrome 146 来了：OpenClaw 操控浏览器最大的几个坑，终于有解了

2026-03-16

我在企微里养了130个AI员工：OpenClaw+The Agency实战全记录

2026-03-21

OpenClaw 2026.3.11 版本重磅更新：安全修复+Ollama本地部署+iOS焕新！

2026-03-12

一文总结飞书新品发布会 - 向Agent平台的跃迁。

2026-03-19

🦞从入门到卸载，全网最细的安全养龙虾指南

2026-03-11

微信原生支持各种 OpenClaw 龙虾接入，附教程

2026-03-22

我对比了12个"养虾"平台，发现OpenClaw才是真正的王者

2026-03-22

从 OpenClaw 到 Hermes Agent：安装、迁移、配置、实战演示

2026-04-09

OpenClaw+飞书官方插件多Agent 部署指南

2026-03-21

大家都在问

被Anthropic封杀之后，OpenClaw如何反击？

2026-04-09

树莓派上 AI 代理框架有那么多，为什么 OpenClaw 火了起来？

2026-04-07

爆火的 OpenClaw 们：为什么企业宁愿围观，也不敢将其接入核心业务？

2026-04-02

Harness驾驭工程是AI平权的必经之路？

2026-03-30

OpenClaw v2026.3.28 发布：来看看有没有你中意的新特性？

2026-03-30

Harness 驾驭工程是 AI 平权的必经之路？

2026-03-26

Anthropic入局做“AI 龙虾”，真能杀死OpenClaw吗？

2026-03-24

全面抢购的Coding Plan，是饥饿营销还是真的火到爆炸？

2026-03-24

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw