微信扫码
添加专属顾问
我要投稿
Cloudflare革命性技术让AI抓取网页效率提升80%,彻底改变传统HTML解析方式。核心内容: 1. Markdown for Agents技术原理与内容协商机制 2. 开发者如何快速升级AI工具以利用该功能 3. 现成工具markdown.new的三层智能转换策略
Cloudflare最近推出的Markdown for Agents功能,让AI抓取网页的方式发生了根本变化。这项技术允许网站在服务器端直接将HTML内容实时转换为Markdown格式,而不是让每个AI系统各自进行转换。
这个功能的关键在于内容协商机制。当AI系统在HTTP请求头中添加Accept: text/markdown时,启用该功能的Cloudflare网站就会直接返回Markdown格式的内容。
传统AI处理网页内容时,需要先下载完整的HTML代码,然后费力地剔除导航栏、广告、脚本等无关元素。这个过程既浪费计算资源,又消耗大量token。
Cloudflare的示例显示,一篇博客文章的HTML版本需要16,180个token,而转换为Markdown后仅需3,150个token,节省了80%。这种节省对于需要处理大量网页内容的AI系统来说意义重大。
为OpenClaw等AI工具升级网页抓取逻辑很简单:在所有HTTP请求中统一添加Accept: text/markdown, text/html头。支持的网站会返回Markdown,不支持的网站继续返回HTML,实现向后兼容。
具体操作包括:
Cloudflare已经在自己的开发者文档和博客上启用了这个功能。开发者可以通过简单的curl命令测试:
curl https://blog.cloudflare.com/markdown-for-agents/ -H "Accept: text/markdown"
响应中还会包含x-markdown-tokens头,显示转换后的token数量,方便AI系统进行上下文窗口计算。
Cloudflare推出Markdown for Agents功能后,开发者Emre Elbeyoglu很快搭建了一个实用工具:markdown.new。这个服务让任何人都能直接体验网页转Markdown的效果。
使用方法简单到极致:在任何URL前面加上https://markdown.new/就能获得Markdown版本。比如:
https://markdown.new/https://example.com
markdown.new采用了智能的三层转换策略:
Accept: text/markdown请求头,如果目标网站启用了Markdown for Agents,直接获得最优质的转换结果toMarkdown()函数进行转
这种设计确保了对任何网站的兼容性,不仅限于启用了Markdown for Agents的站点。实测下来,速度很快,一篇文章仅需一秒内就能完成。反爬角度对自家免疫,但对于微信公众号这类特殊网站仍然无能为力。
Cloudflare Radar已经开始跟踪AI爬虫的内容类型使用情况。数据显示,越来越多的AI系统开始请求Markdown格式内容。这种转变可能预示着网页内容消费方式的根本性变化。
对于网站所有者来说,在Cloudflare仪表板中启用这个功能是免费的,目前处于Beta测试阶段,支持Pro、Business和Enterprise计划。
爬网页,基本上是AI应用第一课。OpenClaw做的好的关键除了网关外,更重要的就是作者的那一堆配套工具,特别是sumarize工具,就是专门用来爬网页、总结网页而做的。现在Cloudflare从拦截到推出这类工具的出现标志着AI内容处理管道的标准化,也标志着对于AI的态度由堵变疏。(Cloudflare 增强robots协议:对“AI白嫖”说不)开发者不再需要自己实现HTML到Markdown的转换逻辑,可以直接调用这些专业服务。
对于构建RAG系统、训练数据准备、知识库构建等场景,这种标准化的转换服务大大降低了技术门槛。
相较于jina.ai这类第三方爬取服务,Cloudflare亲自下场做这件事有明显优势。反爬虫机制对自家流量基本无效,爬取性能也能达到边缘网络的原生速度。这种基础设施级别的支持,是外部服务很难比拟的。
关注公众号回复“进群”入群讨论
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-14
拆解 OpenClaw 记忆机制:当记忆不再是数据库,而是用户可读的文件
2026-02-14
国产模型再发力!刚刚,字节发布 Doubao 2.0 Pro,硬刚 GPT-5.2!
2026-02-14
试用 “全球最强模型” Gemini 3 Deep Think
2026-02-14
豆包 2.0 模型发布,全信息整理(全网最完整,另附 79 页 Model Card)
2026-02-14
一切皆可Agent Skills,无处不在的AI Agent会替代业务流程吗?
2026-02-14
豆包大模型2.0发布
2026-02-14
DeepSeek-V3.2 on GB300:性能表现与部署实践
2026-02-14
CoPaw发布:即刻加载你的专属智能搭档
2026-01-24
2026-01-10
2025-11-19
2026-01-26
2026-01-01
2025-12-09
2025-12-21
2026-01-09
2026-02-03
2026-01-09
2026-02-14
2026-02-13
2026-02-12
2026-02-12
2026-02-11
2026-02-11
2026-02-11
2026-02-11