微信扫码
添加专属顾问
我要投稿
Anthropic推出Claude浏览器插件,让AI直接帮你操作网页,但提示注入风险不容忽视。 核心内容: 1. Claude浏览器插件的功能与潜在效率提升 2. 提示注入攻击的风险与红队测试结果 3. Anthropic提出的安全防护方案与效果验证
近日,最知名的大模型厂商
Anthropic
推出了Chrome
插件,使得Claude
能够直接在浏览器中为您工作。目前该产品还处于早期的试水阶段,不过这已经成为巨头们布局浏览器市场的重要一步。
在这篇文章里,我想把 Anthropic 最新发布的“Claude for Chrome”试点项目讲清楚:为什么要让 AI 直接在浏览器里工作,它能做什么,以及更关键的,如何把风险压到可接受的范围。文章的重点放在实际的安全挑战和缓解思路上,包括他们在红队测试中观察到的攻击方式和效果。
简单说,Anthropic 正在小范围测试一个 Chrome 扩展,让可信用户授权 Claude 代你在网页上点击、填写、提交。但和便利一起到来的,是更棘手的“提示注入”风险,官方这次给出了相对具体的数据和防护方案。
过去几个月,Claude 已能接入你的日历、文档和常见软件。顺着这个方向走下一步,就很自然想到浏览器。毕竟我们的大部分在线工作都发生在浏览器里。让 Claude“看见”你正在浏览的页面,替你点按钮、填表单,从效率上看确实有价值。
从实际应用来看,Anthropic 在内部用早期版本已经试着让 Claude 管理日程、安排会议、写邮件、报销、以及配合测试新网站功能。结果是“有明显帮助”。但他们也承认,广泛开放之前还得解决一些安全问题。
这里的核心风险是“提示注入”(prompt injection)。简单说,就是在网页、邮件或文档里埋入恶意指令,诱导 AI 违背用户意图去执行危险操作。对于人类,这是钓鱼;对于会“读网页并执行”的 AI 来说,这是结构化的社工攻击。
一个具体例子是恶意邮件伪装成“安全团队”的通知,声称为了“邮箱卫生”需要删除邮件,而且“不需要额外确认”。测试里,Claude 在处理收件箱时照做了,直接帮用户删了邮件。加上新防护后,它能识别这是可疑的钓鱼信息,并停止执行。
为了量化风险,团队做了较系统的对抗测试:
另外,他们专门针对浏览器特有的新型攻击加了防护,比如:
在一个包含 4 类“浏览器特有”难题的挑战集上,新防护把攻击成功率从 35.7% 降到了 0%。这当然不是说万无一失,而是说明特定方向的缓解有明显效果。
这个试点的防护思路比较朴素但有效,主要有三层:
总的来说,这些防护把风险从“容易中招”拉到了“需要更多努力才能中招”。但 Anthropic 也坦率表示,未知的攻击面还很多,他们希望把这个比例继续压低。
内部测试始终不等于真实世界。用户的实际指令、访问的网站、恶意内容的呈现方式,在野外环境里都更复杂。而且新的提示注入手法还在不断被发明。
因此他们选择先在可信用户里做受控试点:从 1000 名 Max 订阅用户开始,逐步放量。目标是:
如果你愿意让 Claude 在 Chrome 里代你执行操作,且你的环境不涉及安全关键或敏感业务,可以加入等候名单:
这个项目的核心在于,把“AI 看网页并执行动作”这件事做得更可控。好处显而易见,但提示注入在浏览器环境里更隐蔽、更多样。Anthropic 这次有两点值得注意:一是公开了对抗测试的基线数据和缓解后的对比,二是把权限-确认-分类器这套防线落到了具体产品形态里。
换个角度思考,如果你计划在自己的系统里引入“会点网页”的代理,这些经验几乎可以直接借用:始终保留用户在环的确认,显式限制站点范围,用系统提示词约束风险行为,再配合对抗性样本驱动的分类器。等真的要放到生产环境,逐步放量、先易后难,可能是更稳妥的路径。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-28
微软研究院:生成式AI如何重塑职场,你的工作受影响了吗?
2025-08-28
智能体落地难?那是你没理解什么是“原生一体化”
2025-08-28
AI 没有让你赚到钱之前不要为AI支付一分钱
2025-08-28
认识模型上下文协议(MCP)(上)
2025-08-28
FunctionAI 图像生成:简化从灵感到 API 调用的每一步
2025-08-28
隐私优先的本地匿名化小模型:在数据离开设备前保护个人信息
2025-08-28
AI是通向“超人”的阶梯,还是退回“猿猴”的陷阱?
2025-08-28
整理:深入理解 GEO:AI 搜索时代的内容优化逻辑与实践方法
2025-08-21
2025-06-01
2025-06-21
2025-08-21
2025-08-19
2025-06-07
2025-06-12
2025-06-19
2025-06-13
2025-07-29
2025-08-28
2025-08-28
2025-08-28
2025-08-28
2025-08-27
2025-08-26
2025-08-25
2025-08-25