免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


把 Claude 放进浏览器:Anthropic发布Chrome插件,试点背后的安全取舍

发布日期:2025-08-28 16:19:10 浏览次数: 1520
作者:01麻瓜社

微信搜一搜,关注“01麻瓜社”

推荐语

Anthropic推出Claude浏览器插件,让AI直接帮你操作网页,但提示注入风险不容忽视。

核心内容:
1. Claude浏览器插件的功能与潜在效率提升
2. 提示注入攻击的风险与红队测试结果
3. Anthropic提出的安全防护方案与效果验证

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

近日,最知名的大模型厂商 Anthropic 推出了 Chrome 插件,使得 Claude 能够直接在浏览器中为您工作。目前该产品还处于早期的试水阶段,不过这已经成为巨头们布局浏览器市场的重要一步。

在这篇文章里,我想把 Anthropic 最新发布的“Claude for Chrome”试点项目讲清楚:为什么要让 AI 直接在浏览器里工作,它能做什么,以及更关键的,如何把风险压到可接受的范围。文章的重点放在实际的安全挑战和缓解思路上,包括他们在红队测试中观察到的攻击方式和效果。

简单说,Anthropic 正在小范围测试一个 Chrome 扩展,让可信用户授权 Claude 代你在网页上点击、填写、提交。但和便利一起到来的,是更棘手的“提示注入”风险,官方这次给出了相对具体的数据和防护方案。

Claude for Chrome 试点示意图

为什么让 AI 直接用浏览器

过去几个月,Claude 已能接入你的日历、文档和常见软件。顺着这个方向走下一步,就很自然想到浏览器。毕竟我们的大部分在线工作都发生在浏览器里。让 Claude“看见”你正在浏览的页面,替你点按钮、填表单,从效率上看确实有价值。

从实际应用来看,Anthropic 在内部用早期版本已经试着让 Claude 管理日程、安排会议、写邮件、报销、以及配合测试新网站功能。结果是“有明显帮助”。但他们也承认,广泛开放之前还得解决一些安全问题。

浏览器里的新风险:提示注入

这里的核心风险是“提示注入”(prompt injection)。简单说,就是在网页、邮件或文档里埋入恶意指令,诱导 AI 违背用户意图去执行危险操作。对于人类,这是钓鱼;对于会“读网页并执行”的 AI 来说,这是结构化的社工攻击。

  • 提示注入可能导致删除文件、窃取数据、甚至进行资金操作。
  • 这不是理论推演。Anthropic 做了红队测试(red-teaming,模拟对抗性攻击),在不加防护的情况下,确实出现了令人担心的结果。

一个具体例子是恶意邮件伪装成“安全团队”的通知,声称为了“邮箱卫生”需要删除邮件,而且“不需要额外确认”。测试里,Claude 在处理收件箱时照做了,直接帮用户删了邮件。加上新防护后,它能识别这是可疑的钓鱼信息,并停止执行。

实验数据:缓解前后差多少

为了量化风险,团队做了较系统的对抗测试:

  • 他们设计了 123 个测试用例,覆盖 29 种攻击场景。
  • 在“不加防护”的浏览器使用场景里,如果遭到有意攻击,成功率是 23.6%。
  • 加入新一轮缓解措施后,成功率降到 11.2%。这个水平已经低于他们此前的“Computer Use”能力(能看屏幕但没有完整浏览器接口)的攻破率。

另外,他们专门针对浏览器特有的新型攻击加了防护,比如:

  • 在 DOM(Document Object Model,文档对象模型)里藏不可见的恶意表单字段;
  • 把恶意指令塞进 URL 文本或标签页标题这种用户不太会留意、但代理会读取的地方。

在一个包含 4 类“浏览器特有”难题的挑战集上,新防护把攻击成功率从 35.7% 降到了 0%。这当然不是说万无一失,而是说明特定方向的缓解有明显效果。

他们怎么防:权限、确认和分类器

这个试点的防护思路比较朴素但有效,主要有三层:

  • 权限控制(permissions):
    • 站点级权限:你可以随时在设置里授权或收回 Claude 对某个网站的访问。
    • 行为确认:涉及发布、购买、分享个人信息这类高风险动作时,Claude 会先征求你的确认。即便你开启了“自主模式”(autonomous mode),这些敏感动作仍保留强制确认。需要说明的是,官方的红队测试和安全评估都是在自主模式下进行的。
  • 系统提示词(system prompts)强化:在模型收到你的具体指令前,先通过全局提示词约束它如何处理敏感数据、如何对待敏感请求。
  • 内容与行为过滤:
    • 直接屏蔽高风险站点类别,比如金融服务、成人内容、盗版内容等。
    • 训练并上线更高级的分类器(classifier)来检测可疑的指令模式和异常数据访问请求,即便它们看起来像出现在“正常网页”里。

总的来说,这些防护把风险从“容易中招”拉到了“需要更多努力才能中招”。但 Anthropic 也坦率表示,未知的攻击面还很多,他们希望把这个比例继续压低。

为什么先做小范围试点

内部测试始终不等于真实世界。用户的实际指令、访问的网站、恶意内容的呈现方式,在野外环境里都更复杂。而且新的提示注入手法还在不断被发明。

因此他们选择先在可信用户里做受控试点:从 1000 名 Max 订阅用户开始,逐步放量。目标是:

  • 收集真实环境中的失效案例,补充训练分类器与模型本身;
  • 找到模型没有抓住但分类器能抓住的模式,反之亦然;
  • 根据用户的实际习惯,设计更细粒度、更符合直觉的权限与确认流程。

如何参与内测

如果你愿意让 Claude 在 Chrome 里代你执行操作,且你的环境不涉及安全关键或敏感业务,可以加入等候名单:

  • 研究预览等候名单:claude.ai/chrome
  • 获得访问权限后,你可以在 Chrome Web Store 安装扩展,并用 Claude 账号登录。
  • 官方建议从可信网站开始,随时注意 Claude 能看到哪些数据。涉及金融、法律、医疗等敏感信息的网站,当前阶段尽量避免用 Claude for Chrome 操作。
  • 更详细的安全指引可以在 Help Center 查看:https://support.anthropic.com/en/articles/12012173-getting-started-with-claude-for-chrome

我怎么看

这个项目的核心在于,把“AI 看网页并执行动作”这件事做得更可控。好处显而易见,但提示注入在浏览器环境里更隐蔽、更多样。Anthropic 这次有两点值得注意:一是公开了对抗测试的基线数据和缓解后的对比,二是把权限-确认-分类器这套防线落到了具体产品形态里。

换个角度思考,如果你计划在自己的系统里引入“会点网页”的代理,这些经验几乎可以直接借用:始终保留用户在环的确认,显式限制站点范围,用系统提示词约束风险行为,再配合对抗性样本驱动的分类器。等真的要放到生产环境,逐步放量、先易后难,可能是更稳妥的路径。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询