2026年6月4日 周四晚上19:30,报名腾讯会议了解“业务抓夹如何成为前线部署工程师(FDE)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

Anthropic的六步闭环,让漏洞无处遁形

发布日期:2026-05-31 10:04:08 浏览次数: 1508
作者:数据分析能量站

微信搜一搜,关注“数据分析能量站”

推荐语

AI驱动代码安全革命,Anthropic开源六步闭环让高危漏洞无所遁形。

核心内容:
1. 传统安全工具的困境与AI审计的突破性优势
2. 六步AI安全闭环的标准化流程与核心逻辑
3. 配套开源工具与可落地的实践方案

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

安全团队人手永远不够,代码库越堆越大,传统的漏洞扫描工具扫出来一堆结果,80%都是误报,工程师看到安全告警直接免疫,真的漏洞反而被淹没在噪声里。

最近Anthropic的安全团队给出了一个新的答案:用AI把代码安全的效率拉满,而且他们已经用这套方法,在开源代码里挖出了500多个藏了几十年、传统工具完全没发现的高危漏洞

为了解决这个问题,Anthropic把过去一年和上百家企业安全团队合作的经验,总结成了一套可落地的六步AI安全闭环,还把配套的工具、框架全部开源/开放了,今天我们就来拆解这套方案,以及它背后那些能直接拿来用的工具。


0 为什么传统安全工具越来越不够用了?

过去我们用的静态扫描工具(SAST),本质上是“规则匹配”:把你的代码和已知的漏洞模式比,比如有没有硬编码密钥、有没有用过时的加密库。

但现在的漏洞越来越复杂:

  • 跨文件的业务逻辑漏洞(比如权限校验漏了某个接口)

  • 未知的漏洞,没有现成的规则可以匹配

  • 数据流追踪:用户的输入到底能不能一路流到危险的函数里,规则工具根本理不清

而AI不一样,它能像人类安全研究员一样,读代码、理逻辑、追数据流,甚至能自己写POC验证漏洞能不能被利用。


但光有大模型还不够,Anthropic发现,直接让AI扫代码,会遇到三个新问题:

  • 误报还是高:AI不知道你的业务逻辑,会把你内部可信的配置当成漏洞

  • 结果太多,处理不过来:AI一天能找出上百个漏洞,安全团队根本审不过来

  • 修复脱节:扫出漏洞之后,没人管怎么修,最后还是堆成技术债

于是他们就搭了这套六步的闭环,把AI的能力和工程化的流程结合起来,把整个安全审计的流程自动化了。


1 六步闭环:AI安全审计的标准化流程

这套流程的核心逻辑很简单:先搭好边界,再让AI批量干活,最后把结果过滤、排序、修复,形成闭环

前两步是一次性的搭建工作,后面四步就是可以反复跑的扫描循环。


第一步:威胁建模,先搞清楚“什么才是漏洞”

这是整个流程最基础,也是最容易被忽略的一步。

你有没有遇到过,AI扫完代码,给你报了一堆你根本不在乎的“漏洞”?比如你内部服务的配置文件,本来就是可信的,AI却当成了“硬编码密钥”的高危漏洞。

这就是因为AI不知道你的信任边界——它不知道你的系统里,哪些是可信的,哪些是不可信的,哪些漏洞对你来说是真的风险,哪些只是理论上的。

所以第一步,你要先给AI做一个威胁模型,告诉它你的系统是什么样的:

  • 你的服务哪些是对外的,哪些是内部的?

  • 你信任哪些输入?配置文件里的内容能不能信?

  • 你最关心哪些漏洞?哪些可以忽略?

Anthropic甚至做了个工具,能自动帮你生成这个威胁模型:

  • 把你的架构文档、Git历史、过去的漏洞都喂给AI,它会自动生成一份THREAT_MODEL.md的初稿

  • 然后AI会拿着这份初稿,用经典的安全四问(你在做什么?可能出什么错?你打算怎么应对?做得好不好?)跟系统负责人对齐,把隐性的业务逻辑补全

做完这一步,AI就不会再乱报误报了——有团队试过,做完威胁建模之后,AI发现的漏洞,90%都是真的可利用的,而不是之前的一半都是噪声。

✅ 现成工具:Anthropic的开源参考仓库里,已经有了threat-model这个技能,你直接在ClaudeCode里运行,就能自动帮你生成威胁模型,不用自己写。


第二步:搭沙箱,既安全,又能验证漏洞

威胁模型搭完,接下来要搭一个沙箱环境,这一步有两个目的:

  • 保护你的生产环境:AI在扫描的时候,可能会不小心跑一些危险的命令,沙箱能把它隔离起来,不会影响到你自己的机器

  • 验证漏洞能不能被利用:AI扫代码的时候,猜出来一个漏洞,它能不能在沙箱里跑个POC,真的试一下能不能利用?这样就能把不可利用的误报直接删掉


Anthropic的最佳实践是:

  • 先把你的环境搭好,装依赖、编译代码、跑通测试,然后给整个环境打个快照

  • 断网!除了调用AI API的请求,其他网络全部关掉,防止AI乱连东西

  • 每次扫描都加载这个快照,保证每次的环境都是干净的、和生产环境一模一样的

这样一来,AI就能在沙箱里放心地跑POC,验证漏洞,而你完全不用担心它会搞坏你的环境。有团队试过,加了沙箱验证之后,非 exploitable 的发现直接掉了一大半,误报率降到了传统工具的1/10。

✅ 现成工具:开源仓库里已经有了沙箱的配置脚本,setup_sandbox.sh,你直接跑就能搭好隔离环境,不用自己折腾。


第三步:批量发现漏洞,几十上百个AI并行干活

前两步搭完,就可以开始真正的扫描了。

这一步的逻辑很简单:不要让一个AI从头到尾扫整个代码库,那样太慢了。而是让AI先把代码库拆成一块一块的,比如按模块、按接口、按攻击面,然后启动几十上百个并行的子智能体,每个智能体扫一块,同时干活。

而且Anthropic发现,这时候不要给AI写一堆长长的检查清单,那样反而会限制它的创造力。你只要告诉它目标:“扫这个模块,找安全漏洞”,剩下的让AI自己想怎么扫就行——它会自己用grep、自己读文件、自己跑工具,甚至自己写工具来扫。

比如他们自己扫开源代码的时候,就是用这种并行的方式,一天就能扫完几十万行的代码,找出一堆传统工具没发现的漏洞。

✅ 现成工具:仓库里的vuln-scan技能,就是干这个的,它会自动读你的威胁模型,拆代码库,并行扫描,最后输出结构化的结果。


第四步:独立验证,让AI自己挑自己的错

扫出一堆潜在漏洞之后,不能直接给开发,因为里面还是会有误报。

这一步的核心是:发现漏洞的AI只管找,验证的事交给另一个完全独立的AI

这个验证的AI,是在一个全新的环境里启动的,没有之前的上下文,它拿到发现的结果,第一件事就是:假设这个漏洞是假的,我要想办法证伪它

它会去看:

  • 有没有上游的校验?是不是用户的输入其实已经被过滤过了?

  • 有没有认证 gate?是不是这个接口其实只有登录用户才能调?

  • 这个代码是不是根本跑不到?是不是死代码?

甚至如果有沙箱的话,它会自己跑一遍POC,看能不能真的利用这个漏洞。

更狠的是,Anthropic还会启动好几个独立的验证AI,一起投票,要是意见不一致,就再启动一个裁判AI来仲裁。

这套下来,误报率直接降到了接近0——因为AI会自己把自己的错挑出来。有团队试过,加了这一步,非 exploitable 的发现直接砍掉了一半,安全团队再也不用处理一堆没用的告警了。


第五步:定级去重,别让工程师被告警淹没

验证完真漏洞之后,还有个问题:一次扫描可能扫出几十个漏洞,哪个要先修?

而且AI扫的时候,同一个根因的漏洞,可能会报好多次——比如你整个系统都缺了权限校验,AI会给每个接口都报一遍,最后给你几十个一模一样的告警。

所以这一步就是去重+排序

  • 去重:把同一个根因的漏洞合并,比如缺权限校验,不管有多少个接口,都合并成一个,让开发一次修完

  • 排序:按可利用性给漏洞打分,不是按漏洞类型,而是看:能不能被未登录的用户利用?能不能远程触发?影响有多大?把最危险的排在最前面

这样最后给开发的,就是一个排好序的、没有重复的漏洞列表,工程师一眼就知道该先修哪个,再也不会被一堆告警淹没了。

✅ 现成工具:triage技能,自动帮你做去重和排序,直接输出排好序的结果。


第六步:闭环修复,从发现到改完,一步到位

最后一步,就是修复漏洞,而且是自动的。

AI不会只告诉你“这里有个漏洞”,它会直接帮你写好修复的代码,而且是遵循你的代码风格的。

更重要的是,它不是只改这一个点,它会:

  • 先写一个失败的测试,证明这个漏洞真的存在

  • 找到根因,不是只改症状,比如缺权限校验,它会把所有同类的接口都改了

  • 改完之后,它会自己验证:编译能不能过?POC还能不能用?原来的测试能不能过?

  • 最后,再启动一个对抗性的AI,假装攻击者,试一下能不能绕过这个修复

整个过程,完全不用人插手,你只要 review 一下AI写的补丁,合并不就行了。

✅ 现成工具:patch技能,自动帮你生成修复的diff,还带独立的复核,你直接用就行。


2 这些工具,你今天就能拿来用

Anthropic不是只给了一套理论,而是把所有配套的工具都做出来了,你今天就能拿来用,不用自己搭。

1. 开源参考框架:defending-code-reference-harness

这就是Anthropic把整个六步闭环的代码都开源出来的仓库,里面有:

  • 所有的技能:威胁建模、扫描、验证、定级、修复,全部现成的

  • 沙箱的配置脚本,直接用

  • 演示的例子,你clone下来,跑/quickstart,就能直接在demo上跑一遍整个流程,5分钟就能看到效果

你要是想自己搭,直接拿这个仓库改就行,不用从零开始。


2. 自动化PR审查:claude-code-security-review

这个是Anthropic官方的GitHub Action,你只要把它加到你的CI里,每次有人提PR,它就会自动扫一遍修改的代码,找安全漏洞,然后把结果直接评论在PR上,带修复建议。

它比传统的SAST强在哪?

  • 它能理解代码语义,跨文件追踪数据流,找业务逻辑漏洞

  • 自动过滤误报,不会给你乱报告警

  • 支持所有编程语言,不管你用Python、Rust、Go还是Java,都能用

而且它的成本很低,一个普通的PR,用Sonnet模型的话,只要几分钱到一毛钱,团队一个月下来也就几十块钱,比请一个安全工程师便宜多了。


3. 企业托管服务:Claude Security

如果你是企业用户,不想自己搭这些东西,Anthropic还有现成的SaaS服务Claude Security。

你只要把你的GitHub仓库授权给它,它就会:

  • 自动定期帮你扫代码库,找漏洞

  • 给你一个dashboard,看所有的漏洞,优先级是什么

  • 自动帮你生成修复的PR,你只要点一下合并就行

  • 支持合规审计,SOC2、HIPAA这些都能覆盖

他们已经用这个服务,帮客户找出了500多个传统工具没发现的漏洞,很多都是藏了十几年的老漏洞。


4. 自定义安全Agent:自己搭专属扫描器

如果你想自己定制,比如你们公司有特殊的安全规则,Claude Code还支持自定义Agent,你只要写一个简单的Markdown文件,就能做一个自己的安全扫描器。

比如你可以做一个专门扫OWASP Top 10的Agent,或者专门扫你们支付模块的Agent,以后只要调用它,它就会自动按你们的规则扫,不用每次都重复写prompt。


3 不同团队,怎么快速上手?

看完这么多,你可能会问,我该从哪开始?

  • 个人开发者:直接用GitHubAction,加到你的项目里,每次PR自动扫,5分钟就能搭完,成本几乎为0

  • 中小团队:clone那个开源参考仓库,把六步流程跑起来,每周自动扫一次代码库,就能覆盖大部分风险

  • 大企业:直接用Claude Security托管服务,不用自己搭基础设施,安全团队只要处理AI筛出来的高危漏洞就行,效率提升10倍


4 最后:AI安全的时代,防御者终于能追上攻击者了

现在的安全行业有个困境:攻击者已经在用AI找漏洞了,他们用AI一天能挖几十个零日,而防御者还在用几年前的老工具,一个月才能修几个。

Anthropic的这套方案,就是把同样的AI能力,交到了防御者的手里——你能用AI比攻击者更快地找到漏洞,修完,在攻击者利用之前就把坑填上。

这就是AI安全的未来:不是把安全专家换掉,而是给他们装上 jetpack,让他们能跟上这个越来越快的世界。

如果你也想试试,这些工具的链接都给你整理好了:

  • 开源参考仓库:anthropics/defending-code-reference-harness

  • GitHub Action:anthropics/claude-code-security-review

  • Claude Security 产品页:https://claude.com/solutions/security


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询