我要投稿

Anthropic的六步闭环，让漏洞无处遁形

发布日期：2026-05-31 10:04:08 浏览次数： 1508

作者：数据分析能量站

微信搜一搜，关注“数据分析能量站”

安全团队人手永远不够，代码库越堆越大，传统的漏洞扫描工具扫出来一堆结果，80%都是误报，工程师看到安全告警直接免疫，真的漏洞反而被淹没在噪声里。

最近Anthropic的安全团队给出了一个新的答案：用AI把代码安全的效率拉满，而且他们已经用这套方法，在开源代码里挖出了500多个藏了几十年、传统工具完全没发现的高危漏洞。

为了解决这个问题，Anthropic把过去一年和上百家企业安全团队合作的经验，总结成了一套可落地的六步AI安全闭环，还把配套的工具、框架全部开源/开放了，今天我们就来拆解这套方案，以及它背后那些能直接拿来用的工具。

0 为什么传统安全工具越来越不够用了？

过去我们用的静态扫描工具（SAST），本质上是“规则匹配”：把你的代码和已知的漏洞模式比，比如有没有硬编码密钥、有没有用过时的加密库。

但现在的漏洞越来越复杂：

跨文件的业务逻辑漏洞（比如权限校验漏了某个接口）
未知的漏洞，没有现成的规则可以匹配
数据流追踪：用户的输入到底能不能一路流到危险的函数里，规则工具根本理不清

而AI不一样，它能像人类安全研究员一样，读代码、理逻辑、追数据流，甚至能自己写POC验证漏洞能不能被利用。

但光有大模型还不够，Anthropic发现，直接让AI扫代码，会遇到三个新问题：

误报还是高：AI不知道你的业务逻辑，会把你内部可信的配置当成漏洞
结果太多，处理不过来：AI一天能找出上百个漏洞，安全团队根本审不过来
修复脱节：扫出漏洞之后，没人管怎么修，最后还是堆成技术债

于是他们就搭了这套六步的闭环，把AI的能力和工程化的流程结合起来，把整个安全审计的流程自动化了。

1 六步闭环：AI安全审计的标准化流程

这套流程的核心逻辑很简单：先搭好边界，再让AI批量干活，最后把结果过滤、排序、修复，形成闭环。

前两步是一次性的搭建工作，后面四步就是可以反复跑的扫描循环。

第一步：威胁建模，先搞清楚“什么才是漏洞”

这是整个流程最基础，也是最容易被忽略的一步。

你有没有遇到过，AI扫完代码，给你报了一堆你根本不在乎的“漏洞”？比如你内部服务的配置文件，本来就是可信的，AI却当成了“硬编码密钥”的高危漏洞。

这就是因为AI不知道你的信任边界——它不知道你的系统里，哪些是可信的，哪些是不可信的，哪些漏洞对你来说是真的风险，哪些只是理论上的。

所以第一步，你要先给AI做一个威胁模型，告诉它你的系统是什么样的：

你的服务哪些是对外的，哪些是内部的？
你信任哪些输入？配置文件里的内容能不能信？
你最关心哪些漏洞？哪些可以忽略？

Anthropic甚至做了个工具，能自动帮你生成这个威胁模型：

把你的架构文档、Git历史、过去的漏洞都喂给AI，它会自动生成一份THREAT_MODEL.md的初稿
然后AI会拿着这份初稿，用经典的安全四问（你在做什么？可能出什么错？你打算怎么应对？做得好不好？）跟系统负责人对齐，把隐性的业务逻辑补全

做完这一步，AI就不会再乱报误报了——有团队试过，做完威胁建模之后，AI发现的漏洞，90%都是真的可利用的，而不是之前的一半都是噪声。

✅ 现成工具：Anthropic的开源参考仓库里，已经有了threat-model这个技能，你直接在ClaudeCode里运行，就能自动帮你生成威胁模型，不用自己写。

第二步：搭沙箱，既安全，又能验证漏洞

威胁模型搭完，接下来要搭一个沙箱环境，这一步有两个目的：

保护你的生产环境：AI在扫描的时候，可能会不小心跑一些危险的命令，沙箱能把它隔离起来，不会影响到你自己的机器
验证漏洞能不能被利用：AI扫代码的时候，猜出来一个漏洞，它能不能在沙箱里跑个POC，真的试一下能不能利用？这样就能把不可利用的误报直接删掉

Anthropic的最佳实践是：

先把你的环境搭好，装依赖、编译代码、跑通测试，然后给整个环境打个快照
断网！除了调用AI API的请求，其他网络全部关掉，防止AI乱连东西
每次扫描都加载这个快照，保证每次的环境都是干净的、和生产环境一模一样的

这样一来，AI就能在沙箱里放心地跑POC，验证漏洞，而你完全不用担心它会搞坏你的环境。有团队试过，加了沙箱验证之后，非 exploitable 的发现直接掉了一大半，误报率降到了传统工具的1/10。

✅ 现成工具：开源仓库里已经有了沙箱的配置脚本，setup_sandbox.sh，你直接跑就能搭好隔离环境，不用自己折腾。

第三步：批量发现漏洞，几十上百个AI并行干活

前两步搭完，就可以开始真正的扫描了。

这一步的逻辑很简单：不要让一个AI从头到尾扫整个代码库，那样太慢了。而是让AI先把代码库拆成一块一块的，比如按模块、按接口、按攻击面，然后启动几十上百个并行的子智能体，每个智能体扫一块，同时干活。

而且Anthropic发现，这时候不要给AI写一堆长长的检查清单，那样反而会限制它的创造力。你只要告诉它目标：“扫这个模块，找安全漏洞”，剩下的让AI自己想怎么扫就行——它会自己用grep、自己读文件、自己跑工具，甚至自己写工具来扫。

比如他们自己扫开源代码的时候，就是用这种并行的方式，一天就能扫完几十万行的代码，找出一堆传统工具没发现的漏洞。

✅ 现成工具：仓库里的vuln-scan技能，就是干这个的，它会自动读你的威胁模型，拆代码库，并行扫描，最后输出结构化的结果。

第四步：独立验证，让AI自己挑自己的错

扫出一堆潜在漏洞之后，不能直接给开发，因为里面还是会有误报。

这一步的核心是：发现漏洞的AI只管找，验证的事交给另一个完全独立的AI。

这个验证的AI，是在一个全新的环境里启动的，没有之前的上下文，它拿到发现的结果，第一件事就是：假设这个漏洞是假的，我要想办法证伪它。

它会去看：

有没有上游的校验？是不是用户的输入其实已经被过滤过了？
有没有认证 gate？是不是这个接口其实只有登录用户才能调？
这个代码是不是根本跑不到？是不是死代码？

甚至如果有沙箱的话，它会自己跑一遍POC，看能不能真的利用这个漏洞。

更狠的是，Anthropic还会启动好几个独立的验证AI，一起投票，要是意见不一致，就再启动一个裁判AI来仲裁。

这套下来，误报率直接降到了接近0——因为AI会自己把自己的错挑出来。有团队试过，加了这一步，非 exploitable 的发现直接砍掉了一半，安全团队再也不用处理一堆没用的告警了。

第五步：定级去重，别让工程师被告警淹没

验证完真漏洞之后，还有个问题：一次扫描可能扫出几十个漏洞，哪个要先修？

而且AI扫的时候，同一个根因的漏洞，可能会报好多次——比如你整个系统都缺了权限校验，AI会给每个接口都报一遍，最后给你几十个一模一样的告警。

所以这一步就是去重+排序：

去重：把同一个根因的漏洞合并，比如缺权限校验，不管有多少个接口，都合并成一个，让开发一次修完
排序：按可利用性给漏洞打分，不是按漏洞类型，而是看：能不能被未登录的用户利用？能不能远程触发？影响有多大？把最危险的排在最前面

这样最后给开发的，就是一个排好序的、没有重复的漏洞列表，工程师一眼就知道该先修哪个，再也不会被一堆告警淹没了。

✅ 现成工具：triage技能，自动帮你做去重和排序，直接输出排好序的结果。

第六步：闭环修复，从发现到改完，一步到位

最后一步，就是修复漏洞，而且是自动的。

AI不会只告诉你“这里有个漏洞”，它会直接帮你写好修复的代码，而且是遵循你的代码风格的。

更重要的是，它不是只改这一个点，它会：

先写一个失败的测试，证明这个漏洞真的存在
找到根因，不是只改症状，比如缺权限校验，它会把所有同类的接口都改了
改完之后，它会自己验证：编译能不能过？POC还能不能用？原来的测试能不能过？
最后，再启动一个对抗性的AI，假装攻击者，试一下能不能绕过这个修复

整个过程，完全不用人插手，你只要 review 一下AI写的补丁，合并不就行了。

✅ 现成工具：patch技能，自动帮你生成修复的diff，还带独立的复核，你直接用就行。

2 这些工具，你今天就能拿来用

Anthropic不是只给了一套理论，而是把所有配套的工具都做出来了，你今天就能拿来用，不用自己搭。

1. 开源参考框架：defending-code-reference-harness

这就是Anthropic把整个六步闭环的代码都开源出来的仓库，里面有：

所有的技能：威胁建模、扫描、验证、定级、修复，全部现成的
沙箱的配置脚本，直接用
演示的例子，你clone下来，跑/quickstart，就能直接在demo上跑一遍整个流程，5分钟就能看到效果

你要是想自己搭，直接拿这个仓库改就行，不用从零开始。

2. 自动化PR审查：claude-code-security-review

这个是Anthropic官方的GitHub Action，你只要把它加到你的CI里，每次有人提PR，它就会自动扫一遍修改的代码，找安全漏洞，然后把结果直接评论在PR上，带修复建议。

它比传统的SAST强在哪？

它能理解代码语义，跨文件追踪数据流，找业务逻辑漏洞
自动过滤误报，不会给你乱报告警
支持所有编程语言，不管你用Python、Rust、Go还是Java，都能用

而且它的成本很低，一个普通的PR，用Sonnet模型的话，只要几分钱到一毛钱，团队一个月下来也就几十块钱，比请一个安全工程师便宜多了。

3. 企业托管服务：Claude Security

如果你是企业用户，不想自己搭这些东西，Anthropic还有现成的SaaS服务Claude Security。

你只要把你的GitHub仓库授权给它，它就会：

自动定期帮你扫代码库，找漏洞
给你一个dashboard，看所有的漏洞，优先级是什么
自动帮你生成修复的PR，你只要点一下合并就行
支持合规审计，SOC2、HIPAA这些都能覆盖

他们已经用这个服务，帮客户找出了500多个传统工具没发现的漏洞，很多都是藏了十几年的老漏洞。

4. 自定义安全Agent：自己搭专属扫描器

如果你想自己定制，比如你们公司有特殊的安全规则，Claude Code还支持自定义Agent，你只要写一个简单的Markdown文件，就能做一个自己的安全扫描器。

比如你可以做一个专门扫OWASP Top 10的Agent，或者专门扫你们支付模块的Agent，以后只要调用它，它就会自动按你们的规则扫，不用每次都重复写prompt。

3 不同团队，怎么快速上手？

看完这么多，你可能会问，我该从哪开始？

个人开发者：直接用GitHubAction，加到你的项目里，每次PR自动扫，5分钟就能搭完，成本几乎为0
中小团队：clone那个开源参考仓库，把六步流程跑起来，每周自动扫一次代码库，就能覆盖大部分风险
大企业：直接用Claude Security托管服务，不用自己搭基础设施，安全团队只要处理AI筛出来的高危漏洞就行，效率提升10倍

4 最后：AI安全的时代，防御者终于能追上攻击者了

现在的安全行业有个困境：攻击者已经在用AI找漏洞了，他们用AI一天能挖几十个零日，而防御者还在用几年前的老工具，一个月才能修几个。

Anthropic的这套方案，就是把同样的AI能力，交到了防御者的手里——你能用AI比攻击者更快地找到漏洞，修完，在攻击者利用之前就把坑填上。

这就是AI安全的未来：不是把安全专家换掉，而是给他们装上 jetpack，让他们能跟上这个越来越快的世界。

如果你也想试试，这些工具的链接都给你整理好了：

开源参考仓库：anthropics/defending-code-reference-harness
GitHub Action：anthropics/claude-code-security-review
Claude Security 产品页：https://claude.com/solutions/security

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业