我要投稿

Claude最强模型没那么神话，DeepSeek R1也能找到「大 bug」

发布日期：2026-04-15 18:31:06 浏览次数： 1795

作者：APPSO

微信搜一搜，关注“APPSO”

上周 Anthropic 发布 Mythos Preview 的时候，安全圈的反应可以用一个词概括：震惊。

一个 AI 模型自主发现了 FreeBSD 里藏了 17 年的远程代码执行漏洞，找到了 OpenBSD 里 27 年没人注意到的 TCP 协议缺陷，还独立写出了可以工作的攻击代码。Anthropic 随之宣布了 Project Glasswing，拉上一批科技公司组成联盟，承诺投入一亿美元的使用额度来修复开源软件的安全漏洞。

这一系列的操作这很是刺激行业神经，Mythos 竟然可以如此强大，人类真的要完蛋……等一下，没那么快。

便宜模型也能找到同样的漏洞

AISLE 是一家做 AI 安全的初创公司。从 2025 年年中开始，他们就在用 AI 系统给开源软件找漏洞和打补丁，已经累计发现并修复了超过 180 个被开源社区认可的安全漏洞，其中包括一些藏了 25 年以上的隐蔽问题。

Mythos出来后，他们做了一件尖锐的事：把 Mythos 展示的那些漏洞，拿给一批便宜得多的小模型跑。这些被称为「零日漏洞」，风险极大，一旦发现，安全人员基本没有反应时间。

结果很意外。

Mythos 找到的那个藏了 17 年的核心漏洞，也是 Anthropic 发布时用来「秀肌肉」的一个。AISLE 测了 8 个模型，全部成功找到了，包括一个小参数、成本只有 0.11 美元/百万 token 的模型，这个价格大约是 Mythos 的几十分之一。其中，DeepSeek R1 可以说是最精确的，与已发布的漏洞利用文档中的实际栈布局相符。

大多数模型不仅找到了漏洞，还正确评估到了漏洞可以被远程利用，给出了危险等级的判定。

另一个藏了 27 年的漏洞更难一些，需要对较深的数学原理有所理解。GPT-OSS-120b 一次就把整个攻击路径复现了出来，还提出了一个跟 A 社实际修复方案基本一致的补丁。Kimi K2 也出色完成，并且在针对此漏洞的后续脚手架搭建中，仅需三次简单的 API 调用，无需任何代理基础设施，就能观察到与 Mythos 公告中描述的攻击逻辑非常接近的结果。

不过最有意思的不是谁答对了，而是谁答错了：最贵的模型答错了最简单的题。

AISLE 出了一道非常基础、大约相当于安全行业的「小学毕业考题」：一段代码看起来有安全漏洞，但仔细看会发现问题数据在中间就被丢掉了，实际上并不会造成危害。

就像一把看起来很危险的枪，其实子弹在中途被卸掉了，这是一个现在没危险，但设计很糟糕的「假动作」。

大部分最贵、最强的前沿模型都答错了，Claude Sonnet 4.5 自信满满地给出了错误答案，GPT-4.1 和 GPT-5.4 系列也没能幸免。而 DeepSeek R1 四次试验结果均正确识别，GPT-OSS-20b 和 OpenAI o3 也能分辨出来。

安全并非一蹴而就

这些发现让 AISLE 提出了一个概念：锯齿状边界。

AI 的安全能力不是模型越大就越强，它是参差不齐的，排名在不同任务上会完全洗牌。同一个模型，在一个测试里可以拿满分，转头在另一个测试里自信地宣布「代码没问题」。另一个模型在复杂任务上表现最佳，转头在基础题上犯最低级的错误。

不存在「最好的安全 AI」，能力的边界是锯齿状的。

就像这些测试，不是说 Mythos 不强。在他们做的实验里，小模型被分配的是跟漏洞相关的代码，是单独抽出来给小模型们看的，等于是告诉它「看看这里，有没有问题」，算是打了一点小抄。

而 Mythos 厉害的地方是从头到尾的自主性，它能自己从几十万个文件里找到值得深入检查的地方，提出假设，验证问题，写出攻击代码，全程自动。

但是话锋一转，AISLE 认为，这个「全程自动」的价值主要来自工程设计，而不是模型智能本身。

比如说，找 AI 找漏洞这件事，大致可以拆成几步：先大范围扫描代码库找可疑的地方，然后深入检查是不是真的有漏洞，再判断严重程度，最后写补丁修复它。这几步之间，难度差异很大。

「找出问题」这一步，便宜模型已经可以胜任。真正难的是怎么把这些步骤串成一个可靠的流水线：让 AI 找对地方、排除误报、制定战术和实行。

做 AI 安全需要几样东西：AI 的智能、运行的成本、运行的速度，以及嵌入在整个系统和团队里的安全专业知识。Anthropic 把第一项做到了极致，但 AISLE 的经验是其他几项同样重要，有时甚至更重要。AISLE 自己的系统同时使用很多家的模型，表现最好的那个按任务不同随时在切换，OpenSSL 的技术负责人评价他们是「高质量的报告和建设性的协作」。