我要投稿

测一测：你的 AI 安全知识，处在什么水位？

发布日期：2026-06-04 08:14:08 浏览次数： 1525

作者：模安局

微信搜一搜，关注“模安局”

如果你正在关注 AI 安全，或者准备进入这个领域，我想先问你几个问题。

你能说清 GCG 和 PAIR 这两类越狱攻击的关键差异吗？你知道 NIST AI RMF 里的四个核心 function 分别在解决什么问题吗？你是否理解，为什么在 Agent 场景里，只做输入输出内容审核，往往并不足以覆盖真正的工具调用风险？

如果这些问题你都能顺畅回答，说明你对 AI 安全已经有一定积累。如果答不上来也没关系，这恰恰说明你需要一个更系统的入口，帮你判断自己现在在哪一层、还缺哪一块。

所以这次，我想正式介绍一下我最近做的一个新东西：AI 安全知识测评。

它已经上线在模安局网站：https://moanju.org/quiz/

不是测AI安不安全，而是测你对AI安全了解多少

先说清楚，这个名字虽然叫“AI 安全知识测评”，但它测的不是某个模型安不安全，也不是对某个产品做红蓝对抗，而是测你自己的 AI 安全知识结构。

我把它做成了一个相对轻量、但不太“浅”的在线测评工具。

题库一共 60 道题，覆盖 4 个难度、6 个主题，既可以给刚入门的人一个方向感，也能让已经做了一段时间的人快速发现自己的盲区。

难度上，它从入门一直拉到前沿。

L1 更适合刚接触 AI 安全的人，L2 面向网络安全和 AI 工程师，L3 主要对应已经在这个领域工作的从业者和研究人员，L4 则更偏向资深研究者和长期关注前沿议题的人。

主题上，我把题目尽量分散到了模型安全、Agent 安全、数据安全、AI 治理、攻防对抗和基础概念这几个方向。

在形式上，它提供了三种模式。

你如果只是想试试水，可以做 5 题的快速测评，三分钟就能完成；
如果想比较完整地看一下自己的知识结构，可以做 20 题的标准测评，做完之后会得到能力雷达图和等级评定；
如果你已经知道自己更想补哪一块，也可以直接按主题进入专项挑战。

更重要的是，这不是一个做完就结束的小测试。每一道错题后面，我都尽量补上了完整解析和关联文章，让题目本身变成一条学习路径。

你不是简单地被“判分”，而是在做题的过程中逐渐知道，这个领域的知识框架大概长什么样。

我更希望它像一张“知识体检单”

我一直觉得，AI 安全这个领域最麻烦的地方，不是没人写，而是材料太碎。

论文很多，政策很多，技术博客很多，评测框架也越来越多，但真正落到个人学习时，常常会出现一种很尴尬的情况：你以为自己看了不少，真要判断自己掌握到了什么程度，却很难有一个相对清晰的参照。

有些人熟悉越狱攻击，却不太理解治理框架；有些人懂内容安全和合规要求，但对 Agent 风险边界、工具调用控制和权限传播机制没什么感觉；还有些人看过不少论文，可一到工程语境里，就很难说清一项研究对实际产品意味着什么。

所以我做这个测评，不是想把它做成一种“考试”，而是更像一张知识体检单。你做完以后，最好能回答三个问题：我现在大概处在什么水平，我比较擅长哪一块，以及我接下来最应该补哪一块。

举个例子，题库里并不是那种只考术语定义的题。它会问你 GCG 和 PAIR 这种越狱攻击方法有什么关键区别，也会问你 Constitutional AI 是怎么工作的，EU AI Act Article 50 的透明度义务到底落在哪里，NIST AI RMF 的核心 function 如何理解，AgentDojo 评估的重点是什么，MCP Server 的权限边界为什么值得单独讨论。

这些题的价值不在于“记住一个标准答案”，而在于逼你把一个概念真正想明白。

这套测评，背后是整个模安局网站的内容积累

如果只是为了做一个在线答题工具，其实没必要花这么多时间。一套题库要想不空，前提是背后得有持续的内容积累。

过去半年，我一直在做一件事：把散落在论文、政策文件、技术博客、benchmark 仓库、行业报告和新闻稿里的 AI 安全信息，尽量整理成一个更有结构的中文站点。这个站点就是模安局：https://moanju.org

它不是百科，也不是新闻聚合器。我更愿意把它理解成一个带有判断力的资料员。它会把论文讲清楚，把政策做对照，把工具整理出来，把关键资源放进一个相对可用的知识框架里。

目前，模安局网站大致有四块内容。

第一块是政策、法规、框架和标准。我把全球 AI 安全治理里比较关键的文件分门别类整理出来，包括欧盟 AI Act、美国相关行政政策、中国生成式 AI 服务管理办法、NIST AI RMF、CSA AISMM，以及一批与生成式 AI 安全和合成内容标识有关的国家标准。这里不是简单给你一个 PDF 下载链接，而是尽量说清楚：这份文件解决什么问题，它要求企业做什么，它和其他文件之间是什么关系。

第二块是技术研究。现在站里已经积累了 100 多篇深度文章，主题集中在大模型越狱、模型对齐、安全评测、Agent 控制流、权限边界、MCP 协议、数据投毒、隐私保护，以及国内外 AI 安全公司和工具生态的调研上。我的写法通常不是单纯“翻译论文”，而是尽量把论文机制、现有方案和工程意义放在一起看。

第三块是资源中心。这里放了一批可直接下载的标准、报告和工具材料，比如一些国家标准原文、企业 AI 安全成熟度框架、行业调研和分析报告。对于很多做企业安全治理、产品合规和内部研究的人来说，这部分会比较省时间。

第四块是工具。除了今天重点介绍的 AI 安全知识测评之外，站里还有一个论文收录追踪工具，会自动跟踪模安局解读过的 arXiv 论文是否已经被正式会议或期刊接收（对于写论文的同学可能有些帮助）；还有一个 Markdown 与 HTML 互转工具，主要是为写作、排版和公众号发布场景准备的。它们都比较轻，但解决的基本都是我自己在长期写作和研究里反复遇到的问题。

为什么还要单独做一个中文 AI 安全知识站

说实话，做这个网站，最初并不是因为“我想做一个站”，而是因为我自己长期被一类问题困扰。

去年我开始更系统地研究 AI 安全时，最痛苦的并不是找不到资料，而是资料太多、太散，而且其中相当一部分并不好用。

你搜“Prompt Injection”，前面几页常常是一些互相复述的内容；你想认真看一看 EU AI Act 到底怎么管 GPAI 模型，很多中文文章讲到“分四级风险”就停了；你想找一套能真正用于企业内部评估的 AI 安全成熟度框架，搜出来的往往是一些付费白皮书或者非常抽象的口号式表述；你想知道某篇论文里提出的攻击在工程上意味着什么，摘要里未必能直接看出来。

换句话说，AI 安全内容并不少，但真正能帮助人建立知识结构的中文入口，仍然不算多。

我想做的，就是尽量把这件事补上一点。它既要专业到能让同行点头，也要清楚到能让新人看懂；既要尽量跟上前沿，也尽量不把内容写成“翻译腔”和“论文摘抄”。

模安局不是一个终点，它更像是一个长期生长中的中文资料库，一个把论文、政策、标准、工具和学习路径尽量串起来的入口。

而这次上线的 AI 安全知识测评，本质上也是这个思路的一部分。它不是孤立的小工具，而是整个知识站内容体系向前走的一步：从“我给你资料”，延伸到“我帮你判断自己已经掌握了多少资料”。

如果你准备进入 AI 安全，我建议你这样用

如果你已经在做 AI 安全，可以先从技术研究和资源中心看起。前者更适合跟踪论文、工具和新出现的风险问题，后者更适合查标准、框架和可复用的资料。论文收录追踪也可以当作一个选题参考，看看哪些工作只是 arXiv 阶段，哪些已经被正式收录。

如果你是从网络安全转向 AI 安全，我建议先做一次标准测评。因为这类转型最常见的问题，不是安全基础不够，而是知识结构会有“偏科”：你可能对权限、漏洞和攻防机制很熟，但未必熟悉模型对齐、AI 治理框架、数据边界或者 Agent 风险建模。做一轮测评，往往能比较快地把这个缺口照出来。

如果你是刚准备进入这个领域的新手，那就更适合从快速测评开始。三分钟做五道题，不需要先掌握全部术语。真正有价值的，不只是最后做对了几道，而是你做错之后，会看到自己下一步该补什么、该从哪里开始补。

如果你本身做的是 AI 产品、安全工程或者企业合规，那模安局里与 Agent 风险边界、内容安全机制、标准框架和治理路径有关的内容，可能会更有直接价值。很多时候，最难的并不是“知道有风险”，而是怎么把风险拆成可执行的工程动作和治理动作。这也是我希望网站能持续去补的部分。

这个网站，会继续长期更新下去

模安局目前会保持一个相对稳定的更新节奏。公众号这边，我会继续维持每周 7 篇左右的深度解读；网站文章库会和公众号同步更新，并支持全文搜索；政策和标准部分，会尽量在重要文件发布后一到两周内补上解读和入库；论文收录追踪会每天自动核验，持续把新的研究加入跟踪池；AI 安全知识测评的题库，也会随着深度文章和前沿议题不断扩充。

我希望它不是一个“发布后就摆在那儿”的页面，而是一套会随着 AI 安全领域一起演进的知识基础设施。哪怕它很小，哪怕它只是一个个人长期维护的站点，我也希望它至少是扎实、可靠、能用的。