我要投稿

给模型写方法论：拆解一个跨法域隐私审计Skill

发布日期：2026-06-29 07:58:40 浏览次数： 1529

作者：金融科技实战

微信搜一搜，关注“金融科技实战”

最近学习了一个隐私合规审计Skill——作者 Mirza Chiragov，覆盖阿塞拜疆 Law 998 + 欧盟 GDPR + ePrivacy 三套框架的网站合规审计。代码量很小，设计密度很高。拆开看了一遍，把值得复用的设计方法记了下来。

好的Skill不是给模型写指令，是给模型写方法论。

阿塞拜疆是一个法域交叉点：本国 Law 998、欧盟 GDPR、ePrivacy 三套框架并行，监管机构多次重组，隐私文件多以阿塞拜疆语或俄语撰写。通用法律 Skill 在这里不够用——需要精确的法域触发、不会因机构更名而过时的反幻觉规则、以及不依赖翻译的审计基准。

把同样的问题丢给通用模型，不是它不懂法律——是它的默认行为和法律审计的严谨性之间存在系统性偏差。比如问"审一下这家阿塞拜疆网站"，它大概率直接跑 GDPR checklist，漏掉 Law 998 的 AZ State Register 注册要求，就是对你最危险的那部法律。此外，原文措辞经模型内部翻译后存在法律含义漂移。更隐蔽的是虚假完备，就是报告条理清晰，却不告诉你哪些地方根本没查。读完以为查完了，实际只查了表面。

这个 Skill 的设计假设是：模型不缺知识，缺的是把知识装配成审计动作的方法论。以下 8 条是这套方法论的具体实现。

1. Description 是搜索引擎，不是摘要

description: ...when user mentions .az domain, Law 998,
or asks "is my site GDPR compliant" — even without the word "audit".

简单说：用户说什么话该触发，提前写好——专业术语、白话问法、不提关键词的情况全列进去。三层覆盖：术语命中专家，白话问句命中外行，兜底覆盖"没提 audit"的场景。用户说"审一下这个 .az 网站"——description 的触发信号确保模型不会把它当通用合规咨询，而是加载专用审计工作流。

2. "不做什么"和"做什么"同等重要

Do **not** invoke for: general legal advice, dispute resolution,
drafting, jurisdictions other than AZ + EU.

不该干的也写清楚，不写模型会在不适用的场景强行用，看着专业实际全错。具体到这条：排除 drafting 不止是划边界——它是审计的第一性约束：审计师判定，不代劳。一旦模型开始替你写隐私政策，它就不再是审计。取消这条约束，后面的证据锚定、评分标尺、盲区声明都会松动——判定的前提是独立，独立的前提是不参与。

3. 预判偷懒，显式阻断

Do **not** skip scoping. Without scope, the GDPR analysis is unreliable.

模型会跳步骤，你得在它想跳的地方加一句"不许跳过"。用户信息没给全，一次性批量问完 + escape hatch（"use your best judgment"），既不让信息缺口阻塞流程，也不让模型逐个追问耗尽用户耐心。在审计场景里，scope 决定了用哪把尺子——跳过 scope 直接分析，等于不确定法域适用性就用一套标准审完整份报告。

4. 用语言信号自适应读者

"is this OK?" → 企业主 → 摘要前置，通俗语言
"Article 13..." → 律师 → 法条分析前置

问"这行不行"和问"Art. 13 怎么看"不是同一个人——模型看措辞自己判断，前者给通俗总结，后者给法条分析，不让用户自报角色。

5. 反幻觉规则从失败场景反推

不编造法条号——会编造 plausible 的 "Art. 14(3)(h)"，报告可信度崩塌。

引用原文不转述——shall 不是 may，转述丢掉的恰是法律最计较的措辞差异。

标注法域——AZ Law 和 GDPR 混在一个判定里，就是系统性错判。

监管机构用泛称——机构已多次重组，报出一个已撤销的机关名，整份报告归零。

不基于翻译评分——法律概念经机器翻译后丢失，基于译文的审计结论不可靠。

五条规则，一条逻辑：看看这个领域的模型会怎么翻车，提前把路堵上。其中"引用原文不转述"承担双重角色：防编造，也建立审计证据链——结论必须可追溯到原始措辞。

6. "Unverified" 必须是正式状态

给"不确定"一个正式身份——没有这个出口，模型会把没把握的事悄悄折叠成 Amber 或直接跳过，产生虚假的确定性。Unverified 的存在就是为了对抗开篇说的虚假完备：强迫模型在报告正文中声明它没看见什么。诚实的不确定比自信的猜测更专业。

7. 模板即契约，顺序即架构，评分即标尺

输出格式定死，顺序定死，评分定死。Section 1-3 = 管理层退出点（读完决策），Section 4-9 = 专业人员验证层，Section 10 = 盲区声明。不可调整顺序，不是建议格式。

五级评分各有关键锚定——Red = 直接违法且有监管风险，Amber = 有但缺陷。没有这套标尺，模型输出会在"有问题"和"严重"之间随意漂移，不同网站的审计结果也无法横向比较。

8. 示例展示工作流变体，不是输入-输出

示例不是输入输出对，是同一套流程在不同场景走出不同路径。三个示例 = 三种路径：企业主 → 触发 GDPR + Planet49；律师 → 触达 Art. 9 特殊类别；纯本地 → 只跑 AZ Law。同样的输入丢给通用模型是三个独立对话，但在 Skill 里它们是同一套工作流的不同执行路径——scope gate 判定走向，后续步骤自动适配。

五个要素 = 一套可迁移框架

触发条件 + 排除声明 → 不可跳过的工作流 → 按阶段加载的知识 → 强制模板与评分标尺 → 领域反幻觉规则。

这套框架的审计基因在于：不做 draft、证据可追溯、判定有标尺、盲区必须声明。五个要素是骨架，这四条是填进去的肉——不做 draft 落在排除声明里，证据可追溯落在反幻觉规则里，判定有标尺和盲区声明落在模板与评分里。换成代码审查（lint 规则和架构规范是尺子，不做修复、引用行号、未覆盖路径声明），同一个骨架装得下。

能锁死的锁死，锁不死的给框架

将这套 Skill 做的事拆成两层。能写成规则的，锁死——不编造法条号、引用原文不转述、标注法域。写不成规则的——这个 cookie banner 的暗模式该标 Red 还是 Amber——给锚定框架然后让模型综合上下文判断。评分有关键锚定（Red = 直接违法且有监管风险），但不是 if-then 公式；模型读完全部上下文自己判断，框架防止漂移。

这两层合在一起其实就是审计判断。人脑做的也是同一件事——可枚举的标准加上下文推理——只是多了一层不透明。审计判断的关键是知识解析和上下文推理，恰好是大模型的强项。因此不存在不能代替的点，只存在怎么代替的问题，这个 Skill 给出了一种答案。