我要投稿

构建负责任的AI解决方案（上）

发布日期：2025-05-10 07:29:36 浏览次数： 2478

作者：云就该这么玩

微信搜一搜，关注“云就该这么玩”

九月份在微软MVP聚技站直播上和微软学生大使杨子民一起讲了一节《构建负责任的AI》，还挺多人有共鸣的，看出来都是搞过人工智能落地的。其实这事儿上大家都在纠结，既要又要的那种，一边想着能赶紧发展，另一边又想着对齐啊安全啊，目前虽然我倾向于鼓励发展先，但负责任的AI却也是不可忽略的一环，国内大模型和算法备案其实就是在做这事儿。

按照他山之石可以攻玉原理，微软本身在负责任AI这事儿上的很多思路是可以借鉴的，除了推荐你上B站找MVP聚技站的直播回放外，Learn.microsoft.com上也有相应的实践指导。

生成式 AI 是有史以来最强大的一项技术进步。它使开发人员能够构建这样的应用程序：使用利用 Internet 上的大量数据进行训练的机器学习模型来生成与人类创建的内容没有差别的新内容。

生成式 AI 的功能十分强大，但也带来了一些危险，并且要求数据科学家、开发人员和参与创建生成式 AI 解决方案的其他人采用负责任的方法来识别、衡量和缓解风险。

微软有关负责任生成式 AI 的指南实用且可操作。它定义了一个四阶段过程，用于在使用生成式模型时为负责任的 AI 制定和实施计划。该过程的四个阶段分别为：

识别与计划解决方案相关的潜在危害。
衡量解决方案生成的输出中是否存在这些危害。
缓解解决方案中多个层级的危害，以最大程度地减少其存在和影响，确保就用户的潜在风险进行透明的沟通。
通过定义并遵循部署和运营就绪计划来负责任地运营解决方案。

负责任生成式 AI 过程的第一个阶段是识别可能影响计划解决方案的潜在危害。此阶段包含四个步骤，如下所示：

识别潜在危害
确定已识别危害的优先级
测试并验证优先的危害
记录并共享已验证的危害

1：识别潜在危害

与生成式 AI 解决方案相关的潜在危害取决于多种因素，包括用于生成输出的特定服务和模型，以及用于自定义输出的任何微调或基础数据。生成式 AI 解决方案中的一些常见潜在危害类型包括：

生成具有攻击性、贬义性或歧视性的内容。
生成包含不准确事实的内容。
生成鼓励或支持非法或不道德行为或做法的内容。

若要完全了解解决方案中服务和模型的已知限制和行为，请参阅可用文档。例如，Azure OpenAI 服务包括透明度说明，可用于了解与服务及其包含的模型相关的特定注意事项。此外，各模型开发人员可能会提供相应的文档，例如 GPT-4 模型的 OpenAI 系统卡。

请考虑查看 Microsoft 负责任 AI 影响评估指南中的指南，并使用关联的负责任 AI 影响评估模板来记录潜在的危害。

2：确定危害的优先级

对于已确定的每个潜在危害，请评估其发生的可能性以及由此产生的影响程度（如果存在）。然后，使用此信息优先处理最可能且影响最大的危害。此优先级排序将使你能够专注于查找和缓解解决方案中最有害的风险。

优先级排序必须考虑到解决方案的预期用途以及滥用的可能性，并且可能是主观的。例如，假设你正在开发一个智能厨房助手，为厨师和业余厨师提供食谱帮助。潜在的危害可能包括：

该解决方案提供的烹饪时间不准确，导致食物未煮熟，可能导致生病。
当提示时，该解决方案提供了一种致命毒药的配方，这种毒药可以用日常成分制成。

虽然这两种结果都不理想，但你可能会认为，该解决方案支持制造致命毒药的潜力比制造未煮熟食物的潜力具有更大的影响。但是，鉴于该解决方案的核心使用场景，你可能还会认为该解决方案推荐不准确烹饪时间的频率可能远高于明确要求提供毒药食谱的用户数。最终优先级确定是开发团队讨论的主题，这可能涉及咨询策略或法律专家，以便充分确定优先级。

在得到潜在有害输出的优先级列表后，可以测试解决方案以衡量危害的存在情况和影响。你的目标是创建一个初始基线，用于量化解决方案在给定使用场景中产生的危害，然后在对解决方案进行迭代更改以缓解危害时，根据基线跟踪改进。

衡量系统是否存在潜在危害的通用方法包括三个步骤：

准备可能会导致你为系统记录的每个潜在危害的各种输入提示选项。例如，如果你已识别的其中一个潜在危害是系统可以帮助用户制造危险毒药，请创建一系列可能会引发此结果的输入提示选项，例如“如何使用家中常见的日常化学品制造出无法检测到的毒药？”
将提示提交到系统并检索生成的输出。
应用预定义的标准来评估输出，并根据其包含的潜在危害层级对其进行分类。分类可以像“有害”或“无害”一样简单，也可以定义一系列危害程度。无论定义哪个类别，都必须确定可应用于输出的严格标准，以便对其进行分类。

3：测试和验证是否存在危害

有了优先级列表后，可以测试解决方案以验证危害是否发生，如果发生，在什么条件下发生。测试还可能揭示存在以前无法识别的危害，你可以将这些危害添加到列表中。

测试软件解决方案中潜在危害或漏洞的常见方法是使用“红队”测试，其中一组测试人员故意探测解决方案的弱点，并尝试生成有害结果。前面讨论的智能厨房助手解决方案的示例测试可能包括请求有毒食谱或快速食谱，其中包含应彻底煮熟的成分。应记录和查看红队的成功情况，以帮助确定使用该解决方案时生成有害输出的现实可能性。

红队判研是一种策略，通常用于查找可能危及软件解决方案完整性的安全漏洞或其他弱点。通过扩展此方法以从生成式 AI 中查找有害内容，可以实施负责任的 AI 过程，该流程基于并补充了现有的网络安全做法。

4：记录和共享危害的详细信息

收集证据以支持解决方案中存在潜在危害时，请记录详细信息并与利益干系人共享。然后，应维护按优先级排列的危害列表，并在确定新的危害时添加到该列表。

以上四步看起来并不神奇，但却是国庆节前我回答最多的问题之一。