微信扫码
添加专属顾问
我要投稿
深入探讨AI解决方案中的危害缓解技术,为AI安全保驾护航。 核心内容: 1. 数据治理和质检在AI解决方案中的重要性 2. 模型层级的优化和微调策略 3. 安全系统层级的配置与功能 4. 元提示和工程层的危害缓解技术 5. 用户交互与体验层的设计和文档说明
确定基线以及衡量解决方案生成的有害输出的方法后,可以采取措施缓解潜在危害,并在适当时重新测试修改后的系统,将危害层级与基线进行比较。我们这里只能用“缓解”而不是“消除”,你猜猜为什么?
缓解生成式 AI 解决方案中的潜在危害涉及分层方法,其中缓解技术可在五个层级中的每一层级应用,如下所示:
数据
模型
安全系统
元提示和工程化层
用户体验
如果整个应用一开始喂进去的数据就是脏数据,大量存在着憎恨、色情、偏见等问题,我们后面就不用继续展开了,没救了,重开一个副本吧。那接下来的问题是我怎么判断面前几十万条到几亿条数据是不是脏数据?系统地理解的话有一门学问叫数据治理,不过如果只是想简单地做一些判断,那么人类参与的数据质检和让不同大语言模型来协助是个比较容易实现的路径。
模型层级由生成式 AI 模型组成,是解决方案的核心。例如,解决方案可能围绕 GPT-4/ChatGLM/LlaMa 等模型构建。
可在模型层级应用的缓解措施包括:
选择适合预期解决方案用途的模型。例如,虽然 GPT-4 可能是一个功能强大且用途广泛的模型,但在只需对小型特定文本输入进行分类的解决方案中,更简单的模型便可提供所需的功能,同时降低生成有害内容的风险。
使用自己的训练数据微调基础模型,使其生成的响应更有可能与你的解决方案场景相关并契合它的范围。
安全系统层级包括平台级配置和功能,可帮助缓解危害。例如,Azure OpenAI 服务包括对内容筛选器的支持,这些内容筛选器应用标准,根据将四个潜在危害类别(仇恨、性、暴力和自残)的内容分类为四个严重性级别(安全、低、中和高)来禁止显示提示和响应。
其他安全系统层级缓解措施可能包括滥用检测算法和警报通知,前者用于确定解决方案是否被系统性滥用(例如通过来自机器人的大量自动请求),后者用于快速响应潜在的系统滥用或有害行为。
元提示也叫系统提示,就是不管你问啥,先写一段为敬那种,工程层侧重于提交到模型的提示的构造。可在此层应用的危害缓解技术包括:
指定为模型定义行为参数的元提示或系统输入。
应用提示工程将接地数据添加到输入提示,最大限度地提高相关、无害输出的可能性。
使用检索增强生成 (RAG) 方法从受信任的数据源检索上下文数据并将其包含在提示中。
用户体验层包括软件应用程序(用户通过软件应用程序与生成式 AI 模型进行交互)以及向用户和利益干系人描述解决方案使用的文档或其他用户资料。
设计应用程序用户界面以将输入限制为特定主题或类型,或者应用输入和输出验证可以降低潜在有害响应的风险。
生成式 AI 解决方案的文档和其他说明应适当透明地说明系统的功能和限制、其所基于的模型以及你已实施的缓解措施可能无法始终解决的任何潜在危害,实际上,到目前为止,如果在用户这一层是依赖大语言模型的话,100%要规避危害几乎是不可能的,毕竟大语言模型本身就是基于概率论的,这也是为什么一开始我说我们的措施都叫“缓解”而不是消除。
识别潜在危害、开发一种方法来衡量其存在情况并在解决方案中实施缓解措施后,就可以准备好发布解决方案了。在发布之前,需要考虑一些注意事项,以帮助你确保发布和后续运营成功。
在发布生成式 AI 解决方案之前,请确定组织和行业的各种合规性要求,并确保相应的团队有机会查看系统及其文档。常见的合规性评审包括:
法规
隐私
安全性
辅助功能
成功的发布需要一些规划和准备。遵循以下指南:
设计分阶段交付计划,首先将解决方案发布给一组有限的用户。通过这种方法,你可以在向更广泛的受众发布之前收集反馈并识别问题。
创建事件响应计划,其中包括响应意外事件所花费的估计时间。
创建回滚计划,定义在发生事件时将解决方案还原到先前状态的步骤。
实现在发现有害系统响应时立即阻止这些响应的功能。
实现在发生系统滥用时阻止特定用户、应用程序或客户端 IP 地址的功能。
实现一种让用户提供反馈和报告问题的方法。特别是,使用户能够将生成的内容报告为“不准确”、“不完整”、“有害”、“攻击性”或其他问题。
跟踪遥测数据,使你能够确定用户满意度并确定功能差距或可用性挑战。收集的遥测数据应符合隐私法以及你自己组织的策略和对用户隐私的承诺。
在微软Azure OpenAI 中缓解生成式 AI 模型的有害响应的有效的工具是内容筛选器、黑名单(Blocklist)等。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-12
DeepChat+RAGFlow 强强联合!配置知识库实现智能问答效率提升 300%
2025-05-12
两年了,你的RAG知识库落地了吗?一场价值数百万的AI智商税实验
2025-05-11
探讨如何构建具有可扩展长时记忆AI Agents相关的技术实现
2025-05-11
建议收藏!重温RAG的5种分块策略
2025-05-11
关于人工智能应用场景中前期数据处理的业务场景和技术分析——包括结构化数据和非结构化数据
2025-05-11
一文读懂RAG:AI的“外部知识库”如何让回答更精准?
2025-05-10
拆解智能体系统的能力和构成,我们需要的是可靠的AI系统,而不是Agents
2025-05-10
如何构建基于n8n的RAG日报工作流(手把手教程)
2024-10-27
2024-09-04
2024-05-05
2024-07-18
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07