我要投稿

首个AI智能体安全测试标准发布，蚂蚁集团、清华大学、中国电信等联合编制

发布日期：2025-07-14 20:44:59 浏览次数： 1530

作者：蚂蚁技术AntTech

微信搜一搜，关注“蚂蚁技术AntTech”

日前，世界数字科学院（WDTA）在联合国日内瓦总部正式发布AI STR系列新标准《AI智能体运行安全测试标准》，标准由蚂蚁集团、清华大学、中国电信牵头，联合普华永道、新加坡南洋理工大学、美国圣路易斯华盛顿大学等二十余家国内外机构、企业及高校共同编制，为全球首个单智能体运行安全测试标准。

该标准针对智能体跨越“语言墙”所带来的“行为”风险，首次将输入输出、大模型、RAG、记忆和工具五个关键链路与运行环境对应起来，构建了全链路风险分析框架；同时，细分了智能体风险类型，完善并创新提出了模型检测、网络通信分析和工具模糊测试等测试方法，弥补了智能体安全测试技术标准的空白。

标准在AI for Good全球峰会期间由联合国社会发展研究所（UNRISD）与世界数字科学院（WDTA）联合主办的“数字技术与人工智能社会影响全球咨询会”上发布。

2025年，被称为“智能体元年”。AI智能体凭借着深度思考、自主规划、做出决策并深度执行的能力，使得AI在发展路径上实现一次范式突变：从“我说AI答”到“我说AI做”，并被逐渐应用到各类商业场景中。

然而，技术突破伴随着不容忽视的安全隐忧。最新调研显示，超过70%的智能体从业者担忧AI幻觉与错误决策、数据泄露等问题，因为AI生成的内容往往包含事实错误，或者对指令产生误解，其中超半数受访者表示，所在企业尚未设立明确的智能体安全负责人。

“面对AI相关技术的快速演进，我们必须正视‘科林格里奇困境’：一旦新技术深植社会，风险治理的代价将成倍上升。”WDTA执行理事长李雨航强调，“AI STR系列标准正是试图在这一临界点前建立清晰、可执行的安全标准和测评、认证体系，将伦理与责任嵌入AI的全生命周期之中，从而确保技术发展服务于人类的长期利益。”

峰会上，蚂蚁集团大模型数据安全总监杨小芳表示，当前AI技术应用加速落地，但单智能体的安全风险缺乏统一的全链路安全测试标准，导致潜在的等问题难以被量化和规避，单智能体标准的制定是AI治理的“最小可行单元”，而多智能体治理是未来“摩天大楼”的核心结构，下一步行业应从单点逐步向多智能体治理生态共建突破。

与其他国际标准不同，AI STR不仅关注风险识别和风险分级，更提供全流程管理方案，即从数据治理到模型落地，配套具体测试工具和认证流程，助力企业提升AI应用的安全性与可信度。

该标准不仅提供了一套可行可靠的智能体安全基准，也为全球AI智能体生态的安全、可信和可持续发展增加了有益的探索。目前，部分标准的测评与认证已在金融、医疗等领域落地应用。

此前，WDTA已发布3项AI STR标准，包括“生成式人工智能应用安全测试标准”,“大语言模型安全测试方法”和“大模型供应链安全要求”，由 OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等数十家单位的多名专家学者共同参与。

点

点击“阅读原文”

下载《AI智能体运行安全测试标准》

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-14

Google GenAI Processors：重新定义实时AI开发架构

2025-07-14

月费200刀的AI浏览器，Perplexity Comet的真实体验如何？

2025-07-14

一文吃透Dify：Chatflow与Workflow的深度对决

2025-07-14

有创始人开始收“尽调误工费”了

2025-07-14

一文讲清楚大模型中8个关键词及原理：LLM、Transformer、GPT、Bert、预训练、微调、深度学习、Token

2025-07-14

Anthropic官方：Claude Code - 安装配置手册

2025-07-14

不用AI，可能永远造不出新一代动力电池｜甲子光年

2025-07-14

AI浏览器是AI产品破局关键？| Perplexity 创始人YC圆桌实录

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek R1-0528 小版本升级

2025-05-29

高效 Agents 构建指南

2025-05-23

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

忽视小模型和知识库，企业AI应用必将是死路一条

2025-05-07

Qwen3发布: 4B干掉旧代 72B / Windsurf又增加新的免费计划

2025-04-29

CAG 与 RAG：哪种方法能带来性能更好的人工智能

2025-05-07

从RAG到CoT再到MCP，一文读懂AI Agent落地难题｜大模型研究

2025-05-07

SpringAI Alibaba实战文生图、聊天记忆功能

2025-06-01

一文实测Gemini 2.5 Pro：视频驱动的代码生成，打造交互式开发应用新范式

2025-05-07

豆包，让有独立显卡的电脑都能部署本地大模型，语料库就是电脑里的文件

2025-04-17

大家都在问

月费200刀的AI浏览器，Perplexity Comet的真实体验如何？

2025-07-14

智能体Agent这场风暴还能刮多久？

2025-07-14

从机器人三定律说起：当AI遇上道德难题，我们该如何选择？

2025-07-14

初次上手如何快速开发基于大模型+function call的agent应用？

2025-07-14

万维钢：怎么把AI使用到最高水平？

2025-07-14

从"猜配件"到"秒匹配"：AI Agent如何让万亿汽配市场告别石器时代？

2025-07-14

Auto Agent：气宗还是剑宗？——Workflow 还是强大模型？

2025-07-13

“内卷”到向量空间：Qwen3-Embedding 是真香还是跟风？

2025-07-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部