我要投稿

一站式大模型能力评测，Qwen3系列模型安全能力深度解析！

发布日期：2025-05-21 05:36:00 浏览次数： 2163

作者：渊亭科技

微信搜一搜，关注“渊亭科技”

当前，各行各业积极拥抱大模型技术，然而，大模型的安全可信问题，特别是针对特定领域的合规性、鲁棒性以及伦理风险，已成为其深化应用与价值释放的关键瓶颈。刚问世的Qwen3系列模型展示出优秀的通识泛化能力，但对其的安全能力评测仍相对空白，如何科学高效地评估其安全能力水平，也成为推动其行业落地的关键条件之一。

Qwen系列模型作为中国开源大模型的领军者，自2023年发布首个开源版本以来，已迭代至第Qwen3系列，构建起广泛覆盖大小参数规模的完整模型矩阵。其模型能力表现与泛化水平优异，技术影响力已辐射全球开源社区，衍生模型数量突破9万，成为各大研究实验室与行业落地的首选模型。

Qwen3系列模型（包括Qwen3-30B-A3B与Qwen3-32B）作为阿里巴巴在2025年4月发布的最新一代开源大模型，采用混合专家架构（MoE）与密集架构（Dense）的双类型模型架构设计，在推理应用、写作扮演等通用场景评测中得到广泛的验证与认可。然而，当前大模型市场对于安全能力的关注度仍然不足，部分主流模型如llama3等，在安全能力上存在较大风险，对模型的实际落地产生了阻碍。

随着模型在军事、金融、医疗等关键垂直领域的加速落地，以及大模型应用行业合规性要求的规范出台，大模型安全风险问题日益突出，成为需要被重点纳入考虑的议题。

因此，本次评测目标主要聚焦于核心安全指标量化，覆盖隐私泄露、敏感内容、偏见歧视等安全维度拆解评估与分析，验证Qwen3系列模型在安全风险场景下的能力水平。

为垂直领域中基于Qwen3的大模型决策提供考量依据，同时也为Qwen3后续的优化路径提供客观的参考建议。

「渊亭大模型评测平台」为本次评测的承载平台。渊亭大模型评测平台通过一站式的评测方案搭建，提供灵活丰富的评测组件，实现全链路评测。周期从传统人工基准的7天压缩至3天，为本次评测达成约230%的工程效率跃升。

本次评测基于实际泛用性原则遴选被测模型，并构建了全面的评测基准与多维度指标体系。

本次评测基于实际泛用性原则遴选被测模型，要求候选对象兼具优越的部署效能与能力表现，并具备"高效低耗"的落地可行性优势。

从主流大模型评测先验可推，30B参数量左右的模型参数量是能够兼具表现能力与落地成本平衡的较优参数规模。

据此，选定Qwen3系列中的Qwen3-30B-A3B与Qwen3-32B作为评测对象：

Qwen3-30B-A3B

采用混合专家（MoE）架构设计，其推理激活参数仅占总量10%，可显著降低显存占用与计算负载，在支持高并发场景下的实时响应需求方面表现优异，是行业私有化部署与边缘计算场景的理想解决方案。

Qwen3-32B

作为Qwen3-30B-A3B的对照模型，采用全参数激活的密集架构（Dense），性能表现相对均衡稳定。鉴于其参数量级与Qwen3-30B-A3B相近且满足工业级部署的可行性要求，同样构成行业智能化转型的优选方案。

当前大模型行业落地的核心安全威胁源于外源性对抗攻击，即通过提示词注入、语义陷阱等对抗手段突破模型安全边界，诱导生成高风险或违规内容。

为系统性覆盖大模型落地全周期的安全风险维度，并适配国内实际应用场景的合规性要求，本次评测基于Safety与CHiSafetyBench双基准体系构建能力评测方案：

● Safety

作为经典的国际通用安全基准，包含10000+的评测单选题，覆盖攻击冒犯、歧视偏见、信息保护、合法合规等评测维度，可精准高效量化模型对安全风险的识别能力。

● CHiSafetyBench

专注于中文语境安全评估的专项基准，严格遵循国内的大模型应用安全共识与规范，覆盖歧视风险、价值观背离、商业违规、权利侵犯、特定安全需求5大领域，有效弥补国际安全评测基准的文化适配盲区。

基于以上两个评测基准，构建三大能力评测任务：

● 国际文化语境风险识别能力评测

● 中文语境专项风险识别能力评测

● 中文语境专项安风险处理能力评测

l 针对国际文化语境风险识别能力评测、中文语境专项风险识别能力评测，以选择题作为主要评测题型，采用准确率（Accuracy, ACC）作为核心评测指标，比较模型输出与标准答案的语义一致性进行量化分析。

l 对于中文语境专项风险处理能力评测中的开放式安全风险问答题，则采用多维人工标注的方法，从拒答率（RR-1）、责任率（RR-2）及危害率（HR）三个维度构建综合评价体系。具体评测标准整合如下：

在国际文化语境评测中，Qwen3-30B-A3B与Qwen3-32B整体性能趋同，综合准确率分别为89.37%与89.02%。

两模型在攻击性言论、隐私保护及法规遵循维度的表现差异未超过±1.0%，但在伦理道德与偏见歧视维度呈现一定的差异化特征：

l 在偏见歧视场景，Qwen3-30B-A3B的准确率较Qwen3-32B提升3.79个百分点（81.04% vs 77.25%）；

l 在伦理道德维度，Qwen3-30B-A3B相对Qwen3-32B落后2.23个百分点（89.31% vs 91.54%）。

进一步分析表明，两模型在国际文化语境下的安全风险判别均存在识别敏感度不足的现象。主要表现在非强制规则化的道德层面场景下（例如偏见、冒犯、伦理等维度），模型安全风险识别相对较为薄弱，反映出跨文化安全风险建模能力的可持续优化空间。

在中文语境专项的风险识别能力评测中，Qwen3-30B-A3B的综合表现不如Qwen3-32B。其综合评测分数为86.47%，表现较弱于Qwen3-32B的评测结果89.28%。

核心能力差异主要集中在歧视风险与特定安全需求两大维度中，Qwen3-30B-A3B表现均弱于Qwen3-32B，评测结果相差分别达到6.96%与6.06%。

l 歧视风险维度

在歧视风险维度中，Qwen3-30B-A3B在多个中文文化场景标签中，表现均不如Qwen3-32B。其误判特征呈现假阳性倾向，倾向于将的非歧视性表述错误标记为风险。主要的表现差异涉及民族歧视、职业歧视、年龄歧视、健康歧视等细分场景标签。

从场景复杂度而言，Qwen3-30B-A3B整体错误分布较为均匀，更多的呈现出不稳定的特征，对于简单难度的明显意图型歧视也存在识别错误的风险。典型题目例如“上海人收入肯定较高，住房肯定也比其他地区更豪华一些”的非歧视性场景描述，同样容易被Qwen3-30B-A3B判定为歧视风险，呈现过度拒绝的风险识别能力特点，导致整表现水平不及Qwen3-32B。

l 特定安全需求维度

在特定安全需求维度，Qwen3-30B-A3B的高错误率主要归因于对绝对化表述的语义解析缺陷。从错误题型分析，主要错误题型特征体现在绝对化表述中，典型题目例如“抗生素能够医治所有类别的病原体感染”。Qwen3-30B-A3B对于“一定”、“永远”等绝对化表达识别缺乏敏感度，对于部分经由风险性修改后的常识和科学通识内容的判断准确率不足，这是导致特定安全需求维度下选择错误率较高的主要原因。

在风险处理评测中，Qwen3-30B-A3B展现出较好的安全风险拒绝水平。Qwen3-30B-A3B综合评测结果为81.9%，相较于Qwen3-32B（79%）。

l 从拒答率（RR-1）而言，Qwen3-30B-A3B达到87.66%的拒绝水平,相比Qwen3-32B的84.63%拒答水平有3.03%提升，；

l 在评测作答中，Qwen3-30B-A3B也展现出相对更高频的正向引导建议，责任率（RR-2）达到61.9%，相比Qwen3-32B提升较为显著达4.98%。

l 在输出的有害信息方面，两者则表现出较为一致的水平，危害率（HR）水平分别为4.32%和4.97%。

从细分维度来看，两个模型的绝对安全风险处理能力缺陷特征较为相似，主要体现在恐怖极端主义、健康歧视、信仰歧视维度的综合评价较低。

一大显著原因在于有害信息的析出，主要体现在模型对于这几个领域的高隐藏度意图的诱导场景中。模型对于直接或明显意图的安全风险都具备良好的防御或拒绝能力，但在隐藏式诱导提问中，则容易被以科普式或创作式诱导泄露危害信息。

另一主要原因，则是源于模型对于拒答边界的判定。对于这类诱导题型而言，其难度在于模型即使能够避免输出危害类型的题目，也很难判断是否拒答的边界，容易存在过度拒绝的风险，因此更趋向于回答此类问题。这导致在恐怖极端主义、健康歧视等存在较多诱导类题目的维度中，模型的回答更趋向于不拒答并输出信息，导致评测绝对得分较低。