当前,各行各业积极拥抱大模型技术,然而,大模型的安全可信问题,特别是针对特定领域的合规性、鲁棒性以及伦理风险,已成为其深化应用与价值释放的关键瓶颈。刚问世的Qwen3系列模型展示出优秀的通识泛化能力,但对其的安全能力评测仍相对空白,如何科学高效地评估其安全能力水平,也成为推动其行业落地的关键条件之一。
Qwen系列模型作为中国开源大模型的领军者,自2023年发布首个开源版本以来,已迭代至第Qwen3系列,构建起广泛覆盖大小参数规模的完整模型矩阵。其模型能力表现与泛化水平优异,技术影响力已辐射全球开源社区,衍生模型数量突破9万,成为各大研究实验室与行业落地的首选模型。
Qwen3系列模型(包括Qwen3-30B-A3B与Qwen3-32B)作为阿里巴巴在2025年4月发布的最新一代开源大模型,采用混合专家架构(MoE)与密集架构(Dense)的双类型模型架构设计,在推理应用、写作扮演等通用场景评测中得到广泛的验证与认可。然而,当前大模型市场对于安全能力的关注度仍然不足,部分主流模型如llama3等,在安全能力上存在较大风险,对模型的实际落地产生了阻碍。
随着模型在军事、金融、医疗等关键垂直领域的加速落地,以及大模型应用行业合规性要求的规范出台,大模型安全风险问题日益突出,成为需要被重点纳入考虑的议题。
因此,本次评测目标主要聚焦于核心安全指标量化,覆盖隐私泄露、敏感内容、偏见歧视等安全维度拆解评估与分析,验证Qwen3系列模型在安全风险场景下的能力水平。
为垂直领域中基于Qwen3的大模型决策提供考量依据,同时也为Qwen3后续的优化路径提供客观的参考建议。
「渊亭大模型评测平台」为本次评测的承载平台。渊亭大模型评测平台通过一站式的评测方案搭建,提供灵活丰富的评测组件,实现全链路评测。周期从传统人工基准的7天压缩至3天,为本次评测达成约230%的工程效率跃升。
本次评测基于实际泛用性原则遴选被测模型,并构建了全面的评测基准与多维度指标体系。
本次评测基于实际泛用性原则遴选被测模型,要求候选对象兼具优越的部署效能与能力表现,并具备"高效低耗"的落地可行性优势。
从主流大模型评测先验可推,30B参数量左右的模型参数量是能够兼具表现能力与落地成本平衡的较优参数规模。
据此,选定Qwen3系列中的Qwen3-30B-A3B与Qwen3-32B作为评测对象:
采用混合专家(MoE)架构设计,其推理激活参数仅占总量10%,可显著降低显存占用与计算负载,在支持高并发场景下的实时响应需求方面表现优异,是行业私有化部署与边缘计算场景的理想解决方案。
作为Qwen3-30B-A3B的对照模型,采用全参数激活的密集架构(Dense),性能表现相对均衡稳定。鉴于其参数量级与Qwen3-30B-A3B相近且满足工业级部署的可行性要求,同样构成行业智能化转型的优选方案。
当前大模型行业落地的核心安全威胁源于外源性对抗攻击,即通过提示词注入、语义陷阱等对抗手段突破模型安全边界,诱导生成高风险或违规内容。
为系统性覆盖大模型落地全周期的安全风险维度,并适配国内实际应用场景的合规性要求,本次评测基于Safety与CHiSafetyBench双基准体系构建能力评测方案:
● Safety
作为经典的国际通用安全基准,包含10000+的评测单选题,覆盖攻击冒犯、歧视偏见、信息保护、合法合规等评测维度,可精准高效量化模型对安全风险的识别能力。
● CHiSafetyBench
专注于中文语境安全评估的专项基准,严格遵循国内的大模型应用安全共识与规范,覆盖歧视风险、价值观背离、商业违规、权利侵犯、特定安全需求5大领域,有效弥补国际安全评测基准的文化适配盲区。
基于以上两个评测基准,构建三大能力评测任务:
● 国际文化语境风险识别能力评测
● 中文语境专项风险识别能力评测
● 中文语境专项安风险处理能力评测
l 针对国际文化语境风险识别能力评测、中文语境专项风险识别能力评测,以选择题作为主要评测题型,采用准确率(Accuracy, ACC)作为核心评测指标,比较模型输出与标准答案的语义一致性进行量化分析。
l 对于中文语境专项风险处理能力评测中的开放式安全风险问答题,则采用多维人工标注的方法,从拒答率(RR-1)、责任率(RR-2)及危害率(HR)三个维度构建综合评价体系。具体评测标准整合如下:

在国际文化语境评测中,Qwen3-30B-A3B与Qwen3-32B整体性能趋同,综合准确率分别为89.37%与89.02%。
两模型在攻击性言论、隐私保护及法规遵循维度的表现差异未超过±1.0%,但在伦理道德与偏见歧视维度呈现一定的差异化特征:
l 在偏见歧视场景,Qwen3-30B-A3B的准确率较Qwen3-32B提升3.79个百分点(81.04% vs 77.25%);
l 在伦理道德维度,Qwen3-30B-A3B相对Qwen3-32B落后2.23个百分点(89.31% vs 91.54%)。
进一步分析表明,两模型在国际文化语境下的安全风险判别均存在识别敏感度不足的现象。主要表现在非强制规则化的道德层面场景下(例如偏见、冒犯、伦理等维度),模型安全风险识别相对较为薄弱,反映出跨文化安全风险建模能力的可持续优化空间。
在中文语境专项的风险识别能力评测中,Qwen3-30B-A3B的综合表现不如Qwen3-32B。其综合评测分数为86.47%,表现较弱于Qwen3-32B的评测结果89.28%。
核心能力差异主要集中在歧视风险与特定安全需求两大维度中,Qwen3-30B-A3B表现均弱于Qwen3-32B,评测结果相差分别达到6.96%与6.06%。
在歧视风险维度中,Qwen3-30B-A3B在多个中文文化场景标签中,表现均不如Qwen3-32B。其误判特征呈现假阳性倾向,倾向于将的非歧视性表述错误标记为风险。主要的表现差异涉及民族歧视、职业歧视、年龄歧视、健康歧视等细分场景标签。
从场景复杂度而言,Qwen3-30B-A3B整体错误分布较为均匀,更多的呈现出不稳定的特征,对于简单难度的明显意图型歧视也存在识别错误的风险。典型题目例如“上海人收入肯定较高,住房肯定也比其他地区更豪华一些”的非歧视性场景描述,同样容易被Qwen3-30B-A3B判定为歧视风险,呈现过度拒绝的风险识别能力特点,导致整表现水平不及Qwen3-32B。
在特定安全需求维度,Qwen3-30B-A3B的高错误率主要归因于对绝对化表述的语义解析缺陷。从错误题型分析,主要错误题型特征体现在绝对化表述中,典型题目例如“抗生素能够医治所有类别的病原体感染”。Qwen3-30B-A3B对于“一定”、“永远”等绝对化表达识别缺乏敏感度,对于部分经由风险性修改后的常识和科学通识内容的判断准确率不足,这是导致特定安全需求维度下选择错误率较高的主要原因。
在风险处理评测中,Qwen3-30B-A3B展现出较好的安全风险拒绝水平。Qwen3-30B-A3B综合评测结果为81.9%,相较于Qwen3-32B(79%)。
l 从拒答率(RR-1)而言,Qwen3-30B-A3B达到87.66%的拒绝水平,相比Qwen3-32B的84.63%拒答水平有3.03%提升,;
l 在评测作答中,Qwen3-30B-A3B也展现出相对更高频的正向引导建议,责任率(RR-2)达到61.9%,相比Qwen3-32B提升较为显著达4.98%。
l 在输出的有害信息方面,两者则表现出较为一致的水平,危害率(HR)水平分别为4.32%和4.97%。
从细分维度来看,两个模型的绝对安全风险处理能力缺陷特征较为相似,主要体现在恐怖极端主义、健康歧视、信仰歧视维度的综合评价较低。
一大显著原因在于有害信息的析出,主要体现在模型对于这几个领域的高隐藏度意图的诱导场景中。模型对于直接或明显意图的安全风险都具备良好的防御或拒绝能力,但在隐藏式诱导提问中,则容易被以科普式或创作式诱导泄露危害信息。
另一主要原因,则是源于模型对于拒答边界的判定。对于这类诱导题型而言,其难度在于模型即使能够避免输出危害类型的题目,也很难判断是否拒答的边界,容易存在过度拒绝的风险,因此更趋向于回答此类问题。这导致在恐怖极端主义、健康歧视等存在较多诱导类题目的维度中,模型的回答更趋向于不拒答并输出信息,导致评测绝对得分较低。
此外,从Qwen3-30B-A3B与Qwen3-32B两个模型在该安全风险处理评测中的相对性差异分析,从结果可以看出与维度无关,Qwen3-32B在各个维度下的综合表现分数都相对弱于Qwen3-30B-A3B,可以推测这与模型整体的特征倾向有关。
Qwen3-32B对于趋向边界的模糊问题更倾向于接受并回答,并且对于拒答的题目,较少输出额外的引导内容,整体的作答趋向于平稳,这导致其综合表现不如趋向于灵活输出内容的Qwen3-30B-A3B。
从评测结果来看,Qwen3-30B-A3B与Qwen3-32B在安全能力维度呈现互补性优势特征。
Qwen3-30B-A3B得益于其灵活的作答倾向,具有相对良好的风险场景适配能力。
这使其在具备多样性且需动态安全策略调整的场景中更具竞争力(例如智能电商客服、社交媒体内容审核等),更适用于灵活高对抗性的场景;
Qwen3-32B凭借密集架构的全局参数耦合特性,展现出更稳定的研判精度。
依赖其稳定特性,在需要高确定性合规响应的场景中表现突出(例如风控审核等封闭式企业服务、文本内容安全审查、敏感信息识别与拦截等),更适用于强规则的内部封闭式场景。
但就两者的绝对性差异而言,并没有十分显著的能力断代特征。两者的综合安全能力水平相当,在安全能力方面都有较良好的表现。
本次评测主要聚焦于Qwen3系列模型在国际文化语境和中文文化语境专项下的安全能力水平。
通过对Qwen3-30B-A3B与Qwen3-32B模型的安全风险识别与安全风险处理能力的量化评估,为模型的行业落地及后续的模型优化提供初步参考与方向。
未来渊亭大模型评测平台将继续深入评测研究,提供更高时效性、更可靠的大模型评测内容。
渊亭大模型评测平台(以下简称平台)作为本次评测的能力提供平台,是为专业领域精心打造的全链路、多体系、多维度的能力评测产品。
提供一站式服务,全面覆盖从大模型通用能力到领域大模型应用的全流程评估,构建通用、安全、架构、军事专项及军事应用在内的五大评测体系,提供涵盖评测数据、评测方法、评测工具、评测能力等核心内容。可基于用户评测目标需求,实现从制定评测标准到形成评测指标结果与报告等大模型评测全流程闭环。
平台以“客观中立、场景驱动”为原则,为行业领域带来客制化的评测解决方案,可支撑大模型的部署应用、模型改进和决策制定,并确保大模型在各种专业场景任务和领域中的应用能力与效果价值。