免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


通用大模型基准测评「常见问题」解答

发布日期:2025-08-19 17:54:04 浏览次数: 1512
作者:CLUE中文语言理解测评基准

微信搜一搜,关注“CLUE中文语言理解测评基准”

推荐语

SuperCLUE 7月大模型测评权威解答,揭秘评分标准与防过拟合策略。

核心内容:
1. 不同任务(代码生成、智能体Agent、数学推理等)的详细评分标准解析
2. 100%题目更新与动态难度调整的防过拟合机制
3. 测评体系随AI热点演进的题目更新策略与难度增长逻辑

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
大家好!针对模型开发团队与 AI 用户近期对 SuperCLUE 7 月通用大模型测评提出的高频问题,我们已整理并汇总如下,供参考。

1. 不同任务的评价标准是什么

具体任务的评价标准可以参考《中文大模型基准测评2025年上半年报告》,现在将提问比率较高的问题汇总如下:

  • 代码生成的单元测试评分方式:代码生成类任务(包括web coding)中的题目会通过设置测试用例来检验模型答案的准确性,最终依据测试用例的通过率折合成分数作为模型在代码生成部分的得分。

  • 智能体Agent的可执行环境评分方式:智能体Agent类题目会设置好模型答题所需的工具调用环境,比如API接口、可供调用的函数等,并且会在环境设置中对以上工具的调用方式和注意事项加以说明,如参数设置、调用顺序等。因此,我们对于模型在该部分答案的考察会严格检验其是否遵循了环境设置规则,依据调用的准确性和最终结果的准确性来评判其答案的准确性。

  • 数学推理、科学推理类题目的评分方式:数学推理、科学推理类题目会提供参考答案作为评分依据,评判过程只考察模型答案的最终结果是否正确,目前没有对题目的解答过程予以评分。

2. 如何确保模型不过拟合测评数据?是否有具体的措施,比如设置题目更新比例? 

SuperCLUE方面防止模型过拟合的方式是每一期公测都会对全部的题目进行更新,更新比例为100%。此外,每一期会对30%-40%的子任务进行调整,具体的调整方法有题目难度的变化、二级子任务类型的调整等。

3. 测评任务类别是否会改变?题目更新频率、难度增长策略是怎样的? 

  • 测评体系包括测评任务类别会依据测评阶段AI领域的热点话题,比如重点研发方向、关键攻克领域、热门关注话题等进行调整与完善,旨在全面展现最新的AI发展动态与趋势,真实反映大模型性能与实力。

  • 题目的更新频率为每两个月更新一次,即每次月榜都会使用全新的题目参与测评。

  • 题目难度的增长策略与AI总体的水平提升相一致,会依据测评阶段大模型的总体实力区间来设定略高于其水平难度的题目,一般而言会以半年为单位来提升题目难度,后续会依据AI发展实际情况来调整频率。

4. 题目或数据的难度水平如何设定,比如数学推理、科学推理等任务的难度级别是怎样设定的? 

为适配当下大模型的性能与总体发展趋势,月榜题目的 总体难度较高,以数学推理、科学推理(包括物理学、化学、生物学)为例,会选择本科及以上的竞赛题目作为原始资料,经改编为全新题目后作为月榜题目使用。

5. 评价模型的选择依据是什么?是否通过小批量试验验证其评价能力?

SuperCLUE会选择测评阶段综合能力最强的模型作为评价模型(裁判模型);评价模型正式投入使用之前会通过小批量实验来验证其评价能力。

6. 开源模型的调用方式是什么?参数设置采用官方默认还是推荐设置? 

开源模型会优先使用官方API,无官方API时会采用本地部署方式或使用第三方API;一般情况下,模型的参数设置会采用官方默认版本,也会依据实际情况来调整参数设置以适配测评体系需求,但会保证各模型参数设置上的公平与公正。

7. 模型回复错误具体是由什么因素导致的?比如知识储备、逻辑框架、模型记忆等。

不同能力区间的模型的回复错误原因有所不同。总的来看,如果以高、中、低来划分模型能力区间,那么高水准模型主要的出错点在于模型记忆,比如引用某个参数或计算某些复杂的数值时会出错,但是该模型的知识储备非常丰富、各类学科的逻辑框架与思维方式臻于完善;中水准模型除上述模型记忆出错外,模型的知识储备相对匮乏,主要体现在集中欠缺某一领域的数据与信息,此外各学科的逻辑框架与思维方式相对完善,但是不太具备学科风格与答题思路;低水准模型问题则更大,模型记忆严重不足,知识储备欠缺明显,逻辑框架较为混乱,总体表现为拼凑答案而不是分析与思考问题。

8. 测评所用数据的具体构造方法是什么? 

SuperCLUE方面会参考公开的测试集标准以及真实的题目材料,加入我们的部分新特性,并将其作为题目的原始资料,然后依据自动化出题流程和人工多重复审来做题目加工。

以上是关于7月通用大模型测评榜单的常见问题与解答,欢迎各位继续向我们提出问题、意见和建议,共同助力国产大模型的提升与突破!

延伸阅读:

SuperCLUE在线完整上半年报告地址(可下载):

www.CLUEbenchmarks.com/superclue_25H1

SuperCLUE排行榜:https://www.superclueai.com

CLUE官网地址:https://www.cluebenchmarks.com

   点击阅读原文,查看SuperCLUE排行榜

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询