微信扫码
添加专属顾问
我要投稿
美团M17团队开源Meeseeks评测集,揭示大模型在"听话"能力上的真实表现,为AI指令遵循研究树立新标杆。核心内容: 1. Meeseeks评测框架的创新设计:三级评测体系与多轮纠错模式 2. 主流大模型在指令遵循能力上的排名与关键发现 3. 评测结果揭示的参数规模与指令能力非正比关系等反直觉现象
针对大模型知识推理能力与指令遵循能力存在表现差异的现象,为推进指令遵循能力的系统化研究与精准评估,美团 M17 团队推出全新评测基准 Meeseeks,并在魔搭社区、GitHub、Huggingface等开源平台上线。
近期,以 OpenAI o 系列模型、Claude 3.5 Sonnet 和 DeepSeek-R1 等各类大模型为代表的 AI 技术快速发展,其知识与推理能力得到了广泛认可。然而,许多用户在实际使用中也注意到一个普遍现象:模型有时未能严格遵循输入指令的具体格式要求、字数限制或内容约束,导致输出结果虽内容尚可,却不完全符合输入指令。
针对大模型知识推理能力与指令遵循能力存在表现差异的现象,为推进指令遵循能力的系统化研究与精准评估,美团 M17 团队推出全新评测基准 Meeseeks。
基于 Meeseeks 基准的评测结果显示(以轮次 3 为准),推理模型 o3-mini (high)凭借绝对优势强势登顶,与另一版本 o3-mini(medium)包揽冠亚军;Claude 3.7 Sonnet 的“思考版”则稳居第三,共同构成本次评测的第一梯队,而 DeepSeek-R1 在所有模型中排名仅第七,GPT-4o 排名第八。此外 DeepSeek-V3 在非推理大模型中处于领先位置,而 Qwen2.5 则展现出参数规模与指令遵循能力并非绝对相关的有趣现象。(备注:评测结果来源于 Meeseeks 中文数据)
Meeseeks 支持 中文/英文,已在魔搭社区、GitHub、Huggingface 上线。
下面,让我们一同深入了解 Meeseeks 评测体系及其具体发现。
Meeseeks 是一个完全基于真实业务数据构建的,专注于评测大模型指令遵循(Instruction-Following)能力的基准测试。它引入了一种创新的评测视角:只关注模型是否严格按照用户指令(Prompt)的要求生成回答,而不评估回答内容本身的知识正确性。为了全面、深入地衡量模型的指令遵循能力,研究人员设计了一套覆盖不同粒度和层面的精细化评测框架。
你可能遇到过这种情况:让模型 “用 50 字介绍北京,别提故宫”,结果它写了 80 字,还顺口夸了句 “故宫雄伟”。这就是典型的 “指令遵循翻车”——不看对错,只看是否按要求来。
Meeseeks 的评测框架从宏观到微观,把这种 “要求” 拆成了三层,像剥洋葱一样细,确保评估的深度与广度。
本次 Meeseeks 基准评测清晰地揭示了不同模型在指令遵循与自我纠错能力上的显著差异。评测结果显示,RLLMs(推理语言模型)在所有轮次中均展现出压倒性优势,而一些知名大模型的表现则引发了深入思考。
在经过三轮评测后,各模型的最终排名与表现分析如下:
相较于 IF-Eval、Complexbench 等知名的开源指令遵循评测集,Meeseeks 在多个维度上实现了突破,展现出其独特的评测价值。
Meeseeks 通过四个关键特性,构建了其在横向对比中的核心竞争力。
首先是 覆盖面更广,其数据源于丰富的真实业务场景,确保了评测的全面性与实用价值。
其次是 评测粒度更细,它将单一约束拆解得更为精细,如将“字数遵循”细分为精确值、范围、倍数等多种情况,实现了对模型能力的精准画像。
再者是 杜绝主观评测,摒弃了如“以妈妈的口吻”这类模糊指令,所有评测项均为客观可判定标准,保证了结果的一致性。
最后是 数据难度更高,其测试用例设计更具挑战性,能有效拉开不同模型间的差距。
Meeseeks 最具突破性的特点:
为了验证该模式的有效性,研究团队选择了一批具有代表性的推理语言模型(RLLMs)和大型语言模型(LLMs)进行了评测。如前文图 1 所示,结果清晰地展示了各模型在不同纠错轮次下的表现。
通过对多轮评测数据的深入分析,研究团队得出以下几点关键发现:
综上所述,面对当前大模型普遍存在的“不听话”痛点,Meeseeks 基准通过其精细化的三级评测框架、对客观性的严格坚守以及革命性的“多轮纠错”模式,把评测结果不仅揭示了顶尖模型在复杂指令面前的真实短板,也验证了模型强大的自我修正潜力,将指令遵循评测带到了全新的维度。这为模型开发者指明了优化方向:除了提升基础能力,更要强化模型理解并执行修正指令的能力。
目前,对于共计 11 种语言的 Meeseeks 多语言版本已经在开发末期,多语言 Meeseeks 不仅在保证准确率的基础上适配了不同语言,并基于不同语言的特色内容构建了全新的指令遵循内容,会在不远的将来和大家见面!
未来我们将持续专注于高质量评估研究,推动大模型在指令遵循能力上的提升与发展。欢迎关注美团 M17 团队,了解更多关于评测集的内容!
---------- END ----------
基座大模型评测与探索方向(含算法、工程、产品、运营序列)
随着AI下半场的到来,传统的评测范式已经无法适配持续提升的模型能力,针对 ChatBot 模型的 Arena 评测的有效性也遭到质疑,如何面向现阶段以及未来的模型能力进行科学有效的评估本身也是个极具挑战和价值的研究方向。OpenAI 研究者也表示,AI 接下来比拼的不是训练,而是“如何定义并评估真正有用的任务”。
在这样的背景下,美团大模型评测团队以指引通往 AGI 的道路为目标,深耕模型评测研究,系统性的理解大模型当前能力水平及未来技术发展方向,并以此为基础完善模型评测能力矩阵。欢迎各路英才加入,联系方式:liuxingyu10@meituan.com。
| 美团开源OIBench与CoreCodeBench:揭示大模型编程能力的真实水平
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-28
我摊牌了,PDF的终结者出现了!这个开源神器,让你的RAG项目吞吐能力暴增10倍!
2025-08-28
面壁开源多模态新旗舰MiniCPM-V 4.5,8B 性能超越 72B,高刷视频理解又准又快
2025-08-28
1.9K Star 微软开源TTS王炸!90分钟超长语音合成,4人对话自然切换!
2025-08-27
初探:从0开始的AI-Agent开发踩坑实录
2025-08-27
ollama v0.11.7发布:深度集成DeepSeek-V3.1与Turbo云端推理模式解析
2025-08-26
重磅开源!通义万相最新模型来了
2025-08-26
手把手教你:用字节最新开源 “扣子罗盘”,标准化评测 Prompt 性能
2025-08-26
语音界Sora!微软刚开源新模型,一次生成90分钟语音、3200倍压缩率
2025-07-23
2025-06-17
2025-08-20
2025-06-17
2025-07-23
2025-08-05
2025-07-14
2025-08-20
2025-07-29
2025-07-12