微信扫码
添加专属顾问
我要投稿
Meta于7月23日发布Meta Llama 3.1 405B,并认为这是世界上最大、功能最强大的开源基础模型。顶级开源模型Llama 3.1 405B的上下文长度扩展到了 128K、支持八种语言,在常识、可操纵性、数学、工具使用和多语言翻译等方面可与 GPT-4、GPT-4o、Claude 3.5 Sonnet 等领先的闭源模型相媲美。
针对公众关注的Llama 3.1 405B的中文性能问题,作为专业第三方测评机构SuperCLUE选取了中文推理相关的核心任务进行了深入测评。具体来说,我们采用了中文数学多步推理测评基准(SuperCLUE-Math6,含2024题)和中文等级化代码单元测试基准(SuperCLUE-Code3,包含1560个测试用例),对Llama 3.1 405B在数学和编程方面的能力进行了全面评估。
先说结论
结论1:在完成SuperCLUE推理任务时,Llama 3.1 405B的整体得分为88.44,超过GPT-4 Turbo,仅次于GPT-4o,暂据排行榜第二。
结论2:Llama 3.1 405B在SC-Math6数学基准上得分91.19分,判定为推理等级5,与GPT-4o相比仅有0.58分的差距,领先其他模型。
结论3:Llama 3.1 405B在SC-Code3代码基准上得分69.68分,接近70分,较GPT-4 Turbo略高(0.11分),与GPT-4o有一定差距(2分)。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-03
如愿以偿!Qwen3-VL再开源30B-A3B,附实测!
2025-10-03
开源神器 OpenDataLoader PDF:RAG 数据预处理终结者,告别“垃圾进,垃圾出”!
2025-10-03
告别散装!蚂蚁金服新模型,一个模型搞定图像理解生成与编辑!
2025-09-29
DeepSeek-V3.2背后的国产算子编程语言TileLang是什么?如何保持性能领先的同时减少6倍代码量?
2025-09-29
DeepSeek-V3.2-Exp开源,附论文细节解读!
2025-09-29
独家 | 帆软首次掀起盖头,万字访谈揭密BI巨头的出海之路
2025-09-29
2 分钟搞定官方文档没写的隐藏功能?99%的人还没掌握这种AI学习法!
2025-09-27
一招搞定知识库的文档分级分类,Dify可以这么做
2025-07-23
2025-08-20
2025-09-07
2025-07-23
2025-08-05
2025-07-14
2025-08-20
2025-07-29
2025-07-12
2025-07-31
2025-09-29
2025-09-17
2025-09-09
2025-09-08
2025-09-07
2025-09-01
2025-08-16
2025-08-13