我要投稿

腾讯开源Hunyuan-Large，3890亿参数，全球最大开源MoE模型

发布日期：2024-11-05 16:57:19 浏览次数： 2301

作者：猜想笔记

微信搜一搜，关注“猜想笔记”

模型技术优势介绍

高质量合成数据：通过使用合成数据增强训练，Hunyuan-Large 可以学习更丰富的表示，处理长上下文输入，并更好地推广到看不见的数据。

KV 缓存压缩：利用分组查询注意（GQA）和跨层注意（CLA）策略显著减少 KV 缓存的内存使用量和计算开销，提高推理吞吐量。

专家特定的学习率缩放：为不同的专家设置不同的学习率，以确保每个子模型有效地从数据中学习并有助于整体性能。

长上下文处理能力：预训练模型支持高达256K的文本序列，Instruct模型支持高达128K，显著增强了处理长上下文任务的能力。
广泛的基准测试：在多种语言和任务上进行大量实验，验证Hunyuan-Large的实用有效性和安全性。

基准评估

与具有相似激活参数大小的 Dense 和 MoE 竞争对手相比， Hunyuan-Large 预训练模型取得了最佳整体性能。

对于 MMLU、MMLU-Pro 和 CMMLU 等聚合基准，Hunyuan-Large 始终取得最佳性能，证实了其在聚合任务上的综合能力。

Hunyuan-Large 在常识理解和推理以及经典 NLP 任务（例如 QA 和阅读理解任务，例如 CommonsenseQA、PIQA 和 TriviaQA）中也表现出色。

对于数学能力，Hunyuan-Large 在 GSM8K 和 MATH 数学数据集上的表现优于所有基线，并且在中文 CMATH 上也获得了最佳结果。Hunyuan-Large 在所有中文任务（例如 CMMLU、C-Eval）中取得了整体最佳性能。

与具有类似激活参数的 LLM 相比，Hunyuan-Large-Instruct在大多数类型的任务上都实现了持续改进，表明了后训练的有效性。

深入研究不同类别基准测试中的模型性能，instruct 模型在 MMLU 和 MATH 数据集上取得了最佳性能。

值得注意的是，在 MMLU 数据集上，模型表现出显着的改进，比 LLama3.1-405B 模型高出 2.6%。

这种增强不仅仅是微不足道的，而是表明 Hunyuan-Large-Instruct 在广泛的语言理解任务中具有出色的理解和推理能力。该模型在 MATH 数据集上的表现进一步凸显了其实力，它比 LLama3.1-405B 明显高出 3.6%。

值得注意的是，这种准确度的飞跃仅通过 520 亿个激活参数就实现了，凸显了模型的效率。

PS：腾讯还开源了一个3D生成大模型。

END.

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-13

开源：参考OpenClaw，我们给 Claude Code 加上了轻量化的永久透明记忆

2026-02-13

爆火的 OpenClaw，正在重新定价所有 AI 创业赛道

2026-02-13

OpenClaw走红背后：当AI助手拥有你的邮箱和硬盘访问权

2026-02-13

OpenClaw 接入 GLM5/MiniMax M2.5 简易教程，来了

2026-02-12

超强开源 OCR 模型彻底颠覆了商业 OCR：轻量 0.9B 参数、多项能力达到了 SOTA 水平

2026-02-12

57分钟、6次交互、上千行深度思考！GLM-5从0到1开发因果关系图谱抽取及可视化系统实录

2026-02-12

GLM-5开源：迈向Agentic Engineering新范式

2026-02-12

GLM-5深夜登场，这是国产开源模型首次逼平Claude Opus 4.5。

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全新AI编程工具 Google Antigravity 实测，特别适合产品经理

2025-11-19

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

SkillsMP：一个聚合了 5 万+ AI Agent 技能的开源社区

2026-01-12

重磅开源！Kimi K2.5 本地部署全攻略：手把手教你跑通 1T MoE 巨兽

2026-01-30

一文彻底看懂 Google 最新开源 A2UI 协议：如何让 AI Agent “说出UI” ？

2025-12-22

让白宫“破防”的阿里千问，我替你们测了...

2025-11-17

豆包手机同款AutoGLM硬核开源：AI如何用“眼睛+大脑+手”接管你手机

2025-12-10

给自己搭一个 AI 搭档：OpenClaw 安装使用全记录

2026-02-06

ClawdBot 火爆全网，手把手教你如何部署，还能直接用钉钉操作！

2026-01-28

大家都在问

OpenClaw近一半用户来自中国，大家在FOMO什么？

2026-02-11

Clawdbot 如何实现像人一样的长期记忆？

2026-02-05

一夜爆火，Clawdbot是否才是真正的AI入口产品？

2026-01-28

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

速递 | DeepSeek突然扔出MODEL1，这到底是V4还是R2？

2026-01-21

DeepSeek-R2要来了？

2026-01-21

TranslateGemma-27B谷歌开源翻译模型有多强？

2026-01-20

构建开放智能体生态：AgentScope 如何用 A2A 协议与 Nacos 打通协作壁垒？

2026-01-16

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部