微信扫码
添加专属顾问
我要投稿
Llama 3.1 推出了:8B 70B 405B型 三种型号的模型,其中:
Llama 3.1 405B 是第一个公开可用的模型,在通用知识、可操纵性、数学、工具使用和多语言翻译方面的最新能力方面可以与顶级 AI 模型相媲美。
8B 和 70B 模型的升级版本是多语言的,具有明显更长的 128K 上下文长度、最先进的工具使用和整体更强的推理能力。这使得 Meta 的最新模型能够支持高级用例,例如长格式文本摘要、多语言对话代理和编码助手。
Meta 还对其许可证进行了更改,允许开发人员使用 Llama 模型(包括 405B 模型)的输出来改进其他模型。
Llama 3.1 405B 在超过 15 万亿个token,16000 个 GPU上进行训练。
这次训练侧重于保持模型开发过程的可扩展性和简单性。
与以前版本的 Llama 相比,我们改进了用于训练前和训练后的数据的数量和质量。这些改进包括为训练前数据开发更仔细的预处理和管理管道,开发更严格的质量保证,以及为训练后数据开发过滤方法。
为了支持 405B 规模模型的大规模生产推理,我们将模型从 16 位 (BF16) 量化到 8 位 (FP8) 数值,有效降低了所需的计算要求,并允许模型在单个服务器节点内运行。
通过在预训练模型之上进行几轮对齐来生成最终的聊天模型。每一轮都涉及监督微调 (SFT)、拒绝采样 (RS) 和直接偏好优化 (DPO)。使用合成数据生成来生成绝大多数 SFT 示例,并多次迭代以在所有功能中生成越来越高质量的合成数据。此外,使用多种数据处理技术,以将这些合成数据过滤到最高质量。使得能够跨功能扩展微调数据量。
仔细平衡数据后,以生成具有所有功能的高质量模型。例如,即使在扩展到 128K 上下文时,也能在短上下文基准上保持模型的质量。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
MCP入门指南:大模型时代的USB接口
2025-04-30
通俗易懂的梳理MCP的工作流程(以高德地图MCP为例)
2025-04-30
一文说明 Function Calling、MCP、A2A 的区别!
2025-04-30
MCP很好,但它不是万灵药|一文读懂 MCP
2025-04-30
旅行规划太难做?5 分钟构建智能Agent,集成地图 MCP Server
2025-04-29
10万元跑满血版DeepSeek,这家公司掀了一体机市场的桌子|甲子光年
2025-04-29
谷歌大神首次揭秘Gemini预训练秘密:52页PPT干货,推理成本成最重要因素
2025-04-29
一文说清:什么是算法备案、大模型备案、大模型登记 2.0
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-29
2025-04-29
2025-04-29
2025-04-28
2025-04-28
2025-04-28
2025-04-28
2025-04-28