微信扫码
添加专属顾问
我要投稿
本次发布的是我们在Llama3.1基座上的最新成果:openbuddy-llama3.1-70b-v22.3-131k。
得益于训练数据的增强及蒸馏数据的应用,和上一代70B模型相比,Llama3.1 70B在多种细分任务上均取得了更加优秀的表现,尤其是在GPQA等较为困难的任务上,Llama3.1 70B模型具备明显优势。
然而,Llama3.1 70B本身在中文理解与生成方面表现不佳:模型倾向于输出英文,并且在较难的中文问题上表现出中文理解力和知识储备的欠缺。
为了增强Llama3.1 70B模型的深度中文理解能力和中文知识储备,我们采用了对70B全量跨语言微调的方式。现有的主流框架上,70B模型的全量训练需要巨量显存,即使是开启了ZeRO-3优化,通常至少需要数十张卡的多机互联环境,且难以支持长文。
出于高效利用资源的考虑,我们近期探索了使用少量资源,进行70B模型的高效全量训练的可行性。基于Pytorch的FSDP分布式训练框架,我们开发出了新一代模型训练方案,在多个方面具备优势:
显著提升VRAM效率、8卡即可全量训练70B模型。通过集成来自开源社区的各类Triton算子实现,以及优化器的CPU Offload技术,全量训练所需的VRAM显著降低。理想情况下,单机8卡即可全量训练70B模型。
支持长文训练。为了保持模型基座的长文能力,在训练过程中使用长文数据十分重要。新一代训练方案在单机环境下支持70B模型的20K长文训练。
训练速度进一步提升。在单机环境,70B模型训练效率可以优化至数千Tokens每秒,足以应对中小规模的训练。
在开发此方案的过程中,我们完整地实现了整个Training loop,而非使用huggingface trainer等现有的训练器,这种设计能够允许我们精调训练过程中的诸多细节。
本次发布的模型即为我们基于新的训练方案的首个模型,测试结果表明,模型在中文上具备稳定的理解能力,并在一些困难任务上,尤其是复杂编码任务上,具备更为优秀的表现。
在本次训练过程中,我们插入了一部分文言文语料,模型的理解、生成文言文能力也取得了一定的进步。
Q: 用文言文写个故事,关于一头算不清房贷利率的狮子
A: 昔有狮子,名曰智者,居于山林之中。其性聪明,能言人语,闻人间有所谓“房贷”之事,乃是人为居所而向他人借金,日后以利相偿。智者心生好奇,遂下山,欲探其究竟。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-04
Agent 越用越聪明?AgentScope Java 在线训练插件来了!
2026-02-03
OpenClaw之后,我们离能规模化落地的Agent还差什么?
2026-01-30
Oxygen 9N-LLM生成式推荐训练框架
2026-01-29
自然·通讯:如何挖掘复杂系统中的三元交互
2026-01-29
微调已死?LoRA革新
2026-01-19
1GB 显存即可部署:腾讯 HY-MT1.5 的模型蒸馏与量化策略解析
2026-01-18
【GitHub高星】AI Research Skills:一键赋予AI“博士级”科研能力,74项硬核技能库开源!
2026-01-10
前Mata GenAI研究员田渊栋的年终总结:关于未来AI的思考
2025-11-21
2025-12-04
2026-01-04
2026-01-02
2025-11-22
2025-11-20
2025-11-19
2026-01-01
2025-12-21
2025-11-23
2026-02-03
2026-01-02
2025-11-19
2025-09-25
2025-06-20
2025-06-17
2025-05-21
2025-05-17