我要投稿

Llama-3.1 70B全量训练！OpenBuddy发布新一代70B中文跨语言模型

发布日期：2024-09-07 21:00:31 浏览次数： 2876

作者：开源智友

微信搜一搜，关注“开源智友”

本次发布的是我们在Llama3.1基座上的最新成果：openbuddy-llama3.1-70b-v22.3-131k。

得益于训练数据的增强及蒸馏数据的应用，和上一代70B模型相比，Llama3.1 70B在多种细分任务上均取得了更加优秀的表现，尤其是在GPQA等较为困难的任务上，Llama3.1 70B模型具备明显优势。

然而，Llama3.1 70B本身在中文理解与生成方面表现不佳：模型倾向于输出英文，并且在较难的中文问题上表现出中文理解力和知识储备的欠缺。

为了增强Llama3.1 70B模型的深度中文理解能力和中文知识储备，我们采用了对70B全量跨语言微调的方式。现有的主流框架上，70B模型的全量训练需要巨量显存，即使是开启了ZeRO-3优化，通常至少需要数十张卡的多机互联环境，且难以支持长文。

出于高效利用资源的考虑，我们近期探索了使用少量资源，进行70B模型的高效全量训练的可行性。基于Pytorch的FSDP分布式训练框架，我们开发出了新一代模型训练方案，在多个方面具备优势：

显著提升VRAM效率、8卡即可全量训练70B模型。通过集成来自开源社区的各类Triton算子实现，以及优化器的CPU Offload技术，全量训练所需的VRAM显著降低。理想情况下，单机8卡即可全量训练70B模型。
支持长文训练。为了保持模型基座的长文能力，在训练过程中使用长文数据十分重要。新一代训练方案在单机环境下支持70B模型的20K长文训练。
训练速度进一步提升。在单机环境，70B模型训练效率可以优化至数千Tokens每秒，足以应对中小规模的训练。

在开发此方案的过程中，我们完整地实现了整个Training loop，而非使用huggingface trainer等现有的训练器，这种设计能够允许我们精调训练过程中的诸多细节。

本次发布的模型即为我们基于新的训练方案的首个模型，测试结果表明，模型在中文上具备稳定的理解能力，并在一些困难任务上，尤其是复杂编码任务上，具备更为优秀的表现。

在本次训练过程中，我们插入了一部分文言文语料，模型的理解、生成文言文能力也取得了一定的进步。

Q: 用文言文写个故事，关于一头算不清房贷利率的狮子

A: 昔有狮子，名曰智者，居于山林之中。其性聪明，能言人语，闻人间有所谓“房贷”之事，乃是人为居所而向他人借金，日后以利相偿。智者心生好奇，遂下山，欲探其究竟。

智者至城，见有银行，乃入其中，向银行之人询问房贷之事。银行之人曰：“吾等可借金予汝，以助汝购居所，然汝须按期偿还本金，并加利息。”智者曰：“利息之数，如何计算？”银行之人曰：“此乃复杂之事，需依据年利率、贷款期限等多种因素而定。”

智者听后，心生疑惑，曰：“年利率之数，如何得知？”银行之人曰：“此乃市场之变动所致，非一成不变。”智者曰：“若是，吾如何能算清利息之数？”银行之人曰：“此乃吾等之职责，汝但需按期偿还即可。”

智者听后，心生不满，曰：“吾为何要借金于汝，而不能自知利息之数？”银行之人曰：“此乃银行之规矩，汝若不愿，亦可不借。”智者曰：“吾欲借金，亦欲知利息之数，否则，吾宁愿不借。”

智者言毕，乃离开银行，回归山林。自此，智者不再提及房贷之事，专心于山林之中，过着简单而快乐的生活。

后人传说，智者之所以不愿借金，乃因其聪明之性，知晓利息之数乃是复杂之事，非一朝一夕所能算清。智者之行为，亦为后人所称赞，乃是智者之明智所在。