AI知识库 AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Unsloth x Qwen2,提速47.32%,节省39.13%显存,最少仅需8.43GB显存
浏览次数: 1561

01

现状

在上一篇文章「Unsloth微调Llama3-8B,提速44.35%,节省42.58%显存,最少仅需7.75GB显存」中,我们介绍了Unsloth,这是一个大模型训练加速和显存高效的训练框架,我们已将其整合到Firefly训练框架中,并且对Llama3-8B的训练进行了测试,Unsloth可大幅提升训练速度和减少显存占用。


遗憾的是,Unsloth目前并不支持Qwen2模型结构,该需求在Unsloth的issue中也被频繁提及,但官方在短期内暂时没有支持Qwen2的计划,更多的是建议用户对Qwen2的权重进行Llama化,然后采用Llama的训练方式。但对Qwen2的权重进行Llama化后,模型性能有显著的下降。注:本文提及的Qwen2指的是模型结构,而非模型权重,Qwen1.5模型属于Qwen2模型结构,Qwen2模型权重尚未开源


Qwen系列模型具有非常大的用户基数,目前开源的Qwen1.5模型可以视为Qwen2的preview版本,它在中英文任务上具有非常优秀的表现,一度取得中英文开源模型的SOTA,且后续还将继续开源正式版本的Qwen2模型。


基于上述现状,Firefly项目组尝试对Unsloth进行扩展,使其能够支持Qwen2模型进行训练,并且我们取得了不错的效果。在训练测试中,Qwen1.5-7B最少仅需8.43GB显存,这意味着我们可以在一张1080Ti上训练Qwen1.5-7B开启Unsloth后,Qwen1.5-7B的训练速度可提升47.32%,训练时间可减少32.12%,显存占用可减少39.13%。我们在?Open LLM Leaderboard中验证了模型和训练方法的有效性,更多详情见第三节。

Firefly项目链接:

https://github.com/yangjianxin1/Firefly


Unsloth x Qwen2项目链接:

https://github.com/yangjianxin1/unsloth


模型权重:

https://huggingface.co/YeungNLP/firefly-qwen1.5-en-7b-unsloth

https://huggingface.co/YeungNLP/firefly-qwen1.5-en-7b-dpo-v0.1-unsloth


02

Unsloth x Qwen2

我们对Unsloth进行了扩展,使其能够支持对Qwen2模型进行训练,扩展后的代码仓库如下:
https://github.com/yangjianxin1/unsloth

使用Unsloth训练Qwen2,需要更新或者安装如下python包:
pip install git+https://github.com/yangjianxin1/unsloth.gitpip install bitsandbytes==0.43.1pip install transformers==4.37pip install peft==0.10.0pip install torch==2.2.2pip install xformers==0.0.25.post1
拉取Firefly代码库:
git clone https://github.com/yangjianxin1/Firefly.git
在Firefly中启动Unsloth训练Qwen2,仅需在原来的训练配置文件中将use_unsloth设为true即可,use_unsloth默认为False


使用Firefly对Qwen1.5-7B进行SFT的启动命令:
python train.py --train_args_file train_args/sft/qlora/qwen1.5-7b-sft-qlora.json
使用Firefly对Qwen1.5-7B进行DPO的启动命令:
python train.py --train_args_file train_args/dpo/qlora/qwen1.5-7b-dpo-qlora.json
值得注意的是,开源版本的Unsloth当前仅支持单机单卡训练。

03

训练增益 & 模型评测

我们首先测试了Unsloth对Qwen2的训练增益,在一张V100上对Qwen1.5-7B进行QLoRA训练,使用相同的数据集训练20步,开启gradient_checkpointing,每条数据均padding至max_seq_length,在所有linear层均插入adapter,由于V100不支持Flash Attention,所以测试未开启Flash AttentionUnsloth所带来的训练增益如下表所示。


结合QLoRA与Unsloth训练Qwen1.5-7B,最少仅需8.43GB显存开启Unsloth后,Qwen1.5-7B的训练速度可提升47.32%,训练时间可减少32.12%,显存占用可减少39.13%

为了进一步验证Unsloth x Qwen2训练的有效性,我们使用Unsloth和QLoRA对Qwen1.5-7B进行了SFT和DPO两阶段训练。整个训练流程仅使用一张V100,在所有Linear层都添加adapter以提升训练效果。两阶段均使用英文数据进行训练。我们与Qwen1.5官方的对话模板保持一致:

<|im_start|>systemYou are a helpful assistant.<|im_end|><|im_start|>userhello, who are you?<|im_end|><|im_start|>assistantI am a AI program developed by Firefly<|im_end|>

在SFT阶段,实验参数设置如下:

num_epochs: 1learning_rate: 2e-4total_train_batch_size: 32max_seq_length: 2048optimizer: paged_adamw_32bitlr_scheduler_type: constant_with_warmupwarmup_steps: 600lora_rank: 64lora_alpha: 16lora_dropout: 0.05gradient_checkpointing: truefp16: true

在DPO阶段,实验设置如下:

num_epochs: 1learning_rate: 2e-4total_train_batch_size: 32max_seq_length: 2048max_prompt_length: 500optimizer: paged_adamw_32bitlr_scheduler_type: constant_with_warmupwarmup_steps: 100lora_rank: 64lora_alpha: 16lora_dropout: 0.05gradient_checkpointing: truefp16: true

我们在?Open LLM Leaderboard上对上述SFT与DPO模型进行评测。在该榜单中,我们的模型的平均表现显著优于官方的Qwen1.5-7B-Chat、Gemma-7B-it等模型。


DPO训练过程中的训练指标的变化如下图所示。在训练过程中,Rewards/accuracies和Rewards/margins均处于上升趋势。


DPO训练中的Rewards/accuracies的变化趋势如下,该指标表示较优回答的奖励大于较劣回答的奖励的频率的均值

DPO训练的Rewards/margins变化趋势如下,该指标表示较优回答的奖励与较劣回答的奖励二者之差的均值:


04

结语

Unsloth是一个非常优秀的项目,通过优化梯度计算、优化链式矩阵乘法、使用Triton重写内核等手段,达到提升训练速度,减少显存占用的目的。但目前开源版本的Unsloth仅仅是一个尝鲜版,仅支持单机单卡训练,但已足够惊艳,商业版Unsloth则有着更加强劲的提升。


这意味着,在算力不变的情况下,通过软件或者算法层面的优化,大模的成本和速度有非常大的进步空间,可以预见大模型训练的硬件门槛也将越来越低。最后,期待开源社区的力量,让开源版的Unsloth更加完善。


推荐新闻
RAG系列04:使用ReRank进行重排序
本文介绍了重排序的原理和两种主流的重排序方法:基于重排模型和基于 LLM。文章指出,重排序是对检索到的上下文进行再次筛选的过程,类似于排序过程中的粗排和精排。在检索增强生成中,精排的术语就叫重排序。文章还介绍了使用 Cohere 提供的在线模型、bge-reranker-base 和 bge-reranker-large 等开源模型以及 LLM 实现重排序的方法。最后,文章得出结论:使用重排模型的方法轻量级、开销较小;而使用 LLM 的方法在多个基准测试上表现良好,但成本较高,且只有在使用 ChatGPT 和 GPT-4 时表现良好,如使用其他开源模型,如 FLAN-T5 和 Vicuna-13B 时,其性能就不那么理想。因此,在实际项目中,需要做出特定的权衡。
LangGPT论文:面向大语言模型的自然语言编程框架(中文版)
大语言模型 (Large Language Models, LLMs) 在不同领域都表现出了优异的性能。然而,对于非AI专家来说,制定高质量的提示来引导 LLMs 是目前AI应用领域的一项重要挑战。
第三篇:要真正入门AI,OpenAI的官方Prompt工程指南肯定还不够,您必须了解的强大方法论和框架!!!
自从ChatGPT(全名:Chat Generative Pre-trained Transformer)于2022年11月30日发布以来,一个新兴的行业突然兴起,那就是提示工程(Prompt engineering),可谓如日冲天。从简单的文章扩写,到RAG,ChatGPT展现了前所未有的惊人能力。
(三)12个RAG痛点及其解决方案
痛点9:结构化数据QA 痛点10:从复杂 PDF 中提取数据 痛点11:后备模型 痛点12:LLM安全
(二)12个RAG痛点及其解决方案
痛点5:格式错误 痛点6:不正确的特异性 痛点7:不完整 痛点8:数据摄取可扩展性

联系我们

售前咨询
186 6662 7370
产品演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询