我要投稿

【大模型微调】5.调参经验总结与显存占用因素探究

发布日期：2025-06-21 17:33:43 浏览次数： 2962

作者：我有一计

微信搜一搜，关注“我有一计”

引言

本文承接本系列第二篇文章，继续探究各参数应该如何进行设置，以及其对模型显存的影响。

调参参考经验总结

训练模型的过程通常被戏称为“炼丹”。参数组合和结果息息相关，但没有标准最优参数组合。

因此，在自行钻研之前，有必要先看看别人是怎么做的。

1. 北航 ACT 实验室的调参经验

北航 ACT 实验室做了一份教程[1]，参数经验概括如下：

1.调大学习率
默认的学习率是5e-5，其调大一倍，改成1e-4，调大学习率让模型每轮迭代学习速度提升
2.调大训练轮数
默认的训练轮数是3轮，其调成8轮，让模型更加充分训练
3.调节批处理大小
默认的批处理大小为2，该文章指出：一般保持批处理大小×梯度累积×显卡数量等于 32 即可
4.调大LoRA参数
默认的LoRA秩为8，缩放系数为16，其将LoRA秩调为16，缩放系数调为32

2. 核心开发者的调参经验

LLaMA-Factory 的核心开发者马勇强在知乎上写了一篇入门文档[2]，其在微调时的参数选择脚本如下：

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train \
    --stage sft \
    --do_train \
    --model_name_or_path /media/codingma/LLM/llama3/Meta-Llama-3-8B-Instruct \
    --dataset alpaca_gpt4_zh,identity,adgen_local \
    --dataset_dir ./data \
    --template llama3 \
    --finetuning_type lora \
    --output_dir ./saves/LLaMA3-8B/lora/sft \
    --overwrite_cache \
    --overwrite_output_dir \
    --cutoff_len 1024 \
    --preprocessing_num_workers 16 \
    --per_device_train_batch_size 2 \
    --per_device_eval_batch_size 1 \
    --gradient_accumulation_steps 8 \
    --lr_scheduler_type cosine \
    --logging_steps 50 \
    --warmup_steps 20 \
    --save_steps 100 \
    --eval_steps 50 \
    --evaluation_strategy steps \
    --load_best_model_at_end \
    --learning_rate 5e-5 \
    --num_train_epochs 5.0 \
    --max_samples 1000 \
    --val_size 0.1 \
    --plot_loss \
    --fp16

对应修改点如下：

1.截断长度下调
截断长度从2048下调到1024
2.预热步数上调
预热步数从0上调到20
3.训练轮数上调
训练轮数从3上调到5
4.最大样本数下调
最大样本数从100000下调到1000
5.验证集比例上调
验证集比例从0上调到0.1(10%)
6.计算类型修改
计算类型从 bf16 改为 fp16

3. 其它博主的调参经验

easy-dataset 的作者 ConardLi 的文章[3]也分享了调参经验，总结归纳如下：

1.大 batch_size 需搭配大学习率，小 batch_size 需搭配小学习率，对于小数据集的微调，batchsize可直接从1开始。
2.截断长度应适当调大，调成4096，否则很多数据会不完整。
3.LoRA秩从8开始即可，最低不要 < 8，小数据集不要调的过大。

训练模型显存占用组成

文章[3]还指出，训练模型时，模型的显存主要由以下几部分组成：

基础模型权重
基础模型权重主要和计算精度有关，以 bf16 精度为例，7B的模型所需显存就是14GB。但实际上无法之间这样去推算，因为使用 bf16 后，系统会进行混合精度训练，实际精度是 bf16 + fp32。
激活值
激活值的计算方法为：显存占用 = 批量大小 × 序列长度 × 隐藏层维度 × 模型层数 × 单个元素字节数估算方法：以 Qwen2.5-7B-Instruct 为基准，单次处理的 Token 量每增加 1K，显存约增加 2.5G。
单次处理的 token 与批次大小和截断长度相关，批次大小翻倍，单次处理的 token 也翻倍，截断长度变长，如果单次数据集输入数据可能会增加。
LoRA 适配器
LoRA 适配器的计算方法为：显存占用 = LoRA 层数 × 秩（Rank）×（输入维度 + 输出维度）× 2B
LoRA 插入的层数，插入前后的维度很难一次性统计和估计出来，因此这部分只能采用估计的方式。
框架开销
框架开销包括深度学习框架 PyTorch本身的显存占用。
多卡分布开销
多卡联合分布式训练时，需要一部分显存用于通信开销，这部分后面会进行试验。

总结一下，训练模型和推理模型差别很大，影响显存占用的因素更多，因此无法直接去准确衡量，还是需要实验进行测试。

实验

下面来进行实验，使用DeepSeek-R1-7B作为基础模型，以秩为 8 的 LoRA 作为微调方法，进行“消融实验”。

1. 多卡开销有多大？

首先验证一下，使用多卡运行相比单卡运行，需要增加多少显存。

用单卡运行，显存占用16.64GB。

CUDA_VISIBLE_DEVICES=0 llamafactory-cli webui

再用八卡运行，开启DeepSpeed stage 3，显存占用76.88GB。

该实验说明，多卡运行看上去并不是简单的做一些通信开销，而可能存在把模型复制多份的情况，具体策略和控制参数有待研究。

2. LoRA数值影响多大？

下面以上面八卡运行的显存占用情况作为基准，将LoRA的秩调到16，显存占用80.39GB。

说明调大 LoRA 数值后，显存占用约有4GB左右提升。

3. 批处理大小影响多大？

下面将批处理大小从 2 调整成 16，显存占用约181.97GB。

说明批处理大小影响很大，基本上是成倍效果的提升。

4. 计算精度影响多大？

下面将计算精度从bf16调到fp32，显存占用约183.06GB。

说明计算精度也会对显存占用产生巨大影响，混合精度机制已经省了巨量显存。

5. 量化影响多大？

下面使用 QLoRA 设置 lora量化等级为4，显存占用约48.83GB。

QLoRA确实也能剩下很多显存。

6. liger_kernel可以节省显存吗？

默认的加速方式采用的是flashattn2。

下面换成 liger_kernel进行测试，显存占用约80.62GB，并没有减少显存占用，反而略微增加。

7. 多模态模型和纯语言模型显存占用差别有多大？

如果微调多模态模型，视觉编码器和多模态投影编码默认是冻结的，只微调语言模型。

因此，是否同参数量下多模态语言和纯语言模型显存占用差不多呢？

总结一下之前做的实验(实验时batch size取1)，结果如下：

结果是不确定，相同参数量下，模型架构不同，影响仍然很大。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-11-05

2张4090竟能本地微调万亿参数Kimi K2！趋境联合清华北航把算力门槛击穿了

2025-11-05

基于昇腾NPU的Qwen3量化因子代码生成微调实战

2025-10-21

从零教你微调一个专属领域大模型，看完小白也能学会炼丹!（完整版）

2025-10-14

用Macbook微调Qwen3！手把手教你用微调给Qwen起一个新名字

2025-10-12

微调已死？Google 和斯坦福论文指出AI 学习新范式

2025-09-25

如何将 AI 代码采纳率从30%提升到80%？

2025-09-24

一位淘宝工程同学的大模型LoRA微调尝试

2025-09-20

在Colab中微调Qwen3-4B模型实战指南

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

微调已死？Google 和斯坦福论文指出AI 学习新范式

2025-10-12

手把手教你用LLaMA‑Factory微调医疗问答模型：从小白到专家的实战之路

2025-08-25

微调实战之上手训一个7b小模型

2025-08-23

让AI读懂代码需求：模块化大模型微调助力高效代码理解与迁移

2025-08-11

用Macbook微调Qwen3！手把手教你用微调给Qwen起一个新名字

2025-10-14

阿里云Qwen3系列模型部署微调评测

2025-09-07

如何将公司内部数据制作成大模型训练用的数据集

2025-09-04

微调Qwen2.5模型的完整指南

2025-09-09

WeChat-YATT：微信强化学习大模型训练库

2025-08-18

在Colab中微调Qwen3-4B模型实战指南

2025-09-20

大家都在问

如何将 AI 代码采纳率从30%提升到80%？

2025-09-25

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-20

万不得已，不要对 LLM 进行微调？

2025-06-17

可以将任何符合OpenAPI规范的接口转 MCP Server吗？

2025-05-21

OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

2025-05-17

私有部署大模型需要多少显存？

2025-05-14

软件公司如何为AI的下半场做准备？

2025-05-10

LoRA为何成为大模型微调不可或缺的核心技术？

2025-05-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB