微信扫码
添加专属顾问
我要投稿
大幅降低显存需求,提升模型上下文长度,Unsloth优化让古董GPU焕发新生。 核心内容: 1. Unsloth优化DeepSeek-R1同款GRPO算法,显存需求降至5GB 2. 推理模型训练显存大幅下降,上下文长度增加10倍 3. 与Flash Attention 2结合,Unsloth大幅降低VRAM使用,提高效率
开源微调神器Unsloth带着黑科技又来了:上次更新把GRPO需要的内存见到了7GB,这次只需要5GB的VRAM,就能训练自己的推理模型Qwen2.5(1.5B),比上次要少2GB。
减少长上下文90%VRAM
和使用Flash Attention 2的标准实现相比,Unsloth使用多种技巧,巧妙地把GRPO的VRAM使用量减少了90%多!
数学原理
分组相对策略优化(Group Relative Policy Optimization,GRPO),出自DeepSeek去年发表的论文。
torch.exp(q-q.detach()) * advantages.unsqueeze(1)
使用参考实现的常规GRPO(红线)
移除detach代码(蓝线)
按照之前讨论的完整反向KL,添加额外项(黄线)
Unsloth高效GRPO算法
其他功能
from unsloth import PatchFastRLPatchFastRL("GRPO", FastLanguageModel)
model, tokenizer = FastLanguageModel.from_pretrained(model_name = "meta-llama/meta-Llama-3.1-8B-Instruct",max_seq_length = max_seq_length,load_in_4bit = True, fast_inference = True, max_lora_rank = lora_rank,gpu_memory_utilization = 0.6, float8_kv_cache = True, )
如果想在vLLM中使用min_p=0.1或其他采样参数,也支持传递vLLM的SamplingParams参数中的任何内容!
max_prompt_length = 256
from trl import GRPOConfig, GRPOTrainer
from unsloth import vLLMSamplingParams
vllm_sampling_params = vLLMSamplingParams(
min_p = 0.1,
seed = 3407,
...
)
training_args = GRPOConfig(
...
vllm_sampling_params = vllm_sampling_params,
temperature = 1.5,
)
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
Nacos 3.0 正式发布:MCP Registry、安全零信任、链接更多生态
2025-04-30
Qwen3小模型实测:从4B到30B,到底哪个能用MCP和Obsidian顺畅对话?
2025-04-30
WeClone: 用微信聊天记录微调大语言模型
2025-04-30
强化微调来袭!如何让AI真正“听懂”人类需求
2025-04-30
部署运维SRE专属大模型
2025-04-29
Qwen3 一手实测
2025-04-29
MCP、RAG、Function Calling、Agent与微调如何重塑未来应用
2025-04-28
Al代码审查实践:从构想到快速落地
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01
2025-04-30
2025-04-27
2025-04-27
2025-04-23
2025-04-20
2025-04-01
2025-03-31
2025-03-20