微信扫码
添加专属顾问
我要投稿
“今天这篇文章是周五hf的daily papers推的文章,然后在x上的热度也蛮高的。类似于上周的两篇偏向于实验性的文章,分别为研究一下大模型微调数据中新旧知识对效果的影响程度、揭秘大模型在知识冲突下的推理行为,在外网的热度都挺高的,可惜浏览量比较低,所以这里贴一下原文地址。gemini pro1.5的技术报告出来了,明天应该看这个。
https://arxiv.org/abs/2405.09673
这篇文章的标题是《LoRA Learns Less and Forgets Less》,大概就是说lora微调比不上全参数微调。当然之前相关的也有一些论文,就是说lora比全参微调效果好或者差不多的。
整个论文是一篇比较长的实验性的论文,文章的实验数据集的方向集中在代码和数学上。训练策略分为2种,CPT、IFT,分别对应Continued Pretraining和Instruction Finetuning。CPT需要控制的参数就是继续预训练的token数量,而IFT需要控制的则是lora_target_modules=[attn_q/k/v,mlp_down/up]以及lora_rank。
下面一张图一张图来看看。
首先这里的纵轴的效果的都是原始领域的数据集,使用代码或者数学微调之后,虚线代表base模型的基准,所以蓝线高则忘得少。
LoRA 模型位于右下角——学习更少,忘记更少(点点横坐标越大说明以往的越少,纵坐标越大,说明学习的越好。)。对于代码 IFT,在目标域性能水平相当的情况下,LoRA 表现出更高的源域性能,从而呈现出更好的权衡。
这里是试图研究的是期望低秩训练能够很好地近似完全微调,如果可以的话,必要的rank是多少。
over~
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-02
AI代码的“屎山危机”才刚刚开始
2026-04-02
千问发布新一代大语言模型Qwen3.6-Plus
2026-04-02
疑似GPT-6曝光! OpenAI 联合创始人亲口爆料 Spud 新一代AI模型,并且拥有“大模型气味”!网友评论:它是第一个真正会“思考”的型号!
2026-04-02
和大橘子聊了聊他的 ColaOS:你为什么会把所有底牌都给一个人
2026-04-02
中国最强编程模型来了! 阿里Qwen3.6-Plus性能直逼Claude,国产大模型杀入决赛圈
2026-04-02
10 分钟做完小红书图文生成器,这次 Qwen3.6 有点猛。
2026-04-02
Qwen3.6-Plus重磅发布,编程与智能体能力全面提升!
2026-04-02
Anthropic文化曝光:工作生活不平衡、高压高强度,但推荐率95%
2026-01-24
2026-01-10
2026-01-26
2026-01-09
2026-01-09
2026-01-23
2026-01-14
2026-03-13
2026-01-07
2026-01-21