微信扫码
添加专属顾问
我要投稿
“今天这篇文章是周五hf的daily papers推的文章,然后在x上的热度也蛮高的。类似于上周的两篇偏向于实验性的文章,分别为研究一下大模型微调数据中新旧知识对效果的影响程度、揭秘大模型在知识冲突下的推理行为,在外网的热度都挺高的,可惜浏览量比较低,所以这里贴一下原文地址。gemini pro1.5的技术报告出来了,明天应该看这个。
https://arxiv.org/abs/2405.09673
这篇文章的标题是《LoRA Learns Less and Forgets Less》,大概就是说lora微调比不上全参数微调。当然之前相关的也有一些论文,就是说lora比全参微调效果好或者差不多的。
整个论文是一篇比较长的实验性的论文,文章的实验数据集的方向集中在代码和数学上。训练策略分为2种,CPT、IFT,分别对应Continued Pretraining和Instruction Finetuning。CPT需要控制的参数就是继续预训练的token数量,而IFT需要控制的则是lora_target_modules=[attn_q/k/v,mlp_down/up]以及lora_rank。
下面一张图一张图来看看。
首先这里的纵轴的效果的都是原始领域的数据集,使用代码或者数学微调之后,虚线代表base模型的基准,所以蓝线高则忘得少。
LoRA 模型位于右下角——学习更少,忘记更少(点点横坐标越大说明以往的越少,纵坐标越大,说明学习的越好。)。对于代码 IFT,在目标域性能水平相当的情况下,LoRA 表现出更高的源域性能,从而呈现出更好的权衡。
这里是试图研究的是期望低秩训练能够很好地近似完全微调,如果可以的话,必要的rank是多少。
over~
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-02
深度解析:为何私有化部署的满血版DeepSeek在企业场景下的多任务协作表现不佳,以及如何优化
2026-01-02
Agent圣经(四)| 一文搞懂Function Call、MCP、Skills
2026-01-02
深度|从Monica到Manus,肖弘为什么会成功
2026-01-02
OpenAI前首席科学家Ilya Sutskever:规模神话的终结,回到研究时代
2026-01-01
详解 & 实测 GLM-4.7 ,14个Skills、前端设计能力
2026-01-01
按场景来服务「人」,腾讯会议的AI情商好高
2026-01-01
2026 开年 AI 工具推荐,让你新的一年效率起飞!(建议收藏)
2026-01-01
Perplexity CEO:AI 时代成功者的唯一特质:“学习速度”:好奇心,洞察真相,拒绝犹豫,行动快速,快速放弃错误方向
2025-10-26
2025-10-07
2025-11-19
2025-11-13
2025-10-20
2025-10-18
2025-10-11
2025-10-21
2025-10-15
2025-10-09
2025-12-31
2025-12-31
2025-12-31
2025-12-30
2025-12-30
2025-12-25
2025-12-25
2025-12-25