微信扫码
添加专属顾问
我要投稿
“今天这篇文章是周五hf的daily papers推的文章,然后在x上的热度也蛮高的。类似于上周的两篇偏向于实验性的文章,分别为研究一下大模型微调数据中新旧知识对效果的影响程度、揭秘大模型在知识冲突下的推理行为,在外网的热度都挺高的,可惜浏览量比较低,所以这里贴一下原文地址。gemini pro1.5的技术报告出来了,明天应该看这个。
https://arxiv.org/abs/2405.09673
这篇文章的标题是《LoRA Learns Less and Forgets Less》,大概就是说lora微调比不上全参数微调。当然之前相关的也有一些论文,就是说lora比全参微调效果好或者差不多的。
整个论文是一篇比较长的实验性的论文,文章的实验数据集的方向集中在代码和数学上。训练策略分为2种,CPT、IFT,分别对应Continued Pretraining和Instruction Finetuning。CPT需要控制的参数就是继续预训练的token数量,而IFT需要控制的则是lora_target_modules=[attn_q/k/v,mlp_down/up]以及lora_rank。
下面一张图一张图来看看。
首先这里的纵轴的效果的都是原始领域的数据集,使用代码或者数学微调之后,虚线代表base模型的基准,所以蓝线高则忘得少。
LoRA 模型位于右下角——学习更少,忘记更少(点点横坐标越大说明以往的越少,纵坐标越大,说明学习的越好。)。对于代码 IFT,在目标域性能水平相当的情况下,LoRA 表现出更高的源域性能,从而呈现出更好的权衡。
这里是试图研究的是期望低秩训练能够很好地近似完全微调,如果可以的话,必要的rank是多少。
over~
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-06-22
当AI重新定义公司:一个人的团队时代来了吗?几十年前的诺贝尔经济学理论,如何解释今天的组织变革
2025-06-22
编程神器Cursor终于更新到正式版,最新系统提示词来了!
2025-06-21
AI时代的生存-什么让我们脱颖而出?
2025-06-21
工业大模型定义及技术架构
2025-06-21
精|知识探索新范式:深度研究Deep Research智能体全面综述,系统、方法与应用
2025-06-21
Qwen3 Embedding模型架构、训练方法、数据策略
2025-06-21
别搞通用智能体,落地赚钱才是王道
2025-06-21
大模型工程化:从“实验玩具”到“应用落地”的关键突破口
2025-05-29
2025-04-11
2025-04-01
2025-04-12
2025-04-12
2025-04-06
2025-04-29
2025-04-29
2025-04-15
2025-04-13
2025-06-21
2025-06-20
2025-06-20
2025-06-20
2025-06-20
2025-06-19
2025-06-19
2025-06-18