微信扫码
添加专属顾问
我要投稿
“今天这篇文章是周五hf的daily papers推的文章,然后在x上的热度也蛮高的。类似于上周的两篇偏向于实验性的文章,分别为研究一下大模型微调数据中新旧知识对效果的影响程度、揭秘大模型在知识冲突下的推理行为,在外网的热度都挺高的,可惜浏览量比较低,所以这里贴一下原文地址。gemini pro1.5的技术报告出来了,明天应该看这个。
https://arxiv.org/abs/2405.09673
这篇文章的标题是《LoRA Learns Less and Forgets Less》,大概就是说lora微调比不上全参数微调。当然之前相关的也有一些论文,就是说lora比全参微调效果好或者差不多的。
整个论文是一篇比较长的实验性的论文,文章的实验数据集的方向集中在代码和数学上。训练策略分为2种,CPT、IFT,分别对应Continued Pretraining和Instruction Finetuning。CPT需要控制的参数就是继续预训练的token数量,而IFT需要控制的则是lora_target_modules=[attn_q/k/v,mlp_down/up]以及lora_rank。
下面一张图一张图来看看。
首先这里的纵轴的效果的都是原始领域的数据集,使用代码或者数学微调之后,虚线代表base模型的基准,所以蓝线高则忘得少。
LoRA 模型位于右下角——学习更少,忘记更少(点点横坐标越大说明以往的越少,纵坐标越大,说明学习的越好。)。对于代码 IFT,在目标域性能水平相当的情况下,LoRA 表现出更高的源域性能,从而呈现出更好的权衡。
这里是试图研究的是期望低秩训练能够很好地近似完全微调,如果可以的话,必要的rank是多少。
over~
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-23
智能时代的数据基座:烟台银行构建“可信数据存储安全体系”的实践与展望
2025-12-22
Claude Code Skill 设计机制深度分析
2025-12-22
深度解读DeepMind最新研究:为什么需要像管股市一样去管AI?
2025-12-22
人工智能 | 企业级AI市场的快速爆发,但仍停留在Copilot阶段、Agent还没到来 —— Menlo Ventures
2025-12-21
剿杀n8n!Google Gems 重塑AI工作流,真一句话一个应用
2025-12-21
2026年将属于能善用最便宜的Token,解决最脏最累问题的“务实主义者”(长文)
2025-12-21
警惕!每天用AI的人,大脑正在变“懒”:MIT实验证实思考退化危机
2025-12-21
CosyVoice3一键包,3秒完美复刻声音!
2025-10-26
2025-10-02
2025-09-29
2025-10-07
2025-09-30
2025-11-19
2025-10-20
2025-11-13
2025-10-02
2025-10-18
2025-12-22
2025-12-16
2025-12-15
2025-12-14
2025-12-12
2025-12-12
2025-12-11
2025-12-09