我要投稿

大模型，进入剪枝蒸馏时代！

发布日期：2024-08-26 13:08:51 浏览次数： 2250

作者：NLP前沿

微信搜一搜，关注“NLP前沿”

文章的目标是通过pruning和distillation，将Llama 3.1 8B和Mistral NeMo 12B模型分别压缩到4B和8B参数。总的来说，获得了非常好的结果。

先压缩参数 -> 剪枝。先计算每层、神经元、头和嵌入维度的重要性，开始剪枝过程。然后，对这些重要性分数进行排序，以计算相应的重要性排名。

判断是否重要，考虑三个不同的指标来评估层重要性：(1) LM dev loss，(2) Block Importance (BI) 和 (3) 下游任务的准确性。

1，3好理解，2就是衡量输入输出cosine距离的一个策略，之前的论文也提到过。

一般开源模型不知道什么数据训练的，所以文中提出了在剪枝和蒸馏之前对教师模型进行微调的步骤，称为teacher correction，用了127B tokens。

至于蒸馏，仅在teacher和student logits 上使用前向 KL 散度损失

是否加teacher correction步骤，差异如下：

Width vs Depth Pruning，两种变体具有相同数量的参数，但宽度剪枝可以得到较小的初始损失，并始终优于深度剪枝模型。

与随机初始化更小的网络相比，pruning起点明显更低，另外基于蒸馏的训练优于传统训练方法，同时需要更少的训练tokens（下图红线和绿线）

teacher correction不回影响到剪枝的重要性排序，结合蒸馏，可以弥补剪枝从原始权重带来的差距

开头和结尾的layer是最重要的。删除不连续的layer可以获得更好的 LM 验证损失（下图虚线）。但是这个结论在下游任务准确率上不一定稳定成立。

最后文中的总结结论，上面大体上提到了：

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-29

AI+合同审查落地分享（下-1- 合同智能审查）

2025-07-29

AI 应用开发，还需要意图识别吗？

2025-07-29

一键切换不同的 Claude Code API

2025-07-29

一文搞懂大模型、RAG、函数调用、Agent、知识库、向量数据库、知识图谱、AGI的概念和联系

2025-07-29

腾讯的IDE codeBuddy体验来了，说点自己的感受。

2025-07-29

突发：GPT-5下周发布

2025-07-29

WAIC 2025 观察：大模型进入“效率与场景”决胜期

2025-07-29

爆火了大半年，Agent 到底能干好多少活 | WAIC 特别策划

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek R1-0528 小版本升级

2025-05-29

高效 Agents 构建指南

2025-05-23

SpringAI Alibaba实战文生图、聊天记忆功能

2025-06-01

忽视小模型和知识库，企业AI应用必将是死路一条

2025-05-07

从RAG到CoT再到MCP，一文读懂AI Agent落地难题｜大模型研究

2025-05-07

CAG 与 RAG：哪种方法能带来性能更好的人工智能

2025-05-07

AIGC合规落地全景图 | 如何做好AIGC数据合规

2025-06-07

精|知识探索新范式：深度研究Deep Research智能体全面综述，系统、方法与应用

2025-06-21

别再被MCP协议绕晕！一文搞懂连接流程与核心架构

2025-06-12

OpenAI创始人红衫AI峰会最新爆论：AI创业者，想活命就别再跟老子卷大模型了！

2025-05-20

大家都在问

AI 应用开发，还需要意图识别吗？

2025-07-29

AI还有哪些机会？你是否适合切入？

2025-07-29

Cursor Meetup 杭州站分享实录：小团队如何用 AI 撑起万级日活产品？

2025-07-28

独家｜对话夸克AI眼镜宋刚：如何把整个阿里巴巴塞进一副眼镜里？

2025-07-27

如何用 AI 翻译实现文档多语言支持的周级敏捷响应？

2025-07-27

面向 AI Agent 的搜索服务，小宿科技有机会成为百亿美金的新巨头吗？

2025-07-25

AI 基础知识从 0.3 到 0.4——如何选对深度学习模型？

2025-07-24

任务紧急，CodeBuddy是如何成为“第二双手”的？

2025-07-24

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备14082021号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部