专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

LLM高效预训练(二)

AINLP · 公众号 · · 2024-10-08 10:09

文章预览

从目前的实践结果来看，从大模型通过裁剪、蒸馏等手段获取小模型，效果是比较好的，同时成本也相比直接从零预训练要低廉得多，而且也免去了大量收集数据和清洗数据的工作。今天就集中讲一下模型裁剪的工作。裁剪 + 蒸馏论文：《Compact Language Models via Pruning and Knowledge Distillation》 & 《LLM Pruning and Distillation in Practice: The Minitron Approach》时间：2024年7月 & 2024年8月机构：NVIDIA 这两篇实际上是一个内容，后一篇是前一篇的整合和完整版，增加了基于Llama-3.1和Mistral的实验。《Compact》更像是比较混杂的实验报告。英伟达提出的方法简单来说就是通过对已有的大模型进行裁剪，并对裁剪后的小模型使用蒸馏训练进行效果恢复（效果恢复的训练称之为retrian）。这么做可以以 < 3%的retrain训练量，获得比从零训练的小模型更好的效果。 Nemotron-4 15B裁 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博