专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
相关文章推荐
今天看啥  ›  专栏  ›  AINLP

LLM高效预训练(二)

AINLP  · 公众号  ·  · 2024-10-08 10:09

文章预览

从目前的实践结果来看,从大模型通过裁剪、蒸馏等手段获取小模型,效果是比较好的,同时成本也相比直接从零预训练要低廉得多,而且也免去了大量收集数据和清洗数据的工作。 今天就集中讲一下模型裁剪的工作。 裁剪 + 蒸馏 论文:《Compact Language Models via Pruning and Knowledge Distillation》 & 《LLM Pruning and Distillation in Practice: The Minitron Approach》 时间:2024年7月 & 2024年8月 机构:NVIDIA 这两篇实际上是一个内容,后一篇是前一篇的整合和完整版,增加了基于Llama-3.1和Mistral的实验。《Compact》更像是比较混杂的实验报告。 英伟达提出的方法简单来说就是通过对已有的大模型进行裁剪,并对裁剪后的小模型使用蒸馏训练进行效果恢复(效果恢复的训练称之为retrian)。这么做可以以 < 3%的retrain训练量,获得比从零训练的小模型更好的效果。 Nemotron-4 15B裁 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览