专栏名称: 包包算法笔记
数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。
今天看啥  ›  专栏  ›  包包算法笔记

英伟达超大号340B大模型技术报告

包包算法笔记  · 公众号  ·  · 2024-06-21 10:00

文章预览

迟到的技术报告,太长不看版如下: 1.模型有340B的超大参数,包括基座,chat模型,reward模型,全部参数开源。 2.对齐过程使用了超过了98%的合成数据。  3.rope,GQA,不要dropout( dropout有 训练和预测不一致的方差bias )  4.分阶段预训练,先8T token大火猛炖,再1T小火慢熬,配上学习率衰减。 5.分阶段SFT,先代码SFT,再通用领域SFT  6.分阶段dpo,先dpo再3轮rpo  7.弱到强迭代对齐的工作流程,不停地用合成数据来训练对齐,然后用训练的更好的对齐后的模型,来合成数据。 看来英伟达的哥们,很喜欢中式料理,训练过程中分工序比较多。 简介 Nemotron-4 340B 模型于6月17日发布,包括 Nemotron-4-340B-Base、Nemotron-4-340B-Instruct(指令微调版) 和 Nemotron-4-340B-Reward(奖励模型版)。这些模型基于 NVIDIA 开放模型许可协议进行开放访问,该许可协议允许分发、修改和使 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览