英伟达超大号340B大模型技术报告

包包算法笔记 · 公众号 · · 2024-06-21 10:00

文章预览

迟到的技术报告，太长不看版如下： 1.模型有340B的超大参数，包括基座，chat模型，reward模型，全部参数开源。 2.对齐过程使用了超过了98%的合成数据。 3.rope，GQA，不要dropout（ dropout有训练和预测不一致的方差bias ） 4.分阶段预训练，先8T token大火猛炖，再1T小火慢熬，配上学习率衰减。 5.分阶段SFT，先代码SFT，再通用领域SFT 6.分阶段dpo，先dpo再3轮rpo 7.弱到强迭代对齐的工作流程，不停地用合成数据来训练对齐，然后用训练的更好的对齐后的模型，来合成数据。看来英伟达的哥们，很喜欢中式料理，训练过程中分工序比较多。简介 Nemotron-4 340B 模型于6月17日发布，包括 Nemotron-4-340B-Base、Nemotron-4-340B-Instruct（指令微调版）和 Nemotron-4-340B-Reward（奖励模型版）。这些模型基于 NVIDIA 开放模型许可协议进行开放访问，该许可协议允许分发、修改和使 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博