文章预览
迟到的技术报告,太长不看版如下: 1.模型有340B的超大参数,包括基座,chat模型,reward模型,全部参数开源。 2.对齐过程使用了超过了98%的合成数据。 3.rope,GQA,不要dropout( dropout有 训练和预测不一致的方差bias ) 4.分阶段预训练,先8T token大火猛炖,再1T小火慢熬,配上学习率衰减。 5.分阶段SFT,先代码SFT,再通用领域SFT 6.分阶段dpo,先dpo再3轮rpo 7.弱到强迭代对齐的工作流程,不停地用合成数据来训练对齐,然后用训练的更好的对齐后的模型,来合成数据。 看来英伟达的哥们,很喜欢中式料理,训练过程中分工序比较多。 简介 Nemotron-4 340B 模型于6月17日发布,包括 Nemotron-4-340B-Base、Nemotron-4-340B-Instruct(指令微调版) 和 Nemotron-4-340B-Reward(奖励模型版)。这些模型基于 NVIDIA 开放模型许可协议进行开放访问,该许可协议允许分发、修改和使
………………………………