讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

大模型面经——大模型训练中超参数的设置与训练数据偏好

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-05-30 00:09
    

文章预览

技术总结专栏 作者:vivida 本篇主要从训练设置(batch size及优化器设置)、训练数据选择两大角度分享大模型训练与微调经验。 本篇开始填 大模型面经——超细节大模型训练与微调实操经验总结(上) 的坑,继续细节的讲讲大模型中训练和微调的经验。 本篇主要从训练设置(batch size及优化器设置)、训练数据选择两大角度来具体谈谈经验,下面是一个问题的快捷目录。 1. 训练大模型时,batch size如何设置比较合理,可以讲讲自己的思考 2. 如果batch size设置过小或过大分别会怎样? 3. 微调时优化器怎么设置好? 4. 预训练和微调时选择的训练数据分别有什么偏好,有没有一些建议?  batch size如何设置比较合理 我们知道,大模型训练或微调的过程中 batch size的设置本质上是取训练效率和模型的最终效果的平衡。 目前一些研究结果表明数据并行程度的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览