大模型面经——大模型训练中超参数的设置与训练数据偏好

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-05-30 00:09

文章预览

技术总结专栏作者：vivida 本篇主要从训练设置（batch size及优化器设置）、训练数据选择两大角度分享大模型训练与微调经验。本篇开始填大模型面经——超细节大模型训练与微调实操经验总结（上）的坑，继续细节的讲讲大模型中训练和微调的经验。本篇主要从训练设置（batch size及优化器设置）、训练数据选择两大角度来具体谈谈经验，下面是一个问题的快捷目录。 1. 训练大模型时，batch size如何设置比较合理，可以讲讲自己的思考 2. 如果batch size设置过小或过大分别会怎样？ 3. 微调时优化器怎么设置好？ 4. 预训练和微调时选择的训练数据分别有什么偏好，有没有一些建议？ batch size如何设置比较合理我们知道，大模型训练或微调的过程中 batch size的设置本质上是取训练效率和模型的最终效果的平衡。目前一些研究结果表明数据并行程度的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 有个网站（lennysnewsletter.com）搞活动：$2-20250416133051

10 小时前

AI前线 · 可灵2.0成“最强视觉生成模型”？自称遥遥领先OpenAI、谷歌，技术创新细节大揭秘！

昨天

黄建同学 · Vercel （v0的公司）最近花了不少工夫在AI SDK上，值-20250414182811

2 天前

黄建同学 · //@开过头先生:比程序员自测靠谱😂，而且这是不同 AI 应该-20250414133557

2 天前

黄建同学 · MecAgent，机械工程师的cursorMecAgent定位成-20250413123232

3 天前

我爱学逻辑 · 8月摘星小能手挑战Day2打卡——判断推理刷题2

8 月前

帆书樊登讲书 · 全网首发！2024樊登开学季演讲: 好的父母，70分刚刚好

7 月前

有车以后 · 颜值与续航双在线！Model Y 美女车主亲测

4 月前

LEDinside · CES 2025最前瞻，哪些LED产品将亮相？

3 月前