专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

大模型算法题(9)

AINLP  · 公众号  ·  · 2024-08-07 21:39
    

文章预览

本系列将持续整理一些LLM中关键的、细节的、值得关注的内容,持续更新~ 如有错漏,欢迎指正~ 1.大模型训练过程中有什么可以缓解显存不足的办法? (1)模型结构:使用LoRA、adaptor等训练 (2)注意力计算底层优化:flash attention、paged attention、ring attention等 (3)训练框架:使用混合精度训练,使用ZeRO、recomputation、cpu-offload等 (4)训练策略:梯度累积 2.为什么MoE模型的训练相比dense模型,更容易受到精度不足的影响? 模型训练中经常使用的float32/float16/bfloat16等,都存在舍入误差,并且表达的数值越大,舍入误差越大。而MoE模型中,gating function大量使用了exponential计算,而exponential会把输入数据中的误差放大很多倍,从而使得输出结果大大偏离。因此有些工作会限制在gating function使用更高精度的表达,并通过一些前置手段压缩数值的大小,从而缓 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览