专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

大模型算法题(7)

AINLP  · 公众号  ·  · 2024-06-13 09:47
    

文章预览

本系列将持续整理一些LLM中关键的、细节的、值得关注的内容,持续更新~ 如有错漏,欢迎指正~ 1.MoE模型训练中,如果不对专家的路由进行适当干预,可能会遇到什么问题,有什么解决方法? MoE使用多个并行的expert,每次推理只选择其中的一小部分expert使用。 如果让模型完全自行学习,有可能出现routing collapse的问题,也就是模型倾向于总是选择那几个常用的专家。 而这些常用的专家由于使用得更多,训练得更好,又会提升被路由到的概率,导致大部分模型参数几乎没有被用上。 一般可以通过增加一个负载平衡的loss来缓解。负载平衡loss有不同的设计和计算方式,但是大致的思路都是迫使模型均匀地使用不同的专家,如果出现某些专家被选中的概率过高,就会进行惩罚。 2.Bert的预训练方式是MLM,通过[Mask] token对部分输入进行掩盖,要求模型预测 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览