讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

OpenMoE:开放混合专家语言模型

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-06-19 00:02
    

文章预览

24年3月来自新加坡国立大学、英国爱丁堡大学和瑞士ETH的论文“OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models”。 为了帮助开源社区更好地理解基于混合专家 (MoE) 的大语言模型 (LLM),Open-MoE构建一系列完全开源且可重现的仅解码器 MoE LLM,参数范围从 650M 到 34B,训练的tokens多达 1T 以上。基于 MoE 的 LLM 可以提供比密集 LLM 更有利的成本效益权衡,凸显了未来 LLM 开发的潜在有效性。 另外,深入分析OpenMoE 模型中的路由机制,三点发现:上下文无关的专业化、早期路由学习和面向结束的丢弃。MoE 模型中上下文相关性最小的路由决策主要基于 token ID。Token到专家的分配在预训练阶段的早期就已确定,并且基本保持不变。这种不完善的路由可能会导致性能下降,尤其是在多轮对话等连续任务中,其中序列中较晚出现的tokens更有可能被丢弃。 开源下载 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览