第一个100%开源的MoE大模型，7B的参数，1B的推理成本

深度学习与NLP · 公众号 · · 2024-09-06 08:00

文章预览

来源 | 机器之心尽管大语言模型 (LM) 在各种任务上取得了重大进展，但在训练和推理方面，性能和成本之间仍然需要权衡。对于许多学者和开发人员来说，高性能的 LM 是无法访问的，因为它们的构建和部署成本过高。改善成本 - 性能的一种方法是使用稀疏激活混合专家 (MoE)。MoE 在每一层都有几个专家，每次只激活其中的一个子集（参见图 2）。这使得 MoE 比具有相似参数量的密集模型更有效，因为密集模型为每个输入激活所有参数。出于这个原因，行业前沿模型包括 Gemini-1.5、 GPT-4 等在内的模型都使用了 MoE。然而，大多数 MoE 模型都是闭源的，虽然有些模型公开发布了模型权重，但有关训练数据、代码等的信息却很有限，甚至有些研究没有提供这些信息。由于缺乏开放资源和对研究细节的深入探索，在 MoE 领域无法构建具有成本效益的开源模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博