第一个100%开源的MoE大模型，7B的参数，1B的推理成本

机器学习研究组订阅 · 公众号 · AI · 2024-09-05 20:51

文章预览

训练代码、中间 checkpoint、训练日志和训练数据都已经开源。尽管大语言模型 (LM) 在各种任务上取得了重大进展，但在训练和推理方面，性能和成本之间仍然需要权衡。对于许多学者和开发人员来说，高性能的 LM 是无法访问的，因为它们的构建和部署成本过高。改善成本 - 性能的一种方法是使用稀疏激活混合专家 (MoE)。MoE 在每一层都有几个专家，每次只激活其中的一个子集（参见图 2）。这使得 MoE 比具有相似参数量的密集模型更有效，因为密集模型为每个输入激活所有参数。出于这个原因，行业前沿模型包括 Gemini-1.5、 GPT-4 等在内的模型都使用了 MoE。然而，大多数 MoE 模型都是闭源的，虽然有些模型公开发布了模型权重，但有关训练数据、代码等的信息却很有限，甚至有些研究没有提供这些信息。由于缺乏开放资源和对研究细节的深入探索， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

量子位 · 谷歌版o1突发即屠榜！思考速度比所有模型快5倍，能解摩斯代码，数学物理秒秒钟解决

昨天

宝玉xp · Gemini 也有推理模型了，在 ai studio 可以试用。-20241220011017

昨天

阿枫科技 · 免费还这么好用，是不打算给同行留活路了？

2 天前

阿枫科技 · 免费还这么好用，是不打算给同行留活路了？

2 天前

新智元 · Pika 2.0横扫Sora惊艳全网，一键颠覆广告业！上传自拍秒变好莱坞大片，和明星同框不是梦

3 天前

宝玉xp · 阿里巴巴通义实验室开发的新一代语音合成系统CosyVoice 2-20241218015945

3 天前

bioSeedin柏思荟 · 直播预告 | 不惧变更与比较，生物药质稳如一

5 月前

柠檬游戏说 · 近期微信小游戏畅销榜新品盘点

4 月前

电动中国 · 钠电换电模式逐渐打通！盘古新能源在江苏省首次投运这一智慧换电仓！

4 月前

四川大学本科招生 · 川大来了 | 四川大学走进安徽省重点中学

2 周前

四川大学本科招生 · 川大来了 | 四川大学走进安徽省重点中学

2 周前