全球首创4090推理！昆仑万维开源Skywork-MoE模型：2千亿参数架构、训练与评估（技术浅析）

AI进修生 · 公众号 · · 2024-06-06 17:57

文章预览

Aitrainee | 公众号：AI进修生 🌟Skywork-MoE ：首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE大模型，也是首个支持用单台 4090 服务器推理的开源千亿 MoE大模型。 23年6月，美国知名骇客George Hotz在多次采访中透露，GPT-4由 8个220B 模型组成，总参数量为1.76万亿。具体来说，GPT-4采用了Mixture of Experts (MoE)架构，每个专家模型都有2200亿个参数，共计8个这样的模型。下面这张8头怪，看起来就像现在的GPT-4。 MoE 应用于大模型， GPT-4并不是第一个。2024年 6月3日，昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE ，性能强劲，同时推理成本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来，是首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE大模型，也是首个支持用单台 4090 服务器推理的开源千亿 MoE大模型。混合专家 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

上海发布 · 全市157家儿童友好城市阅读新空间惊艳亮相！快来进入这些充满魔力的阅读空间吧→

18 小时前

上海发展改革 · 【虹桥之上】“外籍人员一站式综合服务中心”在虹桥机场T1航站楼等亮相

3 天前

上海发布 · 【提示】2024“上海设计100+”全球竞赛结果发布→

4 天前

雨果网 · Meta丨Facebook CBO数据飙升，这四个扩量策略你一定要看！

1 周前

上海发布 · 【交通】八月份上海交通运行月报（路网篇）出炉，快速路、高速公路流量连续两个月上升

1 周前

智药邦 · 清华大学生命科学学院张强锋教授：AI理解生命科学的海量数据，解析复杂调控网络

2 月前

程序员大咖 · 程序员转行外卖员都上儿童绘本了，还被小孩嘲笑？？？

1 月前

地图帝 · 《二十四节气深阅读》，确实有深度

2 周前