专栏名称: AI进修生
AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯,提升技术效率。
今天看啥  ›  专栏  ›  AI进修生

全球首创4090推理!昆仑万维开源Skywork-MoE模型:2千亿参数架构、训练与评估(技术浅析)

AI进修生  · 公众号  ·  · 2024-06-06 17:57

文章预览

Aitrainee | 公众号:AI进修生 🌟Skywork-MoE :首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE大模型,也是首个支持用 单台 4090 服务器 推理的开源千亿 MoE大模型。 23年6月,美国知名骇客George Hotz在多次采访中透露,GPT-4由 8个220B 模型组成,总参数量为1.76万亿。 具体来说,GPT-4采用了Mixture of Experts (MoE)架构,每个专家模型都有2200亿个参数,共计8个这样的模型。 下面这张8头怪,看起来就像现在的GPT-4。 MoE 应用于大模型, GPT-4并不是第一个 。2024年 6月3日 ,昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE , 性能强劲, 同时推理成本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来, 是首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE大模型,也是首个支持用 单台 4090 服务器 推理的开源千亿 MoE大模型。 混合专家 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览