专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
今天看啥  ›  专栏  ›  黄建同学

DeepSeek-V3另一个厉害点:Mixture-of-Exp-20241228205016

黄建同学  · 微博  · AI  · 2024-12-28 20:50
    

文章预览

2024-12-28 20:50 本条微博链接 DeepSeek-V3另一个厉害点:Mixture-of-Experts (MoE)架构,一种将LLM分割成多个子网络(或称为“专家”)的方法,每个子网络专注于处理输入数据的一个子集,以共同完成特定任务。 (1)专家系统:MoE架构包含多个专家,每个专家都是一个独立的神经网络,能够处理特定的任务或数据类型。有多达256个专家,每个专家专注于处理特定任务。 (2)动态路由:不是所有的专家都会参与到每一次的计算中 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览