今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

混合专家: Moe已成为现阶段LLM的新标准

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-07-16 00:36

文章预览

在当前快节奏的人工智能世界中,事物来来去去,一切变化都如此之快。 大模型一直在不断的更新,也一直在不断地改进,要找到大模型演进的方向,就要找那些无处不在的改变。而混合专家(MoE)就是其中之一。 MoE 已经变得如此普遍,以至于现在很难找到一个不是 MoE 的新的大型语言模型 (LLM)。GPT -4、Gemini 1.5、Mixtral 8x7B或Jamba都是 MoE模型。 那么混合模型(MoE)底层原理是什么呢?为什么它现在如此重要?以及Moe模型是如何演进和学习的呢? 1. 知识的稀疏性 简单来说,MoE,即 Mixture of Experts,是一种人工智能训练技术。 它实质上将神经网络的某些部分(通常是LLM)“分解”为不同的部分,我们将这些被分解的部分称为“专家”。 这种技术出现的原因有三个主要方面: 神经网络的稀疏性:  在特定层中,神经网络可能会变得非常稀疏,即某些神 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览