文章预览
打造一个有温度、有趣味、专业的全栈式AI 交流社区, 用心写好每一篇文章! “ 当前,大语言模型的主流底层架构仍然是Transformer,然而,除了它之外,很多学者认为它并非最优的架构,尤其是在解决长上下文任务时。 因此,相继诞生了很多的底层新架构,具有代表性的架构包括:Mamba、Jamba、RWKV等等。 本文介绍了基于Jamba架构的Jamba-1.5,这是一种新的指令调优大语言模型。Jamba是Transformer-Mamba混合专家架构,在上下文长度上提供高吞吐量和低内存使用率,同时保持与Transformer模型相同或更好的质量。 作者同时发布了两种型号: Jamba-1.5-Large ,具有94B活动参数, Jamba-1.5-Mini ,具有12B活动参数。这两种模型都针对各种会话和指令遵循能力进行了微调,有效上下文长度为256K个令牌,是开放权重模型中最大的。 ” 项目主页 - https://www.ai21.com/jamba HF链
………………………………