专栏名称: AI产品汇
本公众号的主体内容包含以下4个部分: 1)AI算法说-帮你梳理各种各样的AI算法; 2)模型部署说-帮你剖析各种各种的模型部署与优化工具; 3)AI产品说-帮你剖析市面上形形色色的AI产品; 4)AI热点说-帮我推荐热门的AI话题。
今天看啥  ›  专栏  ›  AI产品汇

剑指Llama3.1 | “Jamba1.5新架构”来袭,超高能效、支持256k上下文和“高精度量化”方案!

AI产品汇  · 公众号  ·  · 2024-08-27 07:20

文章预览

打造一个有温度、有趣味、专业的全栈式AI 交流社区, 用心写好每一篇文章! “   当前,大语言模型的主流底层架构仍然是Transformer,然而,除了它之外,很多学者认为它并非最优的架构,尤其是在解决长上下文任务时。 因此,相继诞生了很多的底层新架构,具有代表性的架构包括:Mamba、Jamba、RWKV等等。 本文介绍了基于Jamba架构的Jamba-1.5,这是一种新的指令调优大语言模型。Jamba是Transformer-Mamba混合专家架构,在上下文长度上提供高吞吐量和低内存使用率,同时保持与Transformer模型相同或更好的质量。 作者同时发布了两种型号: Jamba-1.5-Large ,具有94B活动参数, Jamba-1.5-Mini ,具有12B活动参数。这两种模型都针对各种会话和指令遵循能力进行了微调,有效上下文长度为256K个令牌,是开放权重模型中最大的。 ” 项目主页 - https://www.ai21.com/jamba HF链 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览