专栏名称: AI产品汇

本公众号的主体内容包含以下4个部分： 1）AI算法说-帮你梳理各种各样的AI算法； 2）模型部署说-帮你剖析各种各种的模型部署与优化工具； 3）AI产品说-帮你剖析市面上形形色色的AI产品； 4）AI热点说-帮我推荐热门的AI话题。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

剑指Llama3.1 | “Jamba1.5新架构”来袭，超高能效、支持256k上下文和“高精度量化”方案!

AI产品汇 · 公众号 · · 2024-08-27 07:20

文章预览

打造一个有温度、有趣味、专业的全栈式AI 交流社区，用心写好每一篇文章！ “ 当前，大语言模型的主流底层架构仍然是Transformer，然而，除了它之外，很多学者认为它并非最优的架构，尤其是在解决长上下文任务时。因此，相继诞生了很多的底层新架构，具有代表性的架构包括：Mamba、Jamba、RWKV等等。本文介绍了基于Jamba架构的Jamba-1.5，这是一种新的指令调优大语言模型。Jamba是Transformer-Mamba混合专家架构，在上下文长度上提供高吞吐量和低内存使用率，同时保持与Transformer模型相同或更好的质量。作者同时发布了两种型号： Jamba-1.5-Large ，具有94B活动参数， Jamba-1.5-Mini ，具有12B活动参数。这两种模型都针对各种会话和指令遵循能力进行了微调，有效上下文长度为256K个令牌，是开放权重模型中最大的。 ” 项目主页 - https://www.ai21.com/jamba HF链 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博