专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

原作者带队再次改造xLSTM,7B模型速度最快超Mamba 50%,权重代码全开源

机器之心  · 公众号  · AI  · 2025-03-19 17:02
    

文章预览

机器之心报道 编辑: 佳琳、杜伟 近年来,大型语言模型(LLM)通过大量计算资源在推理阶段取得了解决复杂问题的突破。推理速度已成为 LLM 架构的关键属性,市场对高效快速的 LLM 需求不断增长。 其中,采用 Transformer 架构的模型虽然占据了主流,但在输入序列长度增加时,计算量会呈二次方增长。因此,自上个世纪 90 年代兴起的 LSTM 卷土重来,它的提出者和奠基者 Sepp Hochreiter 在去年 5 月推出了 xLSTM ,将 LSTM 扩展到数十亿参数,成为 Transformer 的有力替代品,提供了与序列长度线性相关的计算扩展和稳定的内存占用。 然而,xLSTM 在扩展至更大参数规模时存在限制,推理速度和效率具体如何也没做系统测评。 近日,Sepp Hochreiter 等来自 NXAI、JKU 的研究者再次对 xLSTM 进行了优化,现在可以扩展到 70 亿参数了。 具体来讲,xLSTM 7B 模型基于 DCLM 数据 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览