这里是AI领域学习交流的平台!分享人工智能、机器学习、深度学习、计算机视觉、自然语言处理、算法原理、科技前沿、行业动态等,为您提供最有价值的知识和资讯。
今天看啥  ›  专栏  ›  人工智能与算法学习

Mamba再次挑战霸主Transformer!首个通用Mamba开源大模型一鸣惊人

人工智能与算法学习  · 公众号  ·  · 2024-08-13 21:16

文章预览

来源: 新智元 【导读】 TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。 今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。 虽然之前Mistral已经发过Mamba架构的Codestral Mamba模型,但仅针对编码;Falcon Mamba则是通用模型,能够处理各种文本生成任务。 它是继Falcon 180B、Falcon 40B和Falcon 2之后TII的第四个开放模型,与Falcon系列之前的型号不同,Falcon Mamba 7B完全采用SSLM架构而不是传统的Transformer架构。 Mamba架构 横空出世后,体现出了内存效率方面的显著优势,无需额外的内存需求即可生成大量文本。 如今,SSLM正在逐渐蚕食Transformer架构原本「大一统」的地位。 测评数据显示,Falcon Mamba 7B性能已经超越同尺寸级 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览