文章预览
转自 | 新智元 【导读】 TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。 今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。 虽然之前 Mistral已经发过Mamba架构的Codestral Mamba模型 ,但仅针对编码;Falcon Mamba则是通用模型,能够处理各种文本生成任务。 它是继Falcon 180B、Falcon 40B和Falcon 2之后TII的第四个开放模型,与Falcon系列之前的型号不同,Falcon Mamba 7B完全采用SSLM架构而不是传统的Transformer架构。 Mamba架构 横空出世后,体现出了内存效率方面的显著优势,无需额外的内存需求即可生成大量文本。 如今,SSLM正在逐渐蚕食Transformer架构原本「大一统」的地位。 测评数据显示,Falcon Mamba 7B性能已经超越同尺寸级
………………………………