专栏名称: AIGC开放社区
专注AIGC(生成式人工智能)领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展应用和落地,以及国内LLM的发展和市场研究,社区秉承共建、共享、开放的理念,提供对社区会员有价值的商业化思路和服务。
今天看啥  ›  专栏  ›  AIGC开放社区

TII开源第一个纯Mamba架构大模型,超过Llam3.1

AIGC开放社区  · 公众号  ·  · 2024-08-13 08:04

文章预览

专注AIGC领域的专业社区,关注微软 、百度文心一言、讯飞星火等大语言模型(LLM)的发展和 应用 落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注! 阿联酋技术创新研究(简称“TII”)开源了全球第一个纯Mamba架构的大模型——Falcon Mamba 7B。 根据评测数据显示,Falcon Mamba 7B的性能已经超过了Meta最新开源的Llama 3.1-8B、Mistral-7B等知名开源模型。 开源地址:https://huggingface.co/tiiuae/falcon-mamba-7b 在处理序列时,传统的Transformer模型在生成下一个令牌时需要关注上下文中所有先前的令牌的键和值,这导致内存需求和生成时间随着上下文长度的增加而线性增长。 而像Falcon Mamba这样的状态空间语言模型,只关注和存储其循环状态,因此在生成大序列时不需要额外的内存或时间在处理长序列方面拥有很强的技术优势。 Mamba模型采用了编码器-解码器结构,编 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览