文章预览
西风 发自 凹非寺 量子位 | 公众号 QbitAI “欧洲OpenAI”和“Transformer挑战者”强强联合了! Mistral AI刚刚推出了其第一个基于 Mamba2 架构的开源模型—— Codestral Mamba (7B),专搞代码生成。 与Transformer架构不同,Mamba架构可进行“线性时间推理”,理论上能够支持无限长度输入。 Mistral AI:这也就是为啥我们用Mamba架构推出的代码推理模型抗打。 Mistral AI表示已经在最多 256k token上下文 中测试了Codestral Mamba。 基准测试中,Codestral Mamba总体性能超越CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B、 CodeLlama 34B 。 有网友表示,这一波是Mistral AI要带飞Mamba架构的节奏。 Mamba架构作者之一、CMU助理教授 Albert Gu 表示: 具有较弱“tokenizations”的不同模态或数据格式 (例如代码、byte级建模) 会越来越多地从压缩模型 (如SSM) 中受益。 除了Codestral Mamba,Mistral AI这次还同
………………………………