专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
今天看啥  ›  专栏  ›  AI TIME 论道

Big Model Weekly | 第24期

AI TIME 论道  · 公众号  ·  · 2024-06-08 10:00
    

文章预览

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality 虽然Transformer一直是深度学习在语言建模中取得成功的主要架构,但诸如Mamba之类的状态空间模型(SSM)最近在小到中等规模上被证明可以匹敌或超越Transformer。本文表明,这些模型家族实际上关系密切,并开发了一套丰富的理论框架,将SSM与各种注意力机制的变体通过一种研究良好的结构化半分离矩阵类的各种分解联系起来。状态空间对偶(SSD)框架促进了新架构(Mamba-2)的设计,其核心层是对Mamba选择性SSM的改进,速度提高了2-8倍,同时在语言建模上继续与Transformer竞争。 文章链接: https://arxiv.org/pdf/2405.21060 02 Perplexed by Perplexity: Perplexity-Based Data Pruning With Small Reference Models 这项工作研究了小型语言模型是否能够 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览