【他山之石】还是原装Transformer好！北大清华团队同时揭示Mamba等推理短板

人工智能前沿讲习 · 公众号 · · 2024-10-24 18:00

文章预览

“他山之石，可以攻玉”，站在巨人的肩膀才能看得更高，走得更远。在科研的道路上，更需借助东风才能更快前行。为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前，敬请关注！论文标题： Do Efficient Transformers Really Save Computation? 收录会议： ICML 2024 论文链接： https://arxiv.org/abs/2402.13934 论文标题： RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval 论文链接： https://arxiv.org/abs/2402.18510 基于 Transformer 的大语言模型在文本翻译、文本生成等许多领域展现了惊人的能力。主流的大语言模型通常采用自回归范式进行生成：由问题描述、相关提示组成的输入序列（prompt）会被首先编码。基于编码后的信息，大模型逐步生成后续的单词序列，以形成问题的答案。对于 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博