小技巧大功效，「仅阅读两次提示」让循环语言模型超越Transformer++

机器之心 · 公众号 · AI · 2024-08-04 12:11

文章预览

机器之心报道编辑：杜伟在当前 AI 领域，大语言模型采用的主流架构是 Transformer。不过，随着 RWKV、Mamba 等架构的陆续问世，出现了一个很明显的趋势：在语言建模困惑度方面与 Transformer 较量的循环大语言模型正在快速进入人们的视线。令人兴奋的是，这些架构在推理期间使用了恒定量的内存。不过，受制于有限的内存，循环语言模型（LM）无法记忆并使用长上下文中的所有信息，这导致了上下文学习（in-context learning，ICL）质量的不佳。因此，获得高效大语言模型的关键挑战在于选择存储或者丢弃哪些信息。在最近的论文《Just read twice: closing the recall gap for recurrent language models》中，来自斯坦福大学、布法罗大学的研究者通过简单观察发现，数据在推理期间涌入循环语言模型的排序极大地影响了在有限内存中预测存储哪些信息的难度。我们假设 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 本文提出了一种利用预训练语言模型作为贝叶斯先验，并结合局部协方差-20241116061707

23 小时前

爱可可-爱生活 · 【神经代码智能研究综述资源列表，集合了神经代码智能领域最新研究、-20241113175442

3 天前

爱可可-爱生活 · 【Solar：一款用Rust编写的超快速、模块化且易于贡献的So-20241113175652

3 天前

新智元 · 奥特曼专访自曝OpenAI掌握AGI密钥，2025年降临！1人1万块GPU缔造十亿独角兽

6 天前

机器之心 · 教授何恺明在MIT的第二门课——《深度生成模型》，讲座PPT陆续已出

6 天前

宝玉xp · 你们真有耐心，5个小时也听得完-20241112120105

4 天前