文章预览
主题 RNN卷土重来:基于门控记忆槽的线性注意力机制 时间 2024.7.28 10:30-11:30 周日 入群 内容 1. 背景 - 基于标准注意力机制的大语言模型 - 线性化方法 2. 门控记忆槽注意力机制 - KV memory视角下的attention及其线性化 - 数据依赖的门控机制 - 并行化方法 - 参数化 3. 实验 - 基准评测结果 - GSA的Recall能力和隐状态容量分析 - 继续训练的优势 4. FLA 5. 总结与展望 6. QA 引言 当前的大语言模型(LLM)在使用标准注意力机制时,面临着训练复杂度呈二次增长以及推理阶段管理键值(KV)缓存内存密集型的挑战。线性注意力作为一种有前景的替代方案,通过固定容量的隐藏状态取代了无界限的KV存储,从而缓解了这一问题。 然而,现有的线性注意力实现往往在性能上不及类似Llama架构(如Transformer++)的效率。 本次talk介绍了
………………………………