一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

MemLong: 长文本的新记忆大师,可将上下文长度从4k提升到80k!

深度学习自然语言处理  · 公众号  ·  · 2024-09-04 21:45
    

文章预览

这篇文章介绍了一个名为 MemLong 的模型, 它通过使用外部检索器来增强长文本建模的能力 。MemLong结合了一个 不可微的检索-记忆模块 和一个部分 可训练的解码器-仅语言模型 ,并 引入了一种细粒度、可控的检索注意力 机制,利用语义级别的相关块。在多个长文本建模基准测试上的综合评估表明,MemLong在性能上一致 超越了其他最先进的大型语言模型 。更重要的是,MemLong能够 在单个3090 GPU上将上下文长度从4k扩展到80k 。 论文 :MemLong: Memory-Augmented Retrieval for Long Text Modeling 地址 :https://arxiv.org/pdf/2408.16967 研究背景 研究问题 :这篇文章要解决的问题是大型语言模型(LLMs)在处理长文本时面临的挑战,特别是由于注意力机制的二次时间和空间复杂度以及生成过程中关键值缓存的内存消耗不断增加。 研究难点 :该问题的研究难点包括:如何在不显著 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览