上下文长度1000万不是梦！加州伯克利推KVQuant量化技术，LLM内存占用砍到骨折

AI寒武纪 · 公众号 · · 2024-08-20 06:01

文章预览

加州伯克利大学的 AI 大佬们又搞事情了！这次他们祭出了一个名为 KVQuant 的大杀器，专治LLM内存焦虑症！😎 paper：https://arxiv.org/pdf/2401.18079 分析表明，对于较小的批处理规模，LLM推理过程的主要瓶颈在于内存带宽。随着计算速度和内存速度之间的差距不断扩大，这个问题只会越来越严重。而对于长序列长度，内存瓶颈主要来自于缓存键（Key）和值（Value）激活的内存需求。为了实现高效的长序列长度推理，压缩键值缓存至关重要为了让LLM能处理更长、更复杂的任务，比如长篇小说总结、代码分析什么的，上下文窗口长度必须得加大！可是，内存不够怎么办？😰 别慌！加州伯克利出品，必属精品！KVQuant 就是一种专门针对LLM键值缓存（Key-Value Cache）的量化方法。它采用了几个超级厉害的技术，把内存占用量直接砍到骨折，同时还能保证模型精度几 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

南方人物周刊 · 茅奖得主刘亮程：许多语文老师经常会把文学讲死！

昨天

人物 · 《好东西》，新关系的诞生

4 天前

每日人物 · 卖掉百万房产，中年人决心租房生活

5 天前

人物 · 综艺《再见爱人》的热播，让「NPD」这个心理学概念在网络上成为了一门「显学」。NPD的全称是「自恋型人格障碍」，常表现为人格层面过分的自恋自大，以及对其他人主体性的漠视，常见的说法是，「NPD」无法建立健康平等的关系，完全以自我为中心，依靠持续地打压和控制他人来获取能量。在心理学领域，NPD有明确的诊断标准，但经过了大众流行，在社会生活领域，它已经变成了一种被广泛讨论的情感话题，为很多人提供了一个新的视角，重新开始界定和反思自己的各种亲密关系——也许你也曾挣扎在这样的关系里，无论是在原生家庭、亲密关系，还

5 天前

光伏资讯 · 9月14日光伏企业市值排行榜！

2 月前