专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

Inf-MLLM:单 GPU 上多模态大型语言模型的高效流式推理

FightingCV  · 公众号  ·  · 2024-11-24 09:00
    

文章预览

多模态大语言模型(MLLM)以其多模态综合能力而著称,广泛应用于许多现实世界的应用中,包括 GPT-4o、自动驾驶和机器人技术。   尽管其性能令人印象深刻,但多模式输入总是会产生长上下文。   长上下文下的推理需要缓存先前 Token 的大量 Key 和 Value 状态(KV 缓存),这会带来高延迟和过多的内存消耗。   因此,在边缘设备上部署 MLLM 的流式推理具有挑战性,这在很大程度上限制了 MLLM 在实际应用中的功能和使用。   In this paper, we introduce Inf-MLLM, an efficient  inf erence framework for MLLMs, which enable streaming inference of MLLM on a single GPU with  inf inite context.   Inf-MLLM 基于我们对 LLM 和 MLLM 中注意力模式(称为“注意力鞍”)的关键观察。   得益于新发现的注意力模式,Inf-MLLM 通过动态缓存最近的 token 和相关 token 来维护大小受限的 KV 缓存。   此外,Inf-MLLM ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览