专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

Jiaya Jia团队提出LLaMA-VID :一张图片在大型语言模型中值两个token

FightingCV  · 公众号  ·  · 2024-10-04 09:00
    

文章预览

摘要 在这项工作中,我们提出了一种新方法来解决视觉语言模型 (VLM) 在视频和图像理解中符元生成方面的挑战,称为 LLaMA-VID。  现有的 VLM 虽然在图像字幕和视觉问答等任务方面表现出色,但在处理长视频时,由于过多的视觉符元,会面临计算负担。  LLaMA-VID 通过用两个不同的符元来表示每一帧来解决这个问题,即上下文符元和内容符元。  上下文符元根据用户输入对整体图像上下文进行编码,而内容符元封装了每一帧中的视觉线索。  这种双符元策略显著减少了长视频的过载,同时保留了关键信息。  通常,LLaMA-VID 使现有框架能够支持长达数小时的视频,并通过一个额外的上下文符元将上限提高。  事实证明,它在大多数基于视频或图像的基准测试中超越了以前的方法。  代码可在 https://github.com/dvlab-research/LLaMA-VID 获取。 1 引言 大型语言模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览