专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
目录
相关文章推荐
实验万事屋  ·  要不是Redox ... ·  昨天  
研之成理  ·  Joule: ... ·  2 天前  
今天看啥  ›  专栏  ›  PaperWeekly

LLaVA-HD全新升级,更快更强!已开源

PaperWeekly  · 公众号  · 科研  · 2024-06-29 23:37
    

文章预览

论文标题: Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models 论文链接: https://arxiv.org/abs/2406.08487 代码链接: https://github.com/yfzhang114/SliME 高分辨率的视觉输入近期被证明是大型多模态模型(LMMs)的基础,这对视觉感知和推理至关重要。现有的研究通常采用一种很直接的分辨率提升方法,其中图像由全局和局部分支组成,后者是被切片的图像块,但被调整为与前者相同的分辨率。这意味着 更高的分辨率需要更多的局部块 ,从而导致高昂的计算开销,同时, 局部图像标记的主导地位可能削弱全局上下文 。 来自中科院,松鼠 Ai,阿里以及 Meta 的研究人员提出了一种新的处理策略 SliME, SliME 的核心在于,对 global 和 local patches 采取不同的处理策略,强调 global 特征的主导地位并尽可能挖掘全局上下文,压缩 local 特征以保证计算效率。除了方法之外, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览