今天看啥  ›  专栏  ›  集智书童

中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架,解决切片的高分辨率LVLM引起的输入碎片化问题 !

集智书童  · 公众号  ·  · 2024-07-21 09:00

文章预览

备注好友: 方向-学校/公司-姓名/昵称 【AIGC 先锋科技】交流群 高分辨率输入使大型视觉-语言模型(LVLMs)能够辨别更精细的视觉细节,增强了它们的理解能力。 为了减少由高分辨率输入引起的训练和计算成本,一个有前景的方向是使用滑动窗口将输入切成均匀的块,每个块与训练有素的视觉编码器的输入大小相匹配。尽管这种切分策略高效,但它导致了原始输入的碎片化,即,在块之间的上下文信息和空间几何的连续性丢失,这不利于跨块上下文感知和位置特定任务的表现。 为了克服这些缺点,作者引入了 HiRes-LLaVA ,这是一个新颖的框架,旨在高效处理任何大小的高分辨率输入,而不改变原始的上下文和几何信息。 HiRes-LLaVA包括两个创新组件: (i)一个SliceRestore Adapter ,它将切分的块恢复到它们原始的形式,通过下采样-上采样和卷积层高效提 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览