中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架，解决切片的高分辨率LVLM引起的输入碎片化问题！

集智书童 · 公众号 · · 2024-07-21 09:00

文章预览

备注好友：方向-学校/公司-姓名/昵称【AIGC 先锋科技】交流群高分辨率输入使大型视觉-语言模型（LVLMs）能够辨别更精细的视觉细节，增强了它们的理解能力。为了减少由高分辨率输入引起的训练和计算成本，一个有前景的方向是使用滑动窗口将输入切成均匀的块，每个块与训练有素的视觉编码器的输入大小相匹配。尽管这种切分策略高效，但它导致了原始输入的碎片化，即，在块之间的上下文信息和空间几何的连续性丢失，这不利于跨块上下文感知和位置特定任务的表现。为了克服这些缺点，作者引入了 HiRes-LLaVA ，这是一个新颖的框架，旨在高效处理任何大小的高分辨率输入，而不改变原始的上下文和几何信息。 HiRes-LLaVA包括两个创新组件： (i)一个SliceRestore Adapter ，它将切分的块恢复到它们原始的形式，通过下采样-上采样和卷积层高效提 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

小学数学 · 小学1—6年级必须掌握的速算法，超实用！

23 小时前

小学数学 · 备战期末 | 六年级上册数学期末试卷【8套】（含答案）

昨天

小学数学 · 孩子出生时的体重，决定了智商高低？医生：最佳标准在这里

昨天

小学数学 · 思维训练：1-6年级思维训练每日一题-753期

2 天前

伊嘉儿数学 · 小学四年级数学期终试题

3 天前

医麦客 · 超80项临床，CAR-NK CMC如何赢在“起跑线”？

5 月前

能建国际集团 · 宋海良、倪真与中信集团董事长奚国华会谈并见证签署战略合作协议

3 月前

中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架，解决切片的高分辨率LVLM引起的输入碎片化问题 ！

文章预览

中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架，解决切片的高分辨率LVLM引起的输入碎片化问题！