专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

THU鲁继文&NTU刘子纬团队联手发布 Oryx MLLM:实时应对任意分辨率的时空理解

FightingCV  · 公众号  ·  · 2024-09-26 09:00
    

文章预览

视觉数据以各种形式出现,从只有几个像素的小图标到跨越数小时的长视频。 现有的多模态 LLM 通常将这些不同的视觉输入标准化为视觉编码器的固定分辨率,并为 LLM 生成相似的标记数量。 这种方法对于多模态理解而言并非最佳,并且对于处理具有长短视觉内容的输入而言效率低下。 为了解决这个问题,我们提出了 Oryx,一个用于图像、视频和多视图 3D 场景的时空理解的统一多模态架构。 Oryx 提供了一种按需解决方案,通过两个核心创新来无缝且高效地处理具有任意空间大小和时间长度的视觉输入:1) 一个预训练的 OryxViT 模型,可以将任意分辨率的图像编码为 LLM 友好的视觉表示;2) 一个动态压缩模块,支持按需对视觉标记进行 1 倍至 16 倍的压缩。 这些设计特性使 Oryx 能够适应极长的视觉上下文,例如视频,使用较低的分辨率和高压缩,同 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览