专栏名称: 计算机视觉研究院

主要由来自于大学的研究生组成的团队，本平台从事机器学习与深度学习领域，主要在人脸检测与识别，多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌，让更多相关领域的人了解本团队，结识更多相关领域的朋友，一起来学习，共同进步！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

支持1024帧、准确率近100％，英伟达「LongVILA」开始发力长视频

计算机视觉研究院 · 公众号 · · 2024-08-29 11:28

文章预览

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID ｜计算机视觉研究院学习群｜扫码在主页获取加入方式论文地址：https://arxiv.org/pdf/2408.10188 代码地址：https://github.com/NVlabs/VILA/blob/main/LongVILA.md 论文标题：LONGVILA: SCALING LONG-CONTEXT VISUAL LANGUAGE MODELS FOR LONG VIDEOS 计算机视觉研究院专栏 Column of Computer Vision Institute 现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。与 HuggingFace 的原生 pipeline 并行策略相比，本文的推理模式更加高效，原因在于所有设备同时参与计算，从而与机器数量呈正比地加速进程，具体如下图 6 所示。同时，该推理模式是可扩展的，内存均匀地分布给各个设备，以使用更多机器来支持更长的序列。该研究通过逐步将序列长度从 1k 增加到 10k 来评 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博