专栏名称: 计算机视觉研究院
主要由来自于大学的研究生组成的团队,本平台从事机器学习与深度学习领域,主要在人脸检测与识别,多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌,让更多相关领域的人了解本团队,结识更多相关领域的朋友,一起来学习,共同进步!
目录
相关文章推荐
今天看啥  ›  专栏  ›  计算机视觉研究院

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

计算机视觉研究院  · 公众号  ·  · 2024-08-29 11:28

文章预览

点击蓝字 关注我们 关注并星标 从此不迷路 计算机视觉研究院 公众号ID | 计算机视觉研究院 学习群 | 扫码在主页获取加入方式 论文地址:https://arxiv.org/pdf/2408.10188 代码地址:https://github.com/NVlabs/VILA/blob/main/LongVILA.md 论文标题:LONGVILA: SCALING LONG-CONTEXT VISUAL LANGUAGE MODELS FOR LONG VIDEOS 计算机视觉研究院专栏 Column of Computer Vision Institute 现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。 与 HuggingFace 的原生 pipeline 并行策略相比,本文的推理模式更加高效,原因在于所有设备同时参与计算,从而与机器数量呈正比地加速进程,具体如下图 6 所示。同时,该推理模式是可扩展的,内存均匀地分布给各个设备,以使用更多机器来支持更长的序列。 该研究通过逐步将序列长度从 1k 增加到 10k 来评 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览