专栏名称: AIGC Research

AIGC Research｜AI for Creativity Plan (AI4C Plan)｜from ShanghaiTech University｜致力于探索AIGC赋能创意智能｜保持卓越学术品位和极致艺术追求

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

172-B1｜VLM用于长视频分析，CLIP社会偏见问题；扩散引导逆渲染用于物体插入，文档表格图像生成；说话头生成系列｜Tue

AIGC Research · 公众号 · · 2024-08-20 23:59

文章预览

AIGC Research 主编｜庄才林（Cailin Zhuang）技术支持｜胡耀淇（Yaoqi Hu） Topic: Multi-modal｜VLM｜Long Videos LongVILA: Scaling Long-Context Visual Language Models for Long Videos 2024-08-19｜NVIDIA, MIT, UC Berkeley, UT Austin ｜⭐️ http://arxiv.org/abs/2408.10188v1 https://github.com/NVlabs/VILA/blob/main/LongVILA.md 概述随着多模态基础模型研究的推进，处理长上下文的重要性愈加突出。为了解决在长视频分析中面临的挑战，本文提出了LongVILA，一个完整的长上下文视觉-语言模型解决方案。其核心组成包括系统架构、模型训练和数据集开发。在系统方面，LongVILA引入了首次应用的多模态序列并行性(MM-SP)系统，这一系统可支持256个GPU上进行2M上下文长度的训练和推理。相较于现有的环式序列并行性，MM-SP运行效率显著提升，速度提高了2.1倍到5.7倍，同时能够无缝整合进HuggingFace Transformers中。此外， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博