专栏名称: AIGC Research
AIGC Research|AI for Creativity Plan (AI4C Plan)|from ShanghaiTech University|致力于探索AIGC赋能创意智能|保持卓越学术品位和极致艺术追求
今天看啥  ›  专栏  ›  AIGC Research

172-B1|VLM用于长视频分析,CLIP社会偏见问题;扩散引导逆渲染用于物体插入,文档表格图像生成;说话头生成系列|Tue

AIGC Research  · 公众号  ·  · 2024-08-20 23:59

文章预览

AIGC   Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Multi-modal|VLM|Long Videos LongVILA: Scaling Long-Context Visual Language Models for Long Videos 2024-08-19|NVIDIA, MIT, UC Berkeley, UT Austin |⭐️ http://arxiv.org/abs/2408.10188v1 https://github.com/NVlabs/VILA/blob/main/LongVILA.md 概述 随着多模态基础模型研究的推进,处理长上下文的重要性愈加突出。为了解决在 长视频分析 中面临的挑战,本文提出了LongVILA, 一个完整的长上下文视觉-语言模型解决方案 。其核心组成 包括系统架构、模型训练和数据集开发 。在系统方面,LongVILA引入了首次应用的多模态序列并行性(MM-SP)系统,这一系统可支持256个GPU上进行2M上下文长度的训练和推理。相较于现有的环式序列并行性,MM-SP运行效率显著提升,速度提高了2.1倍到5.7倍,同时能够无缝整合进HuggingFace Transformers中。此外, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览