文章预览
AIGC Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Multi-modal|CogVLM2, Video-Language Streaming CogVLM2: Visual Language Models for Image and Video Understanding 2024-08-29|Zhipu AI, THU | 🟡 http://arxiv.org/abs/2408.16500v1 https://github.com/THUDM/CogVLM2 概述 本文提出了CogVLM2系列视觉语言模型(VLMs),旨在深入探索图像和视频理解,通过提升视觉语言融合、构建高效的高分辨率架构,并扩展应用领域。CogVLM2模型在图像理解方面,继承了视觉专家架构,并在预训练和后训练阶段引入了改进的训练方法,支持高达1344×1344像素的输入分辨率。CogVLM2-Video则通过多帧输入和时间戳集成,创新性地提出了自动 temporal grounding 数据构建方法。CogVLM2系列在多个基准测试中取得了领先的成绩,包括MMBench、MM-Vet和TextVQA等。所有模型均已开放源代码,欢迎研究者和开发者使用与
………………………………