专栏名称: AIGC Research
AIGC Research|AI for Creativity Plan (AI4C Plan)|from ShanghaiTech University|致力于探索AIGC赋能创意智能|保持卓越学术品位和极致艺术追求
今天看啥  ›  专栏  ›  AIGC Research

180-B1|CogVLM2图像视频理解,视频语言模型用于视频流;脉冲扩散模;神经谱分解用于数据集蒸馏,扩散数据增强用于视觉识别

AIGC Research  · 公众号  ·  · 2024-08-30 21:30

文章预览

AIGC   Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Multi-modal|CogVLM2, Video-Language Streaming CogVLM2: Visual Language Models for Image and Video Understanding 2024-08-29|Zhipu AI, THU | 🟡 http://arxiv.org/abs/2408.16500v1 https://github.com/THUDM/CogVLM2 概述 本文提出了CogVLM2系列视觉语言模型(VLMs),旨在深入探索图像和视频理解,通过提升视觉语言融合、构建高效的高分辨率架构,并扩展应用领域。CogVLM2模型在图像理解方面,继承了视觉专家架构,并在预训练和后训练阶段引入了改进的训练方法,支持高达1344×1344像素的输入分辨率。CogVLM2-Video则通过多帧输入和时间戳集成,创新性地提出了自动 temporal grounding 数据构建方法。CogVLM2系列在多个基准测试中取得了领先的成绩,包括MMBench、MM-Vet和TextVQA等。所有模型均已开放源代码,欢迎研究者和开发者使用与 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览