专栏名称: AIGC Research

AIGC Research｜AI for Creativity Plan (AI4C Plan)｜from ShanghaiTech University｜致力于探索AIGC赋能创意智能｜保持卓越学术品位和极致艺术追求

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

180-B1｜CogVLM2图像视频理解，视频语言模型用于视频流；脉冲扩散模；神经谱分解用于数据集蒸馏，扩散数据增强用于视觉识别

AIGC Research · 公众号 · · 2024-08-30 21:30

文章预览

AIGC Research 主编｜庄才林（Cailin Zhuang）技术支持｜胡耀淇（Yaoqi Hu） Topic: Multi-modal｜CogVLM2, Video-Language Streaming CogVLM2: Visual Language Models for Image and Video Understanding 2024-08-29｜Zhipu AI, THU ｜ 🟡 http://arxiv.org/abs/2408.16500v1 https://github.com/THUDM/CogVLM2 概述本文提出了CogVLM2系列视觉语言模型（VLMs），旨在深入探索图像和视频理解，通过提升视觉语言融合、构建高效的高分辨率架构，并扩展应用领域。CogVLM2模型在图像理解方面，继承了视觉专家架构，并在预训练和后训练阶段引入了改进的训练方法，支持高达1344×1344像素的输入分辨率。CogVLM2-Video则通过多帧输入和时间戳集成，创新性地提出了自动 temporal grounding 数据构建方法。CogVLM2系列在多个基准测试中取得了领先的成绩，包括MMBench、MM-Vet和TextVQA等。所有模型均已开放源代码，欢迎研究者和开发者使用与 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

秋叶PPT · 为什么我劝你别做副业？不懂这4个原则，越拼命，越贫穷

昨天

乌素 · 年底可能是最适合学播客的时间了！

2 天前

曹将 · 五个职场加分好习惯，你用了几个

3 天前

秋叶PPT · 效率爆涨！分享20个AI办公神器，真后悔我没早点用上

5 天前

旁门左道PPT · 30页PPT怎么能风格统一还高级？这3个技巧吹爆！

6 天前

人力资源和社会保障部 · 宁夏：全面推行高效办成灵活就业“一件事”

3 月前

人民网 · 坐飞机也能开电子发票了？报销攻略→

1 周前