专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

论文精读-Qwen-VL

关于NLP那些你不知道的事 · 公众号 · · 2025-02-21 08:00

文章预览

论文精读-Qwen-VL 作者：jewellery 原文地址：https://zhuanlan.zhihu.com/p/21189526123 背景 Qwen2-VL重新定义了视觉处理中传统预定义分辨率的方法，引入朴素动态分辨率机制，使得模型将不同分辨率的图像动态处理为不同数量的视觉tokens.这种方法让模型更高效、更准确的生成视觉表征，与人类感知过程对齐。该模型还集成多模态旋转位置嵌入（M-RoPE），促进有效跨文本、图像和视频的位置信息融合，采用统一的处理图像和视频的范式，提升模型视觉感知能力，为探索多模态大模型的潜力，Qwen2-vl探索了LVLM的Scalling Law. 通过缩放模型大小为2B, 8B, 72B参数-训练数据量。Qwen2-VL-72B在多模态基准中已经可以媲美GPT-4o和Claude3.5-Sonnect，超过其他通用模型。动机当前的LVLMs通常遵循通用的visual encoder->cross-modal conector->LLM. 训练方法主要结合高质量数据以及next-token prediction方法 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博