整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)
今天看啥  ›  专栏  ›  关于NLP那些你不知道的事

论文精读-Qwen-VL

关于NLP那些你不知道的事  · 公众号  ·  · 2025-02-21 08:00
    

文章预览

论文精读-Qwen-VL 作者:jewellery 原文地址:https://zhuanlan.zhihu.com/p/21189526123 背景 Qwen2-VL重新定义了视觉处理中传统预定义分辨率的方法,引入朴素动态分辨率机制,使得模型将不同分辨率的图像动态处理为不同数量的视觉tokens.这种方法让模型更高效、更准确的生成视觉表征,与人类感知过程对齐。该模型还集成多模态旋转位置嵌入(M-RoPE),促进有效跨文本、图像和视频的位置信息融合,采用统一的处理图像和视频的范式,提升模型视觉感知能力,为探索多模态大模型的潜力,Qwen2-vl探索了LVLM的Scalling Law. 通过缩放模型大小为2B, 8B, 72B参数-训练数据量。Qwen2-VL-72B在多模态基准中已经可以媲美GPT-4o和Claude3.5-Sonnect,超过其他通用模型。 动机 当前的LVLMs通常遵循通用的visual encoder->cross-modal conector->LLM. 训练方法主要结合高质量数据以及next-token prediction方法 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览