专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

代码角度，深度解析 Qwen2-VL 模型结构

AINLP · 公众号 · · 2024-09-12 14:35

文章预览

作者：emiya@知乎原文：https://zhuanlan.zhihu.com/p/717884243 快速开始，接下来我会简单说说 Qwen2-VL 整体结构当中的几个关键的细节。帮助大家快速理解Qwen2-VL结构和其他网络结构的不同。 1. MLLM 模型的几个关键组件每一个MLLM 模型都会包含如下的几个组成部分，不同的模型在不同的部分会有不同的实现的细节: 1. chat_template : • 用于将用户的输入转化为模型所需要输入的标准格式，例如 qwen 的 chatml 格式 2. image processor • 用于对输入的图像进行预处理，将输入的图像转化为模型所需要的格式,如 llava 需要切分的patch都是在这一步准备的 3. processor • 利用 image processor 处理图片 • 利用 tokenizer 处理 prompt • 可能会在 prompt 当中为 image 提前预留好位置 (placeholder) , 如 minicpm 的处理方法 4. model • vision_model：接受 vision embedding • scatter：将 vision embedding 插入到 text em ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博