专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
相关文章推荐
今天看啥  ›  专栏  ›  AINLP

代码角度,深度解析 Qwen2-VL 模型结构

AINLP  · 公众号  ·  · 2024-09-12 14:35

文章预览

作者:emiya@知乎 原文:https://zhuanlan.zhihu.com/p/717884243 快速开始,接下来我会简单说说 Qwen2-VL 整体结构当中的几个关键的细节。帮助大家快速理解Qwen2-VL结构和其他网络结构的不同。 1. MLLM 模型的几个关键组件 每一个MLLM 模型都会包含如下的几个组成部分,不同的模型在不同的部分会有不同的实现的细节: 1. chat_template : • 用于将用户的输入转化为模型所需要输入的标准格式,例如 qwen 的 chatml 格式 2. image processor • 用于对输入的图像进行预处理,将输入的图像转化为模型所需要的格式,如 llava 需要切分的patch都是在这一步准备的 3. processor • 利用 image processor 处理图片 • 利用 tokenizer 处理 prompt • 可能会在 prompt 当中为 image 提前预留好位置 (placeholder) , 如 minicpm 的处理方法 4. model • vision_model:接受 vision embedding • scatter:将 vision embedding 插入到 text em ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览