专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)

AINLP  · 公众号  ·  · 2025-01-17 18:25
    

文章预览

最近,笔者系统的看了下一些比较经典的多模态大模型实现思路,本着动手实践的态度,从零到一实现了一个多模态大模型,并命名为 Reyes(睿视) ,R:睿,eyes:眼。Reyes的参数量为8B,视觉编码器使用的是 InternViT-300M-448px-V2_5 ,语言模型侧使用的是 Qwen2.5-7B-Instruct ,与NVLM-1.0等相关多模态大模型一样,Reyes也 通过一个两层MLP投影层连接视觉编码器与语言模型 。最终,Reyes-8B(0.447分)以更小的参数量在MMMU-benchmark得分超越llava1.5-13B(0.367分)。 模型权重开源地址:https://modelscope.cn/models/yujunhuinlp/Reyes-8B github:https://github.com/yujunhuics/Reyes Reyes模型大体架构 Reyes模型架构 视觉编码器:InternViT-300M-448px-V2_5(https://modelscope.cn/models/OpenGVLab/InternViT-300M-448px-V2_5) LLM侧:Qwen2.5-7B-Instruct(https://modelscope.cn/models/Qwen/Qwen2.5-7B-Instruct) 模型实现 :ReyesModel class   ReyesMod ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览