文章预览
最近,笔者系统的看了下一些比较经典的多模态大模型实现思路,本着动手实践的态度,从零到一实现了一个多模态大模型,并命名为 Reyes(睿视) ,R:睿,eyes:眼。Reyes的参数量为8B,视觉编码器使用的是 InternViT-300M-448px-V2_5 ,语言模型侧使用的是 Qwen2.5-7B-Instruct ,与NVLM-1.0等相关多模态大模型一样,Reyes也 通过一个两层MLP投影层连接视觉编码器与语言模型 。最终,Reyes-8B(0.447分)以更小的参数量在MMMU-benchmark得分超越llava1.5-13B(0.367分)。 模型权重开源地址:https://modelscope.cn/models/yujunhuinlp/Reyes-8B github:https://github.com/yujunhuics/Reyes Reyes模型大体架构 Reyes模型架构 视觉编码器:InternViT-300M-448px-V2_5(https://modelscope.cn/models/OpenGVLab/InternViT-300M-448px-V2_5) LLM侧:Qwen2.5-7B-Instruct(https://modelscope.cn/models/Qwen/Qwen2.5-7B-Instruct) 模型实现 :ReyesModel class ReyesMod
………………………………