专栏名称: 魔搭ModelScope社区
阿里巴巴达摩院模型开源社区ModelScope官方账号
今天看啥  ›  专栏  ›  魔搭ModelScope社区

CogVLM2: 智谱开源新一代多模态大模型!

魔搭ModelScope社区  · 公众号  ·  · 2024-05-20 19:58
    

文章预览

01 引言 智谱·AI推出了新一代 CogVLM2 系列模型,并开源了使用 Meta-Llama-3-8B-Instruct 构建的两个模型。 与上一代CogVLM开源模型相比,CogVLM2系列开源模型有以下改进: 许多基准测试(例如 TextVQA、DocVQA)的显着改进。 支持8K内容长度。 支持图像分辨率高达1344*1344。 提供开源模型版本,支持中英文。 模型架构 CogVLM2 继承并优化了上一代模型的经典架构,采用了一个拥有50亿参数的强大视觉编码器,并创新性地在大语言模型中整合了一个70亿参数的视觉专家模块。这一模块通过独特的参数设置,精细地建模了视觉与语言序列的交互,确保了在增强视觉理解能力的同时,不会削弱模型在语言处理上的原有优势。这种深度融合的策略,使得视觉模态与语言模态能够更加紧密地结合。 模型信息: 模型名称 cogvlm2-llama3-chat-19B cogvlm2-llama3-chinese-chat-19B 基础模型 Meta- ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览