专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

国产多模态卷上下文长度:原生支持24K图文输入输出,图像视频理解对标GPT4V

量子位  · 公众号  · AI  · 2024-07-31 14:59

文章预览

陈林 投稿自 凹非寺 量子位 | 公众号 QbitAI 国产多模态大模型,也开始卷上下文长度。 书生·浦语灵笔(InternLM-XComposer)多模态大模型升级2.5版本—— 原生支持24K多模态图文上下文,超过20轮的图文交互,具备图像视频理解、网页创作、图文写作等多项功能。 该开源模型一出,一度在Hugging Face登上热榜第五。 作为8B量级性能最优秀的多模态大模型之一,它在多项评测性能上对标GPT4V和Gemini Pro。 而除了支持长上下文输入,InternLM-XComposer 2.5版本 (以下简称IXC 2.5) 同时训练了长序列输出能力,模型支持高质量网页创作和文章生成。 兼容三种多模态理解能力 IXC 2.5同时兼顾了多模态模型的理解和内容输出能力,主要包括三种多模态理解能力。 包括超过4K分辨率的图像理解、多轮多图超长对话、精细视频内容分析。 来具体看看大模型实力如何。 高分辨率 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览