文章预览
前言 Hi大家好,我叫延捷,是一名计算机视觉算法工程师,也是叉烧的老朋友了。 我们计划发布一系列关于多模态大模型的文章,帮助大家快速、精准地了解多模态大模型的前世今生,并且深 入各个多模态大模型领域优秀的工作,希望能给大家一个脉络性的盘点,一起学习,共同进步。 Introduction 上一期我们介绍了Qwen-VL和其最近的延伸Qwen2-VL。本期则会详细介绍一下另外一个在多模态大模型领域相当火热Gemini系列,本文会以Gemini为主干,分享Google在多模态大模型领域的一些经典工作,并且也会介绍笔者非常喜欢的一个Gemini分支作品Mini-Gemini(虽然跟Google的Gemini关系并不算大,但它真的很值得)。同样地我并不会过多列举一些不必要的论文细节和指标,而是会着重讲述: “心路历程”:一个系列工作逐步发展的路径,作者是如何根据当前工作的缺点
………………………………