专栏名称: 夕小瑶科技说
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
今天看啥  ›  专栏  ›  夕小瑶科技说

复旦字节强强联手,量身定制多模态思维链,让7B模型全面超越GPT-4V

夕小瑶科技说  · 公众号  ·  · 2024-06-12 11:19
    

文章预览

夕小瑶科技说 原创 作者 | 任同学 多模态大模型在不同的任务中表现出了令人印象深刻的能力,但是在处理复杂任务时,模型的性能仍然受到了单步推理范式的限制。为此,复旦团队联合字节跳动提出了 VoCoT,这是一个多步骤的、基于视觉的、以对象为中心的思想链推理框架。 VoCoT 具有两个关键特征:(1) 以对象为中心的推理路径 ,围绕跨模态共享的对象级信息展开,以及(2)以多模态交叉和对齐的方式 对对象概念进行视觉上的表征 ,有效地弥合了 LMM 在长文本过程中的模态差异。 通过将 VoCoT 引入流行的开源 LMM 架构中,研究人员引入了多模态大模型 VolCano。在仅有 7B 个参数和有限的输入分辨率的条件下,VolCano 在各种场景下都表现出了优异的性能,在需要复杂推理的任务中超越了包括 GPT-4V 在内的 SOTA 模型。 论文标题: VoCoT: Unleashing Visually ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览