专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

Cantor(领唱员):厦门大学提出多模态 CoT 新架构

AINLP  · 公众号  ·  · 2024-05-20 20:39
    

文章预览

本文分享论文 Cantor: Inspiring Multimodal Chain-of-Thought of MLLM ,提出一种名为“领唱员(Cantor)”的决策感知多模态思维链架构,无需额外训练,性能大幅提升。 论文地址: https://arxiv.org/abs/2404.16033 项目地址: https://ggg0919.github.io/cantor/ 介绍 思想链(Chain-of-Thought, CoT)是一种广泛应用的提示方法,通过添加中间推理步骤,可以显著增强大模型的推理能力。然而,在视觉推理任务中,模型不仅需要把握问题背后的总体逻辑,还需结合图像信息进行具体分析。因此,多模态思维链应运而生。 现有的多模态思维链方法通常将问题分解为多个相关的子任务,并调用各种外部工具依次处理。然而,由于视觉信息不足和低级感知工具的局限性,这种范式在决策中面临潜在的“ 决策幻觉 ”,以及低级感知工具 无法提供高级推理信息 的挑战。 近日,厦门大学的研究团 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览