今天看啥  ›  专栏  ›  PaperAgent

o1的风又吹到多模态,直接吹翻了GPT-4o-mini

PaperAgent  · 公众号  ·  · 2024-11-19 13:15

文章预览

开源LLaVA-o1 : 一个设计用于进行自主多阶段推理的新型VLM。与思维链提示不同,LLaVA-o1独立地参与到 总结、视觉解释、逻辑推理和结论生成 的顺序阶段。 LLaVA-o1超过了一些更大甚至是闭源模型的性能,例如 Gemini-1.5-pro 、 GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct 。 基础模型与LLaVA-o1的比较 。基础模型Llama-3.2-11B-Vision-Instruct在推理过程中有明显的缺陷,整个推理过程中出现了几个错误。相比之下, LLaVA-o1 首先概述问题 ,从 图像中解释相关信息 , 然后进行逐步推理过程 ,并最终得出一个 有充分支持的结论 。 LLaVA-o1如何炼成 LLaVA-o1模型的 结构化推理框架 , 专门的 数据集和训练方法 ,以及推理时的 阶段性束搜索 策略,来提高模型在复杂任务中的推理能力和扩展性。 结构化推理阶段 : 总结阶段(Summary Stage) :LLaVA-o1在这一阶段提供对问题的高层次总 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览