专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

LLaVA-o1: 视觉语言模型逐步推理

FightingCV  · 公众号  ·  · 2024-11-21 09:00
    

文章预览

摘要 大型语言模型在推理能力方面取得了显著进展,尤其是在推理时间扩展方面,例如OpenAI的o1模型所示。 然而,当前的视觉语言模型 (VLM) 通常难以进行系统和结构化的推理,尤其是在处理复杂的视觉问答任务时。 在这项工作中,我们介绍了  LLaVA-o1 1  ,这是一种新型的VLM,旨在进行自主的多阶段推理。 与思维链提示不同, LLaVA-o1 独立地进行总结、视觉解释、逻辑推理和结论生成的连续阶段。 这种结构化的方法使 LLaVA-o1 能够在推理密集型任务上取得显著的精度改进。 为此,我们编制了 LLaVA-o1-100k 数据集,整合了来自各种视觉问答来源的样本,并提供了结构化推理标注。 此外,我们提出了一种推理时间阶段级波束搜索方法,该方法能够有效地进行推理时间扩展。 值得注意的是,仅使用10万个训练样本和一种简单而有效的推理时间扩展方 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览