专栏名称: 自动驾驶之星
自动驾驶之星,是一个以自动驾驶量产交流为主的社区。这里有自动驾驶量产第一线的前沿动态,有一群奋斗在自动驾驶量产第一线的小伙伴在分享他们的量产经历。期待你的加入!希望每个人在这个浪潮中都能成为自动驾驶之星!
今天看啥  ›  专栏  ›  自动驾驶之星

【论文日报】LLM合集:LLaVA-o1,让VLM像OpenAI的o1模型一样逐步推理

自动驾驶之星  · 公众号  ·  · 2024-11-20 09:34

文章预览

1. LLaVA-o1: Let Vision Language Models Reason Step-by-Step 。在本文中,我们提出了LLaVA-o1,这是一种新型的VLM,旨在进行自主多阶段推理。与链式思维提示不同,LLaVA-o1独立地进行总结、视觉解释、逻辑推理和结论生成的顺序阶段。这种结构化的方法使LLaVA-o1在推理密集型任务上取得了显著的精确度提升。为了实现这一点,我们构建了LLaVA-o1-100k数据集,整合了来自各种视觉问答来源的样本,并提供了结构化的推理注释。此外,我们提出了推理时阶段级别的束搜索方法,这使得有效的推理时扩展成为可能。令人惊讶的是,仅使用100k训练样本和一个简单而有效的推理时扩展方法,LLaVA-o1不仅在其基模型上在多种跨模态推理基准测试中提高了8.9%的表现,而且还超越了更大甚至闭源模型,如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。 论文: https://arxiv.org/pdf/2411.10440 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览