注册登录

专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

北京厚朴中医 · 又是一年春来到，厚朴喊小伙伴们吃山药啦 · 19 小时前

北京厚朴中医 · 发生急性腰扭伤，我们该怎么办？ · 2 天前

中国中医 · 节气养生 | ... · 2 天前

今天看啥 › 专栏 › FightingCV

LLaVA-o1: 视觉语言模型逐步推理

FightingCV · 公众号 · · 2024-11-21 09:00

文章预览

摘要大型语言模型在推理能力方面取得了显著进展，尤其是在推理时间扩展方面，例如OpenAI的o1模型所示。然而，当前的视觉语言模型 (VLM) 通常难以进行系统和结构化的推理，尤其是在处理复杂的视觉问答任务时。在这项工作中，我们介绍了 LLaVA-o1 1 ，这是一种新型的VLM，旨在进行自主的多阶段推理。与思维链提示不同， LLaVA-o1 独立地进行总结、视觉解释、逻辑推理和结论生成的连续阶段。这种结构化的方法使 LLaVA-o1 能够在推理密集型任务上取得显著的精度改进。为此，我们编制了 LLaVA-o1-100k 数据集，整合了来自各种视觉问答来源的样本，并提供了结构化推理标注。此外，我们提出了一种推理时间阶段级波束搜索方法，该方法能够有效地进行推理时间扩展。值得注意的是，仅使用10万个训练样本和一种简单而有效的推理时间扩展方 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

北京厚朴中医 · 又是一年春来到，厚朴喊小伙伴们吃山药啦

19 小时前

北京厚朴中医 · 发生急性腰扭伤，我们该怎么办？

2 天前

中国中医 · 节气养生 | 国家卫生健康委发布会上，中医专家教您雨水养生小技巧

2 天前

映维网Nweon · Vision Pro的Persona虚拟键盘输入会泄密，最新版本已修复漏洞

5 月前

曹将 · 如何摆脱负面情绪

3 月前

E药经理人 · 医药数字营销行业趋势预测及成本控制策略研究报告

3 月前

大家居洞察 · 美的集团变革提效：拒绝“表演式工作”！

3 周前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号