专栏名称: PaperAgent

日更，解读AI前沿技术热点Paper

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

科技日报 · 刚刚，发射成功！ · 12 小时前

品牌星球Brandstar · 专访三顿半：为什么要开一家非标的体验空间？ · 2 天前

Tech星球 · 单月超7亿流水的乙游世界：谁在月氪千元购买爱情？ · 3 天前

机智猫 · 只需3分钟，安卓苹果都能用上“鸿蒙版微信” · 6 天前

七厘居 · 2024跨年大妖！下一只翻倍黑马就是它 · 6 天前

今天看啥 › 专栏 › PaperAgent

o1的风又吹到多模态，直接吹翻了GPT-4o-mini

PaperAgent · 公众号 · · 2024-11-19 13:15

文章预览

开源LLaVA-o1 ：一个设计用于进行自主多阶段推理的新型VLM。与思维链提示不同，LLaVA-o1独立地参与到总结、视觉解释、逻辑推理和结论生成的顺序阶段。 LLaVA-o1超过了一些更大甚至是闭源模型的性能，例如 Gemini-1.5-pro 、 GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct 。基础模型与LLaVA-o1的比较。基础模型Llama-3.2-11B-Vision-Instruct在推理过程中有明显的缺陷，整个推理过程中出现了几个错误。相比之下， LLaVA-o1 首先概述问题，从图像中解释相关信息，然后进行逐步推理过程，并最终得出一个有充分支持的结论。 LLaVA-o1如何炼成 LLaVA-o1模型的结构化推理框架，专门的数据集和训练方法，以及推理时的阶段性束搜索策略，来提高模型在复杂任务中的推理能力和扩展性。结构化推理阶段：总结阶段（Summary Stage）：LLaVA-o1在这一阶段提供对问题的高层次总 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

科技日报 · 刚刚，发射成功！

12 小时前

科技日报 · 刚刚，发射成功！

12 小时前

品牌星球Brandstar · 专访三顿半：为什么要开一家非标的体验空间？

2 天前

Tech星球 · 单月超7亿流水的乙游世界：谁在月氪千元购买爱情？

3 天前

Tech星球 · 单月超7亿流水的乙游世界：谁在月氪千元购买爱情？

3 天前

机智猫 · 只需3分钟，安卓苹果都能用上“鸿蒙版微信”

6 天前

机智猫 · 只需3分钟，安卓苹果都能用上“鸿蒙版微信”

6 天前

七厘居 · 2024跨年大妖！下一只翻倍黑马就是它

6 天前

七厘居 · 2024跨年大妖！下一只翻倍黑马就是它

6 天前

金杜研究院 · 【邀请函】金杜洞察丨新形势下私募资管产品管理人的风险防控

5 月前

凤凰网财经 · 迪拜王室同款杨梅线上热销电商助力当地农户每斤多挣8元钱

4 月前

NIRO科研喵 · PCR实验中，引物GC含量高，结合特异性就越强，真的是这样吗？

4 月前

生物探索 · Nature Medicine | 利用血浆蛋白质组学提升疾病早期诊断：从多发性骨髓瘤到肺纤维化的精准预测

4 月前

财宝宝 · 我怎么感觉这个小区有很多保利的元素？尼玛的，太像我的一个红本了。-20240817131501

3 月前