主要观点总结
文章介绍了清华等国内研究机构推出的多模态模型LLaVA-o1,它是一个新颖的视觉-语言模型,旨在进行自主的多阶段推理。文章详细阐述了LLaVA-o1的四个结构化推理阶段,及其与基础模型Llama-3.2-11B-Vision-Instruct的区别。文章还介绍了LLaVA-o1的训练方法、推理时间扩展方法和实验对比结果。
关键观点总结
关键观点1: LLaVA-o1是一个自主的多阶段推理的视觉-语言模型。
LLaVA-o1能够进行结构化的输出,分为摘要、视觉解释、逻辑推理和结论生成四个阶段,这在推理密集型任务上性能显著提升。
关键观点2: LLaVA-o1使用100k结构化数据训练,采用专用标签来标记每个阶段。
数据合成流程包括通用视觉问答(VQA)数据集和针对科学的视觉问答(VQA)数据集,然后使用Llama-3.2-11BVision-Instruct模型作为基础模型进行全参数微调。
关键观点3: LLaVA-o1采用推理时间扩展方法增强模型的推理能力。
使用Stage-level Beam Search在推理阶段选择最佳回答,这是一种简单但有效的方法,通过增大N值可以提高模型的性能。
关键观点4: LLaVA-o1的性能超越了某些商业模型。
实验结果表明,LLaVA-o1的性能优于Gemini-1.5-pro、GPT-4o-mini等模型,这得益于其结构化数据和推理时间扩展方法。
文章预览
⇧ 点 蓝色 字关注 “AI小小将” 刚刚,清华等国内研究机构推出了多模态模型LLaVA-o1,LLaVA-o1是一个新颖的视觉-语言模型(VLM),旨在进行自主的多阶段推理,类似OpenAI的o1。与链式思维提示(CoT)不同, LLaVA-o1可以按照四个阶段(摘要、视觉解释、逻辑推理和结论生成)进行结构化输出。这种结构化的方法使LLaVA-o1在推理密集型任务上的性能有显著提升。 最重要的是,仅使用100k训练样本和一种简单但有效的推理时间扩展( inference time scaling)方法,LLaVA-o1不仅在广泛的多模态推理基准测试中比其基础模型提高了8.9%,而且还超过了更大甚至是闭源模型的性能,例如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。 论文地址:https://arxiv.org/abs/2411.10440 要注意的是,这里虽然叫LLaVA-o1,其实它并不是基于LLaVA架构,而是建立在Llama-3.2-Vision多模态模型基础
………………………………