专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

多图场景用DPO对齐!上海AI实验室等提出新方法,无需人工标注

量子位  · 公众号  · AI  · 2024-11-01 16:33

主要观点总结

文章介绍了由上海交大、上海AI实验室和港中文等团队最新研究成果带来的MIA-DPO方法,这是一种面向大型视觉语言模型的多图像增强的偏好对齐方法。通过将单图像数据扩展至多图像数据,并设计三种数据格式,MIA-DPO降低了数据收集和标注成本,具有高度可扩展性。同时,文章还探讨了多图像场景中的幻觉问题以及MIA-DPO在解决这一问题上的表现和原理。

关键观点总结

关键观点1: MIA-DPO方法介绍

文章介绍了MIA-DPO方法,这是一种用于大型视觉语言模型的多图像增强的偏好对齐方法,旨在解决多图像场景的幻觉问题。

关键观点2: MIA-DPO的数据格式

MIA-DPO设计了三种数据格式:序列数据、网格拼贴数据和图中图数据,以处理多图像场景。

关键观点3: 多图像幻觉问题

文章探讨了多图像场景中的幻觉问题,包括Sequence Confusion和Element Interference两种类型,并提出了注意力机制作为检测幻觉的指标。

关键观点4: MIA-DPO的实验结果

MIA-DPO在多个多图和单图benchmarks上进行了测试,结果显示能显著提升模型的多图感知与推理能力,同时保持原有的单图理解能力。


文章预览

刘子煜 投稿 量子位 | 公众号 QbitAI 多图像场景也能用DPO方法来对齐了! 由上海交大、上海AI实验室、港中文等带来最新成果 MIA-DPO 。 这是一个面向 大型视觉语言模型 的多图像增强的偏好对齐方法。 通过将单图像数据扩展至多图像数据,并设计序列、网格拼贴和图中图三种数据格式,MIA-DPO 大幅降低了数据收集和标注成本 ,且具有高度可扩展性。 要知道,理解多图像上下文已经成为视觉语言大模型的发展趋势之一,许多数据集和评估基准被提出。不过幻觉问题依然很难避免,且引入多图像数据可能削弱单图像任务的表现。 虽然偏好对齐方法(如DPO)在单图像场景中已被证明有效,但多图像偏好对齐仍然是一个解决问题。 MIA-DPO不仅解决了这一问题,而且 无需依赖人工标注或昂贵的API 。 通过分析视觉大语言模型在多图像处理中的注意力分布差异 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览