文章预览
关注公众号,发现CV技术之美 本篇分享 ECCV 2024 Oral 论文 Towards Open-ended Visual Quality Comparison , Co-Instruct: 让通用多模态大模型学会比较视觉质量。 作者:Haoning Wu等 论文链接:https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/00422.pdf Git链接:https://github.com/Q-Future/Co-Instruct 亮点直击 本文提出了Co-Instruct数据集,通过训练激发通用多模态大模型潜在的对多图的理解能力,从而实现开放式的视觉质量比较。这一数据集协同利用了蒸馏GPT-4V对多图质量的判断+LLM对人类单图质量标注的整合,在感知类开放式质量比较任务上实现了超过 GPT-4V 的效果。 经过Co-Instruct训练的多模态大模型不止可以比较多张图片整体质量的好坏,还可以更细粒度的比较各种和质量相关的问题(“哪一张图片清晰度最高?”,“哪一张图片更真实?”;尽管训练数据全部是定性比较,在Compare
………………………………