专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
今天看啥  ›  专栏  ›  我爱计算机视觉

ECCV 2024 Oral | Co-Instruct: 让通用多模态大模型学会比较视觉质量

我爱计算机视觉  · 公众号  ·  · 2024-09-30 13:50
    

文章预览

关注公众号,发现CV技术之美 本篇分享 ECCV 2024 Oral 论文 Towards Open-ended Visual Quality Comparison , Co-Instruct: 让通用多模态大模型学会比较视觉质量。 作者:Haoning Wu等 论文链接:https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/00422.pdf Git链接:https://github.com/Q-Future/Co-Instruct 亮点直击 本文提出了Co-Instruct数据集,通过训练激发通用多模态大模型潜在的对多图的理解能力,从而实现开放式的视觉质量比较。这一数据集协同利用了蒸馏GPT-4V对多图质量的判断+LLM对人类单图质量标注的整合,在感知类开放式质量比较任务上实现了超过 GPT-4V 的效果。 经过Co-Instruct训练的多模态大模型不止可以比较多张图片整体质量的好坏,还可以更细粒度的比较各种和质量相关的问题(“哪一张图片清晰度最高?”,“哪一张图片更真实?”;尽管训练数据全部是定性比较,在Compare ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览