大模型时代的蓝海任务，GPT4V准确率不足10%，港科大发布指代理解基准RefCOCO

夕小瑶科技说 · 公众号 · · 2024-07-08 16:04

文章预览

夕小瑶科技说原创作者 | 谢年年谈到多模态大模型的应用场景，除了生成任务以外，应用最广泛的可能就是在图像和视频中进行目标检测。目标检测要求从图像中识别并标注出所有感兴趣的对象，并给每个对象分配一个类别标签。典型的目标检测方法会生成边界框，标记出图像中每个目标的位置和类别，如人、车、动物等。然而，今天我们要聊的并非仅限于对象类别的目标检测，而是一个更具挑战性的任务——Referring Expression Comprehension（REC），即指称表达理解。REC侧重于根据冗长且复杂的自然语言描述来精准定位并标记特定对象。比如根据以下描述，标记图中的对象：这款淡绿色的长方形橡皮上绘有一只熊，旁边用绿色写着“橡皮”字样。一层透明的带有图案的塑料覆盖物部分包裹着它。在图片的右下角，橡皮放在杂乱的桌子上，周围是各 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博