文章预览
夕小瑶科技说 原创 作者 | 谢年年 谈到多模态大模型的应用场景,除了生成任务以外,应用最广泛的可能就是在图像和视频中进行目标检测。 目标检测要求从图像中识别并标注出所有感兴趣的对象,并给每个对象分配一个类别标签。典型的目标检测方法会生成边界框,标记出图像中每个目标的位置和类别,如人、车、动物等。 然而,今天我们要聊的并非仅限于对象类别的目标检测,而是一个更具挑战性的任务——Referring Expression Comprehension(REC),即指称表达理解。REC侧重于根据冗长且复杂的自然语言描述来精准定位并标记特定对象。 比如根据以下描述,标记图中的对象: 这款淡绿色的长方形橡皮上绘有一只熊,旁边用绿色写着“橡皮”字样。一层透明的带有图案的塑料覆盖物部分包裹着它。在图片的右下角,橡皮放在杂乱的桌子上,周围是各
………………………………