专栏名称: 夕小瑶科技说
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
今天看啥  ›  专栏  ›  夕小瑶科技说

大模型时代的蓝海任务,GPT4V准确率不足10%,港科大发布指代理解基准RefCOCO

夕小瑶科技说  · 公众号  ·  · 2024-07-08 16:04

文章预览

夕小瑶科技说 原创 作者 | 谢年年 谈到多模态大模型的应用场景,除了生成任务以外,应用最广泛的可能就是在图像和视频中进行目标检测。 目标检测要求从图像中识别并标注出所有感兴趣的对象,并给每个对象分配一个类别标签。典型的目标检测方法会生成边界框,标记出图像中每个目标的位置和类别,如人、车、动物等。 然而,今天我们要聊的并非仅限于对象类别的目标检测,而是一个更具挑战性的任务——Referring Expression Comprehension(REC),即指称表达理解。REC侧重于根据冗长且复杂的自然语言描述来精准定位并标记特定对象。 比如根据以下描述,标记图中的对象: 这款淡绿色的长方形橡皮上绘有一只熊,旁边用绿色写着“橡皮”字样。一层透明的带有图案的塑料覆盖物部分包裹着它。在图片的右下角,橡皮放在杂乱的桌子上,周围是各 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览