文章预览
“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关 注! 论文标题: Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes 论文链接: https://arxiv.org/abs/2407.10957 代码链接: https://gewu-lab.github.io/Ref-AVS/ 举个例子,在下面这张图中,机器如何准确定位真正在演奏乐器的人? 搞单打独斗肯定不行,但这正是已有研究正在做的(各自从视觉、文本和音频线索的角度出发): 视频对象分割(VOS,Video Object Segmentation): 通常以第一帧中的对象掩码作为参考,指导后续帧中特定对象的分割(严重依赖于第一帧的精确标注); 视频对象参考分割(Ref-VOS,Referring Vid
………………………………