今天看啥  ›  专栏  ›  字节跳动技术团队

火山引擎夺得AIM2024大赛视频显著性预测赛道冠军

字节跳动技术团队  · 公众号  · 互联网短视频 科技自媒体  · 2024-10-13 09:01

主要观点总结

火山引擎多媒体实验室在第2024届ECCV联合举办的AIM Workshop大赛视频显著性预测赛道上,凭借自研的显著性检测算法获得冠军。该比赛旨在鼓励计算机视觉领域的新技术和方法探索。火山引擎多媒体实验室的算法性能在视频显著性预测赛道的四项指标上均领先其他队伍。

关键观点总结

关键观点1: 大赛背景及目标

AIM Workshop大赛是计算机视觉领域的国际竞赛,旨在鼓励学者和研究人员探索新技术和方法。视频显著性预测任务旨在模拟人类视觉系统,预测图片/视频中人眼关注的区域。

关键观点2: 火山引擎多媒体实验室的冠军算法介绍

火山引擎多媒体实验室使用自研的显著性检测算法,在视频显著性预测赛道上获得冠军。该算法面临的主要挑战包括眼动数据标注成本高和模型鲁棒性不足。团队采用了encoder-decoder架构,使用UMT视频基础模型作为encoder,并引入了时序注意力模块。

关键观点3: 数据处理与训练策略

火山引擎多媒体实验室采用基于视频内容的train/val划分策略进行数据处理。在训练策略上,通过SIM指标划分简单样本和困难样本,增加模型在困难样本上的损失权重,提升模型性能。

关键观点4: 应用与影响

显著性预测技术的迭代升级有助于优化用户观看体验,推动视频行业智能化、高效化发展。火山引擎多媒体实验室的算法已广泛应用于内部业务场景,并面向企业开放。实验室多篇论文入选国际顶会,并获得技术赛事冠军。


文章预览

近日,第2024届ECCV联合举办的AIM Workshop大赛公布比赛结果,在 视频显著性预测赛道 上, 火山引擎多媒体实验室 凭借自研的显著性检测算法获得冠军,技术能力达到行业领先水平。 大赛背景 AIM (Advances in Image Manipulation) 2024是新兴的计算机视觉国际竞赛,每年在模式识别和机器视觉顶级国际会议ECCV上举行。 该比赛旨在鼓励学者和研究人员探索计算机视觉中图像分析、增强和恢复的新技术和方法,并且促进学术交流,在计算机视觉领域获得了广泛的关注和参与,吸引了众多高校和业界知名公司参加。 显著性预测任务旨在模拟人类视觉系统,预测图片/视频中人眼关注的区域,为下游各类计算机视觉任务提供引导和辅助信息。视频显著性预测赛道要求参赛者基于1500个视频87w帧共超过4000名用户的眼动追踪数据进行模型训练和验证,视频内容来自youtube和vi ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览