专栏名称: 美团技术团队
10000+工程师,如何支撑中国领先的生活服务电子商务平台?数亿消费者、数百万商户、2000多个行业、几千亿交易额背后是哪些技术在支撑?这里是美团、大众点评、美团外卖、美团配送、美团优选等技术团队的对外窗口。
今天看啥  ›  专栏  ›  美团技术团队

CVPR 2024 | 美团技术团队精选论文解读 & 论文分享会预告

美团技术团队  · 公众号  · 架构  · 2024-06-13 19:58

主要观点总结

本文总结了美团技术团队在CVPR 2024会议上发表的七篇论文的解读。这些论文涉及计算机视觉和人工智能领域的技术创新,包括文本引导的视觉生成模型,多模态情感识别技术等内容。

关键观点总结

关键观点1: 论文精选概览

美团技术团队在CVPR 2024会议上发表了七篇精选论文,这些论文涵盖了计算机视觉和人工智能领域的多个创新方向。

关键观点2: 论文一:OCR预训练技术升级

美团提出了一种创新的OCR预训练方法,称为ODM,可以更好地对齐文本提示和图像中的OCR文本,提高预训练模型的性能。

关键观点3: 论文二:长尾半监督学习技术创新

针对长尾半监督学习问题,美团介绍了一种基于平衡和熵的混合方法BEM,重新平衡了数据量和不确定性的类别分布,提高了性能。

关键观点4: 论文三:图像驱动算法研究

美团首次尝试构建大型视觉运动模型LVMM,用于预测复杂场景的光流,生成逼真的图像运动效果。

关键观点5: 论文四:数字人生成技术探索

美团提出了CustomListener技术,用户可以使用任意自由文本自定义数字人的属性,结合讲话内容生成逼真的反应。

关键观点6: 论文五:视听分割技术研究

美团提出了一种新的视听Transformer框架COMBO,探讨了视听分割中的像素纠缠、模态纠缠和时间纠缠关系,提高了性能。

关键观点7: 论文六:合成数据集在目标检测中的应用

美团利用合成数据集InstaGen增强目标检测器的性能,通过集成实例级检测头提高生成图像中物体实例的定位能力。

关键观点8: 会议活动

美团在CVPR 2024西雅图会场组织了一系列线下活动,包括论文分享、Booth展台展示、Workshop等。


文章预览

总第591 篇 |  2024年第011篇 本文精选了美团技术团队被CVPR 2024收录的7篇论文进行解读,这些论文既包括OCR预训练、长尾半监督学习等基础学习范式升级,也包括图生视频、数字人驱动、视听分割(AVS)等视觉AIGC技术创新。这些论文有美团视觉智能部的独立产出,也有跟高校、科研机构合作的成果。希望能给从事相关研究工作的同学带来一些帮助或启发。 CVPR 全称为 IEEE Conference on Computer Vision and Pattern Recognition,国际计算机视觉与模式识别会议。该会议始于1983年,与ICCV和ECCV并称计算机视觉方向的三大顶级会议。根据谷歌学术公布的2022年最新学术期刊和会议影响力排名,CVPR在所有学术刊物中位居第4,仅次于Nature、NEJM和Science。 6月27日( 周四 ),我们将邀请4位论文作者进行线上分享,文末有详细介绍( 以及CVPR展会信息 ),欢迎 点击这里 报名~ 01 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览