专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
今天看啥  ›  专栏  ›  我爱计算机视觉

Gemini在大考终于赢了GPT-4o!Jeff Dean连续转发三次!Video-MME首个视频多模态基准来了!

我爱计算机视觉  · 公众号  ·  · 2024-06-17 12:02
    

文章预览

关注公众号,发现CV技术之美 近日,中科大、厦大、港中文等高校联合推出多模态大模型视频分析综合评估基准 Video-MME,全面评估多模态大模型的综合视频理解能力, 填补了这一领域的空白。Gemini 1.5 Pro在这份榜单中遥遥领先,证明其在视频理解领域的霸主地位。Video-MME一经推出,更是被 谷歌首席科学家Jeff Dean连续转发了三次! 目前已有近30万的浏览量,热度很高。 GPT-4o的伟大已无需多言,而谷歌的Gemini 1.5 Pro作为挑战者,其标榜的视频推理能力终于在全新的、更复杂的多模态基准Video-MME上首次得到了验证, 并全面超越了GPT-4o! 同时,各大公司以及研究机构,例如NVIDIA、ByteDance等模型也加入了混战: 榜单一经放出,Jeff Dean也在第一时间进行了转发表示称赞,共连续转发了三次。 在先前的研究中,缺少可以全面评估大模型视频推理能力的基准。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览