考考大模型视频理解能力，中科院人大百川提出新基准合成框架

量子位 · 公众号 · AI · 2024-06-20 17:53

文章预览

VideoNIAH团队投稿量子位 | 公众号 QbitAI 测试Gemini1.5 Pro、GPT-4o等多模态大模型的新基准来了，针对视频理解能力的那种。直接在视频内容中插入多个无关的图像或文本“针”，严格评估模型对时间理解的能力。来看下面的栗子。比如插入密码词“Alice”，让模型找到这个密码词；插入苹果图片，让模型解答这个水果是什么；又或者插入多个“针”，询问模型插入针的顺序是什么。这就是来自中科院、人大、百川的研究团队联合提出的利用合成视频构建视频理解测试基准的方法。该方法名为 VideoNIAH ，可以解耦视频内容与其对应的查询-响应对，通过插入无关的图像或文本“针”来生成测试数据，既保证了视频来源的多样性和查询响应的多样性，还通过插入多个针来严格评估模型对时间理解的能力。此外，使用与现实视频内容相对应的查询-响应 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

黄建同学 · 这个5K⭐的项目把他的project rules mdc文件（C-20250405153535

昨天

宝玉xp · 把照片中的人物变成塑料包装的可动人偶套装工具：sora.com -20250405044556

2 天前

爱可可-爱生活 · GAN遗忘学习的突破：Text-to-Unlearn框架查看-20250404071111

2 天前

黄建同学 · 这个开源的DeepSite生成前端代码/landing page-20250403205048

3 天前

宝玉xp · 译者何老师//@PotatO的小号嘻嘻:感谢宝玉老师推荐。时隔一-20250403121406

3 天前

X-MOL资讯 · 【化生】王浩/刘聪合作JACS：设计自组装多肽诱导蛋白聚集发展新颖肿瘤抑制剂

5 月前