注册
登录
专栏名称:
量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
爱可可-爱生活
·
【[243星]BadWebsiteBlock ...
·
昨天
黄建同学
·
HeyGen发布的这个报告《How ...
·
昨天
宝玉xp
·
回复@Marieestest:只有给别人(包 ...
·
2 天前
爱可可-爱生活
·
【[216星]CodeGate:AI编程助手 ...
·
2 天前
爱可可-爱生活
·
「让听众保持注意力的五条黄金法则」如何让听众 ...
·
2 天前
今天看啥
›
专栏
›
量子位
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
量子位
·
公众号
·
AI
· 2024-10-30 12:57
文章预览
新宇 投稿 凹非寺 量子位 | 公众号 QbitAI GPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者Qwen2也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉。 但当前的大部分评测基准仍然具有以下几个缺陷: 多注重于短视频 ,视频长度或视频镜头数不足,难以考察到模型的长时序理解能力; 对模型的考察局限在部分较为简单的任务, 更多细粒度的能力未被大部分基准所涉及到 ; 现有的基准仍可以仅凭单帧图像以获取较高的分数,说明 问题和画面的时序性关联不强 ; 对开放性问题的评估仍旧采用较旧的GPT-3.5 ,打分和人类偏好有较大的偏差且并不准确,容易高估模型性能。 针对这些问题,有没有对应的基准能够较好解决这些问题呢? 在最新的NeurIPS D 2024中由浙江大学联合上海人工智能实验室,上海交通大学和香港中文大学提出的MMBench- ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
爱可可-爱生活
·
【[243星]BadWebsiteBlocklist:能帮你过滤-20250116140505
昨天
黄建同学
·
HeyGen发布的这个报告《How growing AI sen-20250116131157
昨天
宝玉xp
·
回复@Marieestest:只有给别人(包括AI)讲东西的时候-20250116000105
2 天前
爱可可-爱生活
·
【[216星]CodeGate:AI编程助手的隐私和安全守护者,-20250115190426
2 天前
爱可可-爱生活
·
「让听众保持注意力的五条黄金法则」如何让听众全程保持注意力?这是-20250115195830
2 天前
Lacan心理
·
新手心理咨询师互助实践项目招募通知(第50期)!
4 月前
WAGO万可
·
汇聚榜样力量 | 万可荣膺2024 DMSM金营奖创新营销奖
2 月前
科学前沿阵地
·
北航程群峰团队Sci. Adv:大行程、径向取向的MXene复合纤维拉伸人工肌肉
4 天前