文章预览
点击下方 卡片 ,关注 「3DCV」 公众号 选择 星标 ,干货第一时间送达 来源:3DCV 添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。 扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 、 最新顶会论文 、计算机视觉书籍 、 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入! 引言 多模态大模型的出现引发了视觉-语言理解领域的重大范式转变。多模态大模型通过融合先进的视觉编码器与大语言模型,获得了优越的多模态感知和推理能力。为了全面地评估这些模型的能力,诸多图像/视频理解测试基准被构建出来。其中,视频理解测试基准上的测试结果表明,多模态大模型已经在视频理解任务
………………………………