ECCV 2024 Oral | 王东林团队提出PiTe：时空对齐视频大模型

CVer · 公众号 · · 2024-09-25 13:05

文章预览

点击下方卡片，关注“ CVer ”公众号 AI/CV重磅干货，第一时间送达点击进入—> 【Mamba/多模态/扩散】交流群添加微信号：CVer111，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea 和 CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！转载自：西湖大学工学院SOE 大型语言模型的发展进一步弥合了图像和文本之间的鸿沟，但视频复杂的时空数据结构特性使理解视频内容具有挑战。近期关于多模态大模型的相关研究工作通常将视觉数据（如图像）的特征对齐到语言特征的潜在空间中，以充分利用大模型的理解和推理能力。通用大模型成功的关键在于如何有效地将大语言模型卓越的理解、推理和生成能力推广到更多场景。对于多模态视频理解而言，在空间和时间维度上对齐不同模态的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

加措上师语录 · 不要有一点境界就得意忘形

昨天

青年文摘 · 这些姓氏，你读对了几个？

昨天

洞见 · 成年人最聪明的社交方式：从不拆穿，但会远离

昨天

读书杂志 · 中读课 | 有什么书非读不可？这3本建议死磕

2 天前

加措上师语录 · 人的幸福与苦恼，大多由自己的观念造成

2 天前

Always on way · 南航商城抽奖，100、200、300里程券

5 月前

一叶目开 · 帮孩子戒掉“手机瘾”的课外读物

4 月前

科研doge · 美国莱斯大学全奖博士招生

1 周前