豆包团队视频生成新突破：无需语言模型，仅凭“视觉”就能学习复杂任务

量子位 · 公众号 · AI · 2025-01-27 13:06

文章预览

豆包大模型团队投稿现有的视频生成模型，大多依赖语言或标签数据学习知识，很少涉及纯视觉信号的学习，比如Sora。然而，语言并不能捕捉真实世界中的所有知识，例如，折纸、打领结等复杂任务难以通过语言清晰表达。那么，模型能否不依赖语言模型，从纯视觉视角学习知识、认知世界进而掌握推理和规划等能力？现在，豆包大模型团队联合北京交通大学、中国科学技术大学提出了 VideoWorld 。这是一种通用的视频生成模型，无需依赖语言模型存在，便可统一执行理解和推理任务。VideoWorld利用一种潜在动态模型（Latent Dynamics Model，LDM），高效压缩视频帧间的视觉变化信息，显著提升知识学习效率和效果。最终，VideoWorld在不依赖任何强化学习搜索或奖励函数机制前提下，达到了专业5段9x9围棋水平，并能够在多种环境中，执行机器人任务。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【[1.1k星]Malimite：iOS和macOS的全能反编译-20250129195517

昨天

中国人工智能学会 · 中国人工智能学会理事长戴琼海院士携手专家学者给您拜年啦！

2 天前

西部财经融媒 · DeepSeek超越ChatGPT，中美科技差异缩小？全球AI大模型陷入军备竞赛

3 天前

西部财经融媒 · DeepSeek超越ChatGPT，中美科技差异缩小？全球AI大模型陷入军备竞赛

3 天前

爱可可-爱生活 · 这篇论文创新性地提出了 RAG-Reward 数据集和 RAG -20250127061657

4 天前

量子位 · DeepSeek-R1持续刷屏，连Open R1都来了！抱抱脸发起，1天狂揽1.9k星

4 天前

白云仙院 · 放下丹经好勤修，莫将砂砾作宝珠！

2 月前

陕西新闻广播 · 便宜了！平均降价63%！

3 周前