专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

豆包团队视频生成新突破:无需语言模型,仅凭“视觉”就能学习复杂任务

量子位  · 公众号  · AI  · 2025-01-27 13:06
    

文章预览

豆包大模型团队 投稿 现有的视频生成模型,大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习,比如Sora。 然而,语言并不能捕捉真实世界中的所有知识,例如,折纸、打领结等复杂任务难以通过语言清晰表达。 那么,模型能否不依赖语言模型,从纯视觉视角学习知识、认知世界进而掌握推理和规划等能力? 现在,豆包大模型团队联合北京交通大学、中国科学技术大学提出了 VideoWorld 。 这是一种通用的视频生成模型,无需依赖语言模型存在,便可统一执行理解和推理任务。VideoWorld利用一种潜在动态模型 (Latent Dynamics Model,LDM) ,高效压缩视频帧间的视觉变化信息,显著提升知识学习效率和效果。 最终,VideoWorld在不依赖任何强化学习搜索或奖励函数机制前提下,达到了专业5段9x9围棋水平,并能够在多种环境中,执行机器人任务。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览