视频作为现实世界决策的新语言

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-09-18 00:06

文章预览

24年2月来自谷歌和伯克利分校的论文“Video as the New Language for Real-World Decision Making”。互联网上有大量文本和视频数据，通过下一个token或帧预测支持大规模自监督学习。然而，它们并没有得到同等的利用：语言模型对现实世界产生了重大影响，而视频生成仍然主要局限于媒体娱乐。不过，视频数据捕捉了难以用语言表达的物理世界重要信息。为了解决这一差距，讨论一个机会，即扩展视频生成工作以解决现实世界中的任务。与语言类似，视频可以作为一个统一的界面，吸收互联网知识并代表不同的任务。此外，视频生成像语言模型一样，通过上下文学习、规划和强化学习等技术，充当规划器、智体、计算引擎和环境模拟器。在机器人、自动驾驶和科学等领域确定了重大影响机会，最近的研究证明视频生成的这种能力是可以实现的。最后，确定视 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

百度智能云 · 【千帆思享会】HelixFold 3正式发布，百度智能云全面助力科学智能

3 天前

中建科工 · 中建科工在区域公司推行外部董事占多数董事会建设

3 月前

啃金融 · 国庆不能买股票耽误赚钱？你需要这份ETF秘籍

3 月前

IPRdaily · #晨报#全国在建和已建成运行的国家级知识产权快速维权中心达47家；长江中上游十城签署知识产权保护运营一体化合作协议

3 月前