直播｜伊利诺伊&谷歌Deepmind：决策智能，基于强化学习的VLM后训练

智源社区助手 · 公众号 · · 2024-07-23 11:00

文章预览

报告主题：决策智能：基于强化学习的VLM后训练报告日期：7月30日（下周二）10:30-11:30 报告要点：如何让VLM解决in-the-wild decision making任务？本次讲座会详细地讨论这个问题，并会从环境和算法上给出解决方案，并会讨论如何用这些方案解决现实问题，例如自动完成手机上的自然语言任务（如购物）。本次讲座将细致讨论用VLM解决in-the-wild决策任务的根本挑战，例如in-the-wild任务的随机性和随时间流逝造成的observation的变化，以及为什么目前的方法在这样的任务上效果并不理想（例如prompting和SFT）。这引出了为什么需要使用强化学习来解决问题，一个理想的强化学习算法与环境应该具有怎样的特征，以及我们使用了怎样的方法来实践规模化的环境（高度并行的环境）与算法（automatic curriculum + doubly robust estimator + hard AWR）。本次讲座最后会介绍我们 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博