专栏名称: 智源社区助手
智源社区活动及信息通知
今天看啥  ›  专栏  ›  智源社区助手

直播|伊利诺伊&谷歌Deepmind:决策智能,基于强化学习的VLM后训练

智源社区助手  · 公众号  ·  · 2024-07-23 11:00

文章预览

报告主题 :决策智能:基于强化学习的VLM后训练 报告日期 :7月30日(下周二)10:30-11:30 报告要点 : 如何让VLM解决in-the-wild decision making任务?本次讲座会详细地讨论这个问题,并会从环境和算法上给出解决方案,并会讨论如何用这些方案解决现实问题,例如自动完成手机上的自然语言任务(如购物)。本次讲座将细致讨论用VLM解决in-the-wild决策任务的根本挑战,例如in-the-wild任务的随机性和随时间流逝造成的observation的变化,以及为什么目前的方法在这样的任务上效果并不理想(例如prompting和SFT)。这引出了为什么需要使用强化学习来解决问题,一个理想的强化学习算法与环境应该具有怎样的特征,以及我们使用了怎样的方法来实践规模化的环境(高度并行的环境)与算法(automatic curriculum + doubly robust estimator + hard AWR)。本次讲座最后会介绍我们 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览