文章预览
报告主题 :决策智能:基于强化学习的VLM后训练 报告日期 :7月30日(下周二)10:30-11:30 报告要点 : 如何让VLM解决in-the-wild decision making任务?本次讲座会详细地讨论这个问题,并会从环境和算法上给出解决方案,并会讨论如何用这些方案解决现实问题,例如自动完成手机上的自然语言任务(如购物)。本次讲座将细致讨论用VLM解决in-the-wild决策任务的根本挑战,例如in-the-wild任务的随机性和随时间流逝造成的observation的变化,以及为什么目前的方法在这样的任务上效果并不理想(例如prompting和SFT)。这引出了为什么需要使用强化学习来解决问题,一个理想的强化学习算法与环境应该具有怎样的特征,以及我们使用了怎样的方法来实践规模化的环境(高度并行的环境)与算法(automatic curriculum + doubly robust estimator + hard AWR)。本次讲座最后会介绍我们
………………………………