文章预览
报告主题 :决策智能:基于强化学习的VLM后训练 报告日期 :7月30日(周二)10:30-11:30 报告要点 : 如何让VLM解决in-the-wild decision making任务?本次讲座会详细地讨论这个问题,从环境和算法上给出解决方案,并会讨论如何用这些方案解决现实问题,例如自动完成设备控制任务(如自动在手机上购物)。本次讲座将细致讨论用VLM解决in-the-wild决策任务的根本挑战,例如如何解决in-the-wild任务中出现的随机性造成的observation的变化,以及为什么目前的主流方法在这样的任务上效果有限(Prompting和SFT)。这引出了为什么需要使用强化学习来解决in-the-wild decision making任务,一个理想的强化学习算法应该具有怎样的特征。在方法部分,本次talk将讨论我们使用了怎样的方法来实践并行的环境、可靠的reward和有效的算法(automatic curriculum + doubly robust estimator + hard AWR
………………………………