明日直播｜谷歌DeepMind&UIUC：决策智能，基于强化学习的VLM后训练

智源社区助手 · 公众号 · · 2024-07-29 11:00

文章预览

报告主题：决策智能：基于强化学习的VLM后训练报告日期：7月30日（周二）10:30-11:30 报告要点：如何让VLM解决in-the-wild decision making任务？本次讲座会详细地讨论这个问题，从环境和算法上给出解决方案，并会讨论如何用这些方案解决现实问题，例如自动完成设备控制任务（如自动在手机上购物）。本次讲座将细致讨论用VLM解决in-the-wild决策任务的根本挑战，例如如何解决in-the-wild任务中出现的随机性造成的observation的变化，以及为什么目前的主流方法在这样的任务上效果有限（Prompting和SFT）。这引出了为什么需要使用强化学习来解决in-the-wild decision making任务，一个理想的强化学习算法应该具有怎样的特征。在方法部分，本次talk将讨论我们使用了怎样的方法来实践并行的环境、可靠的reward和有效的算法（automatic curriculum + doubly robust estimator + hard AWR ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

北京厚朴中医 · 今晚19:00直播 || 家庭按摩，你想了解的那些事儿

2 天前

天玑-无极领域 · 耐下性子，挨个联系，不走捷径，深度维系关系，这种人不赚钱，就没天-20240608201229

6 月前

嘶吼专业版 · 新出现的 Eldorado 勒索软件针对 Windows、VMware ESXi VM

5 月前

整点财经 · “双龙戏珠”幅图指标、选股指标，龙头妖股启动信号一览无余。

5 月前

智能光伏 · 能源电力行业新媒体运营指南

2 周前