注册
登录
专栏名称:
机器学习研究组订阅
连接人工智能技术人才和产业人才的交流平台
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
爱可可-爱生活
·
【PandaETL:一个无需编程的ETL(提 ...
·
2 天前
宝玉xp
·
严老师说得好:报志愿还要考虑自己的个性、偏好 ...
·
2 天前
爱可可-爱生活
·
揭示了大型语言模型在机器翻译中普遍存在的冗余 ...
·
3 天前
宝玉xp
·
转发微博-20241001085651
·
5 天前
爱可可-爱生活
·
[LG]《Physics-informed ...
·
1 周前
今天看啥
›
专栏
›
机器学习研究组订阅
谷歌重磅开源RL智能体Dreamer,仅靠图像学习从机器人到Atari的控制策略,样本效率暴增20倍
机器学习研究组订阅
·
公众号
·
AI
· 2020-03-21 20:32
文章预览
还记得曾经 MBRL 的 SOTA——PlaNet 吗?谷歌最近又出了一个它的改进版(已被 ICLR 2020 接收) 智能体如何选择动作来实现其目标,这方面的研究已经取得了快速的进展,这在很大程度上归功于强化学习(RL)的使用。用于强化学习的无模型方法通过试错来学习预测成功的动作,这类方法使得 DeepMind 的 DQN 算法能够玩雅达利游戏,AlphaStar 在星际争霸 II 中击败世界冠军,但其需要大量的环境交互,由此限制了它们在真实世界场景中的应用。 与无模型 RL 方法不同,基于模型的 RL 方法需要额外地学习环境的简化模型。这类模型让智能体能够预测潜在动作序列的结果,在假想场景中进行训练,从而在新情境中做出明智的决策,最终减少实现目标所必需的试错次数。 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
爱可可-爱生活
·
【PandaETL:一个无需编程的ETL(提取、转换、加载)工具-20241003151245
2 天前
宝玉xp
·
严老师说得好:报志愿还要考虑自己的个性、偏好和能力,而不是什么热-20241003135326
2 天前
爱可可-爱生活
·
揭示了大型语言模型在机器翻译中普遍存在的冗余输出现象及其对现有评-20241003060636
3 天前
宝玉xp
·
转发微博-20241001085651
5 天前
爱可可-爱生活
·
[LG]《Physics-informed kernel lea-20240929054803
1 周前