注册登录

专栏名称: 微软亚洲研究院

专注科研18年，盛产黑科技

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

爱可可-爱生活 · 【遇见李白：基于知识图谱的AI智能体，推动李 ...· 昨天

爱可可-爱生活 · 【Zotero阅读列表插件：帮助用户在Zot ...· 2 天前

深度学习与NLP · 公积金个人缴存部分与单位缴存金额一致，为什么 ...· 3 天前

量子位 · 豆包文科成绩超了一本线，为什么理科不行？· 3 天前

机器之心 · 全网围观魏建军直播：长城端到端智驾大模型挑战 ...· 4 天前

今天看啥 › 专栏 › 微软亚洲研究院

带你读论文 | 值分布强化学习

微软亚洲研究院 · 公众号 · AI · 2021-01-08 12:44

编者按：值分布强化学习（Distributional Reinforcement Learning）是一类基于价值的强化学习算法，也是一类新兴的强化学习方法。该方法达到了非分布式强化学习方法上新的基准性能，也与神经科学有着内在联系，因此具有很高的研究价值。本文将带大家一起选读多个近期值分布强化学习相关的研究工作，这些工作的发展脉络清晰、研究动机明确，为后续的进一步研究提供了重要参考。什么是值分布强化学习值分布强化学习（Distributional Reinforcement Learning，Distributional RL）是一类基于价值的强化学习算法（value-based Reinforcement Learning，value-based RL）。经典的基于价值的强化学习方法尝试使用期望值对累积回报进行建模，表示为价值函数 V(x) 或动作价值函数 Q(x,a)。而在这个建模过 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

爱可可-爱生活 · 【遇见李白：基于知识图谱的AI智能体，推动李白文化的数字化普及与-20240703132106

昨天

爱可可-爱生活 · 【Zotero阅读列表插件：帮助用户在Zotero文献管理工具中-20240702140757

2 天前

深度学习与NLP · 公积金个人缴存部分与单位缴存金额一致，为什么显示比例却是个人12% 单位5%，是下个月要降低了吗？

3 天前

量子位 · 豆包文科成绩超了一本线，为什么理科不行？

3 天前

机器之心 · 全网围观魏建军直播：长城端到端智驾大模型挑战重庆「魔幻路况」

4 天前

天然橡胶 · 橡胶期货“颓势”开始显现

2 周前

brainnews · Nat Neurosci: 西安交大王昌河团队揭示痛觉与情绪交互调控及慢性痛长期维持的神经闭环机制

6 月前

清华大学智能法治研究院 · 2023年广东省数据经纪人遴选名单与广东省数据经纪人管理规则

7 月前

校招薪水 · 校招 | 民泰银行2022届校招

2 年前

嗨推 · 爱库存抵制唯品会二选一 | 腾讯微博宣布停止服务【9.7淘客快讯】

3 年前

关于移动版 · Py中国 · RSS之家 · codingpro · Code · link之家 · 卧龙AI搜索 · 藏经阁 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号