注册
登录
专栏名称:
数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
数据派THU
·
最新RAG综述:15种经典RAG框架综述(下)
·
2 天前
今天看啥
›
专栏
›
数据派THU
【伯克利博士论文】以人为中心的奖励设计
数据派THU
·
公众号
·
大数据
· 2024-09-28 17:00
文章预览
来源:专知 本文 约1000字 ,建议阅读 5 分钟 我们提出,通过纳入新的方式整合人类输入,能够改善奖励信号。 我们如何引导人工智能体表现出我们期望的行为?引导智能系统行为的一种方式是通过 奖励设计 。通过指定要优化的奖励函数,我们可以利用强化学习(Reinforcement Learning, RL)使智能体从自己的经验和互动中学习。因此,在能够手动指定与预期行为良好对齐的奖励函数的环境中(例如,使用分数作为游戏的奖励),RL取得了巨大的成功。然而,随着我们逐步开发能够在复杂、多样的现实世界中学习更复杂行为的智能系统,奖励设计变得越来越困难且至关重要。为应对此挑战,我们提出,通过纳入新的方式整合人类输入,能够改善奖励信号。 本论文包含两个主要部分:直接利用人类输入进行奖励设计,或间接使用我们对人类的普遍认知进行 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
数据派THU
·
最新RAG综述:15种经典RAG框架综述(下)
2 天前
混沌Chaos
·
从生命到星系,新数学揭示大尺度秩序如何涌现
6 月前
游理游据研究院
·
搜狐二季度游戏收入1.47亿美元,移动游戏增长显著,附完整版管理层电话会议实录
4 月前
壹读
·
壹读招聘实习生!一起“奇奇怪怪的姿势又增加了”
3 月前