今天看啥  ›  专栏  ›  人工智能头条

Open.ai新算法:一小时内训练AI系统后空翻,仅需900Bit的人类反馈数据

人工智能头条  · 公众号  · AI  · 2017-06-14 09:56
编 | 王艺编者按:6月11日,Open.ai官方博客发文,宣布其与DeepMind安全部门合作开发的最新算法,该算法使用少量人为反馈进行强化学习,并能够处理更复杂的任务。仅需900bit的人类反馈,系统便学会了后空翻,需要人类参与的时间也从70小时将至1小时,该技术还能够被应用在更多其他方面,目前在虚拟机器人以及Atari平台的游戏上已经接受广泛测试。构建安全AI系统的关键步骤之一是消除系统对人类编写的目标函数的需求。因为如果复杂的目标函数中有一点小错误,或者对复杂目标函数使用简单的代理,都可能会带来不是我们希望的甚至危险的后果。因此,我们与DeepMind的安全团队合作,开发了一种算法,可以通过人类告诉系统哪种行为更好而使系统得知人类的想 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照