文章预览
转载自:新智元 【导读】 在强化学习中,当智能体的奖励机制与设计者的意图不一致时,可能会导致不理想的行为,而KL正则化作为一种常用的解决方案,通过限制智能体的行为来防止这种情况,但智能体在某些情况下仍可能表现出意料之外的行为;为了提高智能体的可靠性,研究人员提出了新的理论方案,通过改变指导原则来增强智能体在未知情况下的谨慎性。 在强化学习中,智能体的奖励机制有时会与设计者的真实目的存在差异, 比如一个聊天机器人,开发者希望它能够通过学习来更好地完成任务,然后设计了一个奖励系统,当模型做出预期中认为有用的事情时,就会得到奖励;但有时候,智能体可能会做出非预期的行为,其奖励系统可能并不完全符合真实意图。 为了防止这种情况,业界通常会使用一种叫做KL正则化的技术,类似于给智能
………………………………