今天看啥  ›  专栏  ›  古月居

使用强化学习与障碍函数完成避障任务

古月居  · 公众号  ·  · 2024-08-25 17:20
    

主要观点总结

本文主要介绍了强化学习在仿真模拟环境中的成功应用,以及在真实世界实际系统中的安全保证问题。针对传统深度强化学习在运动体训练过程中缺乏安全保证的问题,结合深度确定性策略梯度算法及控制障碍函数算法,提出了一种无模型强化学习控制器的体系结构。该控制器在控制障碍函数的约束下进行在线学习,以确保学习过程中的安全性。同时为了解决奖励稀疏问题,引入了事后经验回放算法。最后通过一阶积分器模型的避障任务验证了算法的可行性与有效性。

关键观点总结

关键观点1: 强化学习在仿真模拟环境中的成功应用

强化学习通过不断试错学习,可以在仿真模拟环境中达到较大的成功。但在真实世界的实际系统中,由于缺乏安全保证,其应用受到限制。

关键观点2: 深度确定性策略梯度算法与控制障碍函数算法的结合

针对传统深度强化学习在运动体训练中的安全保证问题,结合深度确定性策略梯度算法和控制障碍函数算法,提出了一种无模型强化学习控制器的体系结构。该控制器在保证学习过程中的安全性的同时,提高了探索效率。

关键观点3: 事后经验回放算法的引入

为了解决奖励稀疏问题,引入了事后经验回放算法。该算法能够从非定性奖赏信号中学习,提高了智能体的学习效率。

关键观点4: 实验验证

通过避障任务的仿真实验,验证了结合深度确定性策略梯度算法、事后经验回放算法和控制障碍函数算法的有效性。实验结果表明,该算法收敛速度更快,成功率更高。


文章预览

强化学习在仿真模拟环境中取得了较大成功,但在真实世界的实际系统中缺乏安全保证,无法有效的进行探索。 针对传统深度强化学习在运动体训练过程中缺乏安全保证的问题,本文结合深度确定性策略梯度算法及控制障碍函数算法在事后经验回放的样本采样机制下提出了一种控制器的体系结构 无模型强化学习控制器在控制障碍函数的约束下进行在线学习,以确保学习过程中的安全性,同时为了解决奖励稀疏问题,引入了事后经验回放算法,对中间状态也给予奖励。 最后通过一个一阶积分器模型的避障任务验证了算法的可行性与有效性。 1 问题描述 系统描述 本文研究的运动体运动学方程为: 目标到达任务系统状态 (2)目标区域(Goals): 目标描述了目标的期望位置, 具有一定固定的容差, 也就是 (3)奖赏(Rewards): 奖赏是二进制值, 即稀疏奖赏, 通过 (4)观 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览