一种基于注意力机制的无人机自主导航分层强化学习算法

焉知汽车 · 公众号 · · 2024-05-23 19:38

文章预览

来源 | 同济智能汽车研究所（定位与规控研究室）编者按：本文提出了HTARADrQ算法，该算法通过平均估计函数、循环机制、时间关注和分层框架，使无人机能够更好地在连续动作空间中进行动作。通过仿真和实际测试，验证了算法的可行性和有效性。摘要：无人驾驶飞行器(uav)越来越多地应用于许多具有挑战性和多样化的应用中。同时，无人机的自主导航和避障能力也变得越来越重要。本文旨在通过引入注意机制和层次机制，填补深度强化学习理论与实际应用之间的空白，解决深度强化学习在实际应用中遇到的一些严重问题。更具体地说，为了提高 DRL 的鲁棒性，我们使用平均估计函数代替正态值估计函数。然后，我们设计了一个循环网络和一个时间注意机制来提高算法的性能。第三，我们提出了一个分层框架，以提高其在长期任务中的表现 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博