文章预览
作者介绍 史成春,伦敦政治经济学院统计系副教授。 1 引言 相信你对强化学习一定不陌生。它旨在研究AI如何实时做出决策,以最大化人类决策者的长期收益(Sutton and Barto, 2018)。在过去的十年中,它是人工智能领域最热门的研究方向之一。谷歌学术的搜索结果显示,2023年发表了超过13万篇包含“强化学习”关键词的文章。在2024年的人工智能顶会ICML中,共有2609篇文章被接收,其中255篇涉及强化学习,占总接收文章数的10%。在统计学领域的“四大天王”杂志中,也有众多关于强化学习的研究见刊 (Chen et al., 2024; Ertefaie and Strawderman,
2018; Hu and Wager, 2023; Luckett et al., 2020; Liao et al., 2021, 2022; Li et al., 2024; Ramprasad et al.,
2023; Shi et al., 2022, 2023a; Wang et al., 2023; Yang et al., 2022; Zhou et al., 2024)。此外,近十年来,强化学习已在诸多领域广泛应用,包括电子游戏(Mnih et a
………………………………