机器学习 | 强化学习如何让机器自主决策并优化行为

古月居 · 公众号 · · 2024-11-07 17:20

文章预览

强化学习，又叫Reinforcement learning，简称 RL 。在现在的AI研究中，RL相信大家一定都会经常听到。并且在很多的一些项目中也用到了RL的技术。比如阿尔法狗等。 a brief 我们前面所学到的，实际上使用的都是监督学习的算法。不管怎么说，我们实际上都是给了它们一个label标签的。不管是CNN，或者是RNN，又或者是GAN，包括自监督学习等等。但是RL所研究领域，就和这有所不同了，因为有的时候机器并不知道做哪一步是最好的，或者说我们不知道最佳输出应该是什么。举例来说，我们一个13-13的棋盘，在对手下了一个子后，你能够很确定的给出下一步应当走哪里最好吗？这个label应该怎么给呢？可能人类自己都不知道。你或许可以说可以参照什么棋谱来去学习观察来确定落在哪里最好。但是你又能确定落在这里一定是最好的吗、棋谱上所写的一定是最好 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博