Deepseek爆吹的强化学习技术，可以做啥

乐谷说 · 公众号 · · 2025-02-10 08:19

文章预览

强化学习是什么，可以用来做啥强化学习是一种让计算机通过试错来学习完成任务的方法，就像训练小狗一样，做对了给奖励，做错了给惩罚，最终让它学会各种技能。核心概念： • 智能体 (Agent): 学习的主角，比如游戏中的AI角色，或者自动驾驶汽车。 • 环境 (Environment): 智能体所处的“世界”，比如游戏地图、道路交通。 • 动作 (Action): 智能体可以做的行为，比如向左走、向右转、加速、刹车。 • 奖励 (Reward): 环境对智能体动作的反馈，好的行为给奖励（正数），坏的行为给惩罚（负数）。 • 策略 (Policy): 智能体根据当前情况选择动作的“策略”，目标是学习到最佳策略。强化学习 vs. 其它机器学习方法：特性监督学习非监督学习强化学习数据带有标签的数据 (例如：图片和对应的物体名称) 无标签的数据 (只有图片， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博