专栏名称: 乐谷说
OpenAI、AIGC、元宇宙、天使投资、用户增长、商业模式设计与变现
目录
相关文章推荐
今天看啥  ›  专栏  ›  乐谷说

Deepseek爆吹的强化学习技术,可以做啥

乐谷说  · 公众号  ·  · 2025-02-10 08:19
    

文章预览

  强化学习是什么,可以用来做啥 强化学习是一种让计算机通过试错来学习完成任务的方法,就像训练小狗一样,做对了给奖励,做错了给惩罚,最终让它学会各种技能。 核心概念: •  智能体 (Agent):  学习的主角,比如游戏中的AI角色,或者自动驾驶汽车。 •  环境 (Environment):  智能体所处的“世界”,比如游戏地图、道路交通。 •  动作 (Action):  智能体可以做的行为,比如向左走、向右转、加速、刹车。 •  奖励 (Reward):  环境对智能体动作的反馈,好的行为给奖励(正数),坏的行为给惩罚(负数)。 •  策略 (Policy):  智能体根据当前情况选择动作的“策略”,目标是学习到最佳策略。 强化学习 vs. 其它机器学习方法: 特性 监督学习 非监督学习 强化学习 数据 带有标签的数据 (例如:图片和对应的物体名称) 无标签的数据 (只有图片, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览