专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

Monte Carlo Tree Search介绍

AINLP  · 公众号  ·  · 2024-08-29 23:17

文章预览

背景 最近Andrej Karpathy在网上对RLHF的吐槽引起了很多人的精神共鸣,总结下来核心就是RLHF中很难定义清晰的奖励函数。RLHF训练的目标是构建一个有用的LLM助理,意味着要处理各种通用领域的问题,并且有些问题还具有主观性,所以很难定义什么样的答案是好的,导致了RLHF的奖励很难量化。这样的吐槽我认为非常有道理,但就算是可以定义一个非常准确的RL(在某个小的领域其实是可以实现的),那么RLHF就一定可以得到很好的效果吗?我认为还有1个制约因素就是,LLM很难去做有效的探索,这在RL训练中同样重要,导致训练出的策略模型很难是鲁棒的。 然而并不是所有的LLM应用场景下都存在上述的限制,比如agent领域,涉及到MDP这种离散的决策过程,依然可以用传统的方法去做探索。在探索LLM的探索策略之前,我想要先介绍一下Monte Carlo Tree Search, MCTS ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览