文章预览
背景 最近Andrej Karpathy在网上对RLHF的吐槽引起了很多人的精神共鸣,总结下来核心就是RLHF中很难定义清晰的奖励函数。RLHF训练的目标是构建一个有用的LLM助理,意味着要处理各种通用领域的问题,并且有些问题还具有主观性,所以很难定义什么样的答案是好的,导致了RLHF的奖励很难量化。这样的吐槽我认为非常有道理,但就算是可以定义一个非常准确的RL(在某个小的领域其实是可以实现的),那么RLHF就一定可以得到很好的效果吗?我认为还有1个制约因素就是,LLM很难去做有效的探索,这在RL训练中同样重要,导致训练出的策略模型很难是鲁棒的。 然而并不是所有的LLM应用场景下都存在上述的限制,比如agent领域,涉及到MDP这种离散的决策过程,依然可以用传统的方法去做探索。在探索LLM的探索策略之前,我想要先介绍一下Monte Carlo Tree Search, MCTS
………………………………