文章预览
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 Magnetic Preference Optimization: Achieving Last-iterate Convergence for Language Models Alignment 自我对弈方法在多个领域增强模型能力方面展现出了显著的成功。在基于人类反馈的强化学习(RLHF)背景下,自我对弈不仅提升了大型语言模型(LLM)的性能,还通过找到基于偏好的两玩家恒和游戏中的纳什均衡(NE),克服了传统Bradley-Terry(BT)模型假设的限制。然而,现有的方法要么只保证平均迭代收敛,导致高昂的存储和推理成本,要么收敛到一个正则化游戏的NE,未能准确反映真实的人类偏好。在本研究中,作者介绍了一种新颖的方法——磁力偏好优化(MPO),它能够实现对原始游戏NE的最后迭代收敛,有效地克服了现有方法的局限性。MPO基于磁力镜像下降(MMD)构建,达到了线性收敛速度,特别适合于微调LLM
………………………………