专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
今天看啥  ›  专栏  ›  AI TIME 论道

Big Model weekly | 第49期

AI TIME 论道  · 公众号  ·  · 2024-12-15 18:00
    

文章预览

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 Magnetic Preference Optimization: Achieving Last-iterate Convergence for Language Models Alignment 自我对弈方法在多个领域增强模型能力方面展现出了显著的成功。在基于人类反馈的强化学习(RLHF)背景下,自我对弈不仅提升了大型语言模型(LLM)的性能,还通过找到基于偏好的两玩家恒和游戏中的纳什均衡(NE),克服了传统Bradley-Terry(BT)模型假设的限制。然而,现有的方法要么只保证平均迭代收敛,导致高昂的存储和推理成本,要么收敛到一个正则化游戏的NE,未能准确反映真实的人类偏好。在本研究中,作者介绍了一种新颖的方法——磁力偏好优化(MPO),它能够实现对原始游戏NE的最后迭代收敛,有效地克服了现有方法的局限性。MPO基于磁力镜像下降(MMD)构建,达到了线性收敛速度,特别适合于微调LLM ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览