专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Big Model weekly | 第49期

AI TIME 论道 · 公众号 · · 2024-12-15 18:00

文章预览

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！ 01 Magnetic Preference Optimization: Achieving Last-iterate Convergence for Language Models Alignment 自我对弈方法在多个领域增强模型能力方面展现出了显著的成功。在基于人类反馈的强化学习（RLHF）背景下，自我对弈不仅提升了大型语言模型（LLM）的性能，还通过找到基于偏好的两玩家恒和游戏中的纳什均衡（NE），克服了传统Bradley-Terry（BT）模型假设的限制。然而，现有的方法要么只保证平均迭代收敛，导致高昂的存储和推理成本，要么收敛到一个正则化游戏的NE，未能准确反映真实的人类偏好。在本研究中，作者介绍了一种新颖的方法——磁力偏好优化（MPO），它能够实现对原始游戏NE的最后迭代收敛，有效地克服了现有方法的局限性。MPO基于磁力镜像下降（MMD）构建，达到了线性收敛速度，特别适合于微调LLM ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

手游那点事 · 一眨眼已悄悄扩至800人，“广州帮”准备再多一个出海高手？

8 小时前

手游那点事 · 今年第一个“霸榜”的开放世界，“仙侠+帕鲁”还真有点东西

4 天前

中国基金报 · 多次“蹭热点”，监管警示！

9 月前

电影截图录 · “小舅，我们是什么关系？”霍霆东优雅的搂住她的肩膀，温润而笑，“-20241005113408

4 月前

生态遥感前沿 · 云南大学硕士生以第一作者身份在地学一区（IF=8.5）发表文章

3 月前