专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
今天看啥  ›  专栏  ›  爱可可-爱生活

提出一种新的模型融合策略WARP,通过在KL正则化的强化学习中使-20240626053917

爱可可-爱生活  · 微博  · AI  · 2024-06-26 05:39

文章预览

2024-06-26 05:39 本条微博链接 提出一种新的模型融合策略WARP,通过在KL正则化的强化学习中使用指数移动平均作为动态锚定、独立策略的球面插值以及线性插值朝向初始化等手段,可以平衡语言模型的遗忘和对齐,并且可迭代地持续改进性能。 [LG]《WARP: On the Benefits of Weight Averaged Rewarded Policies》A Ramé, J Ferret, N V ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览