专栏名称: CV技术指南
长期更新:深度学习、计算机视觉相关技术的总结;图像处理相关知识;最新论文;经典论文;论文综述、tensorflow和pytorch等内容总结。涉及领域 :神经网络模型、transformer模型、目标检测、语义分割、目标跟踪、视频理解等。
今天看啥  ›  专栏  ›  CV技术指南

华为提出SparsePO | 在训练中自动学习每个Token对应的KL散度权重和奖励,超越DPO等方法

CV技术指南  · 公众号  ·  · 2024-10-20 09:10

文章预览

前言   人类偏好并不是序列中的每个词都同等程度地受到影响,而是通常依赖于特定的词或词组,例如有毒术语会导致非偏好响应。 基于这个观察,作者主张 在PO中不是所有 Token 都应同等权重的观点 ,并提出了一个灵活的目标,称为SparsePO, 旨在在PO训练过程中自动学习每个 Token 对应的KL散度权重和奖励 。作者提出了两种不同的权重 Mask 变体,可以从参考模型本身或在线学习。值得注意的是,SparsePO诱导了学习到的 Mask 的稀疏性,使模型学习如何在 Token  Level 最佳权衡奖励和KL散度贡献,学习最优的 Mask 稀疏度。 Pytorch训练营,花两个星期彻底掌握代码实现 CV各大方向专栏与各个部署框架最全教程整理 CV全栈指导班、基础入门班、论文指导班 全面上线!! 1 介绍 随着将大语言模型(LLMs)作为对话 Agent 的应用日益普及,将它们与人类偏好对齐的重要 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览