专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

大模型对齐中的各种loss讲解

极市平台 · 公众号 · · 2024-11-24 22:00

文章预览

↑ 点击蓝字关注极市平台作者丨ybq 来源丨NLP工作站编辑丨极市平台极市导读本文深入讲解了大模型对齐中的各种loss函数，包括SFT家族、DPO家族、RLHF家族等，涉及GPTLMLoss、KDLoss、DPOLoss、KTOLoss、PolicyLoss、ValueLoss、PairWiseLoss、LogExpLoss和PRMLoss等。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿从这篇文章开始，我会不定期分享利用 OpenRLHF 学习 RLHF 的一些心得。我平常读代码喜欢开门见山，直接去看 loss 函数是什么形式，再去理解代码的其他环节，所以就从 loss 开始分享吧。代码详见： https://github.com/OpenRLHF/OpenRLHF/blob/main/openrlhf/models/loss.py 基础在研究 loss 函数前，建议把下面几个公式和图先焊死在脑子中。 Loss Loss 的 grad SFT 家族 GPTLMLoss class GPTLMLoss(nn.Module): "" " GPT Language Model Loss " "" def __init__(s ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博