注册
登录
专栏名称:
深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
中国中铁
·
中国中铁举办第二届项目管理效益提升典型案例创效大赛
·
4 小时前
GiantPandaCV
·
SGLang 后端原文解析
·
2 天前
今天看啥
›
专栏
›
深度学习自然语言处理
为视觉语言多模态模型进行偏好优化
深度学习自然语言处理
·
公众号
· · 2024-07-19 23:37
文章预览
来自:Hugging Face 训练模型使得它能够理解并预测人类偏好是一项比较复杂的任务。诸如 SFT (Supervised finetuning) 的传统的方法一般都需要耗费较大成本,因为这些算法需要对数据打上特定的标签。而偏好优化 (Preference Optimization) 作为一种替代选项,通常可以简化这一过程,并产出更准确的结果。通过对候选回答的对比和排序,而不是赋予固定的标签,偏好优化使得模型能更高效地捕捉人类偏好中的细微差别。 偏好优化已经在大语言模型中广泛使用了,但现在,它也可以用在视觉语言模型 (VLM) 上。得益于 TRL 的开发,现在我们可以 使用 TRL 对 VLM 进行直接偏好优化 (Direct Preference Optimization)。本文将会介绍使用 TRL 和 DPO 对视觉语言模型进行训练的全过程。 TRL https://hf.co/docs/trl/index 偏好数据集 进行偏好优化,首先我们需要有一个能体现用户偏好的数据 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
中国中铁
·
中国中铁举办第二届项目管理效益提升典型案例创效大赛
4 小时前
GiantPandaCV
·
SGLang 后端原文解析
2 天前
豆瓣阅读
·
编辑精选 | 春夜变成缠绵的线索,通往无以名状的杏仁核
3 月前
书单来了
·
我不劳而获!
3 月前
杭州本地宝
·
杭州七夕结婚登记能直接现场办理吗?
3 月前