专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

VLM(视觉语言大模型)微调经验

关于NLP那些你不知道的事 · 公众号 · · 2024-11-01 08:00

文章预览

VLM(视觉语言大模型)微调经验作者：lym 原文地址：https://zhuanlan.zhihu.com/p/890327005 如果可以用prompt解决，尽量用prompt解决，因为训练（精调）的模型往往通用能力会下降，训练和长期部署成本都比较高，这个成本也包括时间成本。基于prompt确实不行（情况包括格式输出不稳定、格式输出基本不对、任务不完全会、任务完全不会等情况，难度逐渐加大），选择上SFT微调。业务场景基本用不到强化学习，强化解决的是最后一公里的问题，可以理解为有两种非常接近的输出（这两种输出都非常接近目标输出，此时已经解决了90%的问题），强化学习会对相同的输入，打压其中一种不希望的输出，同时增强另一种更接近目标的希望的输出（从DPO loss就可以看出）。强化是用来应对细微输出差异的，并且业务场景优先用DPO，DPO只需要pair对数据，更好构造。PPO的r ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

l 看齐 l · 知名男星怒斥：没完了是吗？

2 小时前

l 看齐 l · 知名男星怒斥：没完了是吗？

2 小时前

犀牛娱乐 · 综艺人“整顿”团播，真能一夜入账300万？

23 小时前

重庆晨报 · 不尊重保姆？男星林峯妻子直播时再引争议，此前上节目被指矫情……

昨天

重庆晨报 · 不尊重保姆？男星林峯妻子直播时再引争议，此前上节目被指矫情……

昨天

集邦新能源 · N型技术加速渗透助推光伏焊带迭代，行业集中度有望向龙头企业靠拢

6 月前

海西晨报 · 新春走基层 | 归乡寻味：天水早餐里的烟火与眷恋

1 月前

中核二二 · 中核二二开展新春安全第一讲

2 周前