干货分享-精调VLM(视觉语言模型)的经验

吃果冻不吐果冻皮 · 公众号 · · 2024-11-19 12:58

文章预览

原文：https://zhuanlan.zhihu.com/p/890327005 如果可以用prompt解决，尽量用prompt解决，因为训练（精调）的模型往往通用能力会下降，训练和长期部署成本都比较高，这个成本也包括时间成本。基于prompt确实不行（情况包括格式输出不稳定、格式输出基本不对、任务不完全会、任务完全不会等情况，难度逐渐加大），选择上SFT微调。业务场景基本用不到强化学习，强化解决的是最后一公里的问题，可以理解为有两种非常接近的输出（这两种输出都非常接近目标输出，此时已经解决了90%的问题），强化学习会对相同的输入，打压其中一种不希望的输出，同时增强另一种更接近目标的希望的输出（从DPO loss就可以看出）。强化是用来应对细微输出差异的，并且业务场景优先用DPO，DPO只需要pair对数据，更好构造。PPO的reward model几乎没有开源的，需要的数据更多 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

纪念币预约信息 · 开始预约！中国国家队亚冬会纪念银发行！

昨天

纪念币预约信息 · 2月，这些纪念币钞等待发行！记得约！

昨天

小易说钱 · 团购！第三版人民币来了！仅60套！太难收了！

昨天

小易说钱 · 开约！哪吒邮票发行！全套珍邮！

2 天前

纪念币预约信息 · 开始预约！亚冬会纪念币发行！龙头！

3 天前

摸鱼人日历 · [摸鱼小说]《职场摸鱼高手-第一、二章》

6 月前

摸鱼人日历 · [摸鱼小说]《职场摸鱼高手-第一、二章》

6 月前

数智城乡研究 · 如何保障低空经济的可持续发展？

5 月前

零帕汽车 · 卫星通信上车，牛在哪里？

4 月前