注册登录

专栏名称: 人工智能与算法学习

这里是AI领域学习交流的平台！分享人工智能、机器学习、深度学习、计算机视觉、自然语言处理、算法原理、科技前沿、行业动态等，为您提供最有价值的知识和资讯。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

目录

相关文章推荐

人力资源管理 · 人正常要睡几个小时？ ... · 昨天

层楼 · 未科反转了！ ... · 3 天前

财宝宝 · 你直接说没钱就行了，还扯那么多废话。我家婆姨 ... · 3 天前

中国建筑 · 新建好房子：“高性能+好服务”回应人民群众“ ... · 3 天前

HR新逻辑 · 当了leader才发现，公司最想裁掉的，不是 ... · 3 天前

今天看啥 › 专栏 › 人工智能与算法学习

训练VLM(视觉语言模型)的经验

人工智能与算法学习 · 公众号 · · 2024-11-04 18:06

文章预览

作者：lym@知乎链接：https://zhuanlan.zhihu.com/p/890327005 本文分享一些训练VLM的经验。如果可以用prompt解决，尽量用prompt解决，因为训练（精调）的模型往往通用能力会下降，训练和长期部署成本都比较高，这个成本也包括时间成本。基于prompt确实不行（情况包括格式输出不稳定、格式输出基本不对、任务不完全会、任务完全不会等情况，难度逐渐加大），选择上SFT微调。业务场景基本用不到强化学习，强化解决的是最后一公里的问题，可以理解为有两种非常接近的输出（这两种输出都非常接近目标输出，此时已经解决了90%的问题），强化学习会对相同的输入，打压其中一种不希望的输出，同时增强另一种更接近目标的希望的输出（从DPO loss就可以看出）。强化是用来应对细微输出差异的，并且业务场景优先用DPO，DPO只需要pair对数据，更好构 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

人力资源管理 · 人正常要睡几个小时？你休息好了吗? 1岁能睡18个小时 2岁能睡13-14个小时 3岁能睡12个小时 4-7岁能睡11-12个小时 8-12岁能睡10个小时 13-18岁能睡9个小时 18-40....

昨天

层楼 · 未科反转了！ “低总价”改善四房走俏，二手大户型更好卖

3 天前

财宝宝 · 你直接说没钱就行了，还扯那么多废话。我家婆姨，我认识她几十年，从-20250411205039

3 天前

中国建筑 · 新建好房子：“高性能+好服务”回应人民群众“美好生活”需求丨中国建筑首批产业化推广产品①

3 天前

HR新逻辑 · 当了leader才发现，公司最想裁掉的，不是上班总迟到的，也不是下班搞失联的，而是经常把这4句话挂在嘴边的…

3 天前

国匠城 · 重庆市：发布《重庆市详细规划编制审批管理办法（试行）（征求意见稿）》

10 月前

跨境黑马 · 一天卖出15000单，这个小玩意在TikTok上卖爆了

9 月前

新闻株洲 · 省级名单公布！株洲这些文旅项目上榜！

6 月前

股痴流沙河 · 心动

4 月前

SEO实战营 · 蜘蛛池实战秘籍：90%的SEO核心藏在暗处！

3 周前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号