注册登录

专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

小叮读报 · 建了个书法交流群，40岁以上中老年免费学隶书 ... · 昨天

化妆品观察品观 · 首个！国货品牌的敏感肌基础研究成果跻身国际前沿 · 昨天

化妆品观察品观 · 美妆原料领域又现数千万元融资 · 2 天前

化妆品观察品观 · 美妆原料领域又现数千万元融资 · 2 天前

河北音乐广播 · 宠粉直降！雅诗兰黛小棕瓶眼霜买一送一，299 ... · 3 天前

河北音乐广播 · 宠粉直降！雅诗兰黛小棕瓶眼霜买一送一，299 ... · 3 天前

今天看啥 › 专栏 › FightingCV

BLIP：用于统一视觉语言理解和生成的引导语言图像预训练

FightingCV · 公众号 · · 2024-10-23 09:00

文章预览

摘要视觉语言预训练 (VLP) 提高了许多视觉语言任务的性能。然而，大多数现有的预训练模型只擅长理解型任务或生成型任务。此外，性能提升主要通过扩大从网络收集的带有噪声的图像文本对数据集来实现，这是一种次优的监督来源。在本文中，我们提出了 BLIP，一个新的 VLP 框架，可以灵活地迁移到视觉语言理解和生成任务。 BLIP 通过对标题进行自举来有效地利用噪声网络数据，其中标题生成器生成合成标题，过滤器删除噪声标题。我们在广泛的视觉语言任务上取得了最先进的结果，例如图像文本检索（平均召回率@1 提高了 2.7%），图像字幕（CIDEr 提高了 2.8%），以及 VQA（VQA 得分提高了 1.6%）。 BLIP 在以零样本方式直接迁移到视频语言任务时也表现出强大的泛化能力。代码、模型和数据集已发布。视觉语言 https://github.com/salesforce/BL ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

小叮读报 · 建了个书法交流群，40岁以上中老年免费学隶书、楷书、行书，不限基础，名额有限，速进！

昨天

化妆品观察品观 · 首个！国货品牌的敏感肌基础研究成果跻身国际前沿

昨天

化妆品观察品观 · 美妆原料领域又现数千万元融资

2 天前

化妆品观察品观 · 美妆原料领域又现数千万元融资

2 天前

河北音乐广播 · 宠粉直降！雅诗兰黛小棕瓶眼霜买一送一，299元到手2瓶！！自用送人都合适~

3 天前

河北音乐广播 · 宠粉直降！雅诗兰黛小棕瓶眼霜买一送一，299元到手2瓶！！自用送人都合适~

3 天前

财宝宝 · 我家泼妇是怎么买玉的？就在内环线买。有一天，延-20240702181720

8 月前

公考齐麟 · 【高频易错题精选002】联考常考某某率

8 月前

整点财经 · “黑马奔北坡”主图指标、选股指标，黑马妖股最佳进场点。

7 月前

细胞基因研究圈 · 罗氏下注高达10亿美元扩大与Dyno的基因治疗传递协议

4 月前

NXTV都市阳光 · 最新 | 这些在银川建设的项目，你最期待哪一个？

12 小时前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号