专栏名称: GiantPandaLLM

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

AwesomeCLIP---100+篇CLIP相关工作整理

GiantPandaLLM · 公众号 · 3D · 2024-11-20 17:35

主要观点总结

近年来，基于CLIP的研究不断涌现，涵盖了CLIP的改进、分析、应用等多个领域。这些研究包括CLIP的改进方式、如何利用CLIP进行视频和图像识别、以及如何利用CLIP进行文本到图像的生成等。此外，还有研究探索了CLIP在零样本学习、分割、检测等任务上的应用，并尝试解决CLIP在特定任务上的局限性，如domain shift问题。同时，一些研究也探索了如何利用CLIP进行图像质量评估、3D识别等任务。这些研究不仅展示了CLIP的强大能力，也为其在更多领域的应用提供了可能。

关键观点总结

关键观点1: CLIP的改进方式

研究提出了多种改进CLIP的方法，如增加监督、设计新的损失函数、调整模型结构等，以提高CLIP的性能和泛化能力。

关键观点2: CLIP在视频和图像识别中的应用

研究探索了如何利用CLIP进行视频和图像识别，包括利用CLIP的zero-shot能力进行视频分类、动作识别等。

关键观点3: CLIP在文本到图像生成中的应用

研究利用CLIP的多模态能力进行文本到图像的生成，包括文生图、草图生成等。

关键观点4: 解决CLIP在特定任务上的局限性

研究探讨了如何解决CLIP在特定任务上的局限性，如domain shift问题，提出了一些策略和方法来提高CLIP在这些任务上的性能。

关键观点5: 探索CLIP在其他任务上的应用

研究探索了CLIP在图像质量评估、3D识别等任务上的应用，展示了CLIP在这些领域的潜力。

文章预览

导读本文汇总了近年来基于CLIP的相关研究，涉及CLIP的改进、分析、应用等多个领域。对于每项工作，附带了论文和代码链接。项目地址: https://github.com/TalkUHulk/Awesome-CLIP Train 2022 题目:SUPERVISION EXISTS EVERYWHERE: A DATA EFFICIENT CONTRASTIVE LANGUAGE-IMAGE PRE-TRAINING PARADIGM 链接 :https://arxiv.org/pdf/2110.05208 代码 :https://github.com/Sense-GVT/DeCLIP 本文提出一种创新的CLIP训练方式--Data efficient CLIP (DeCLIP)，来解决CLIP训练对文本-图像pair数据量的需求. 核心思想就是增加对图像-文本对的supervision(增加更多约束)，更有效地学习通用的视觉特征. 作者增加了以下监督：1.每个模态内的self-supervision;2.跨模态的多视图supervision(数据增强后的view);3.来自其他相似对的最近邻supervision. 实验证明，与base CLIP相比，更少的训练数据取得了更高的表现. 🧟‍♂️:Nearest-Neighbor Supervision处设计了 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博