专栏名称: GiantPandaLLM
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
今天看啥  ›  专栏  ›  GiantPandaLLM

AwesomeCLIP---100+篇CLIP相关工作整理

GiantPandaLLM  · 公众号  · 3D  · 2024-11-20 17:35
    

主要观点总结

近年来,基于CLIP的研究不断涌现,涵盖了CLIP的改进、分析、应用等多个领域。这些研究包括CLIP的改进方式、如何利用CLIP进行视频和图像识别、以及如何利用CLIP进行文本到图像的生成等。此外,还有研究探索了CLIP在零样本学习、分割、检测等任务上的应用,并尝试解决CLIP在特定任务上的局限性,如domain shift问题。同时,一些研究也探索了如何利用CLIP进行图像质量评估、3D识别等任务。这些研究不仅展示了CLIP的强大能力,也为其在更多领域的应用提供了可能。

关键观点总结

关键观点1: CLIP的改进方式

研究提出了多种改进CLIP的方法,如增加监督、设计新的损失函数、调整模型结构等,以提高CLIP的性能和泛化能力。

关键观点2: CLIP在视频和图像识别中的应用

研究探索了如何利用CLIP进行视频和图像识别,包括利用CLIP的zero-shot能力进行视频分类、动作识别等。

关键观点3: CLIP在文本到图像生成中的应用

研究利用CLIP的多模态能力进行文本到图像的生成,包括文生图、草图生成等。

关键观点4: 解决CLIP在特定任务上的局限性

研究探讨了如何解决CLIP在特定任务上的局限性,如domain shift问题,提出了一些策略和方法来提高CLIP在这些任务上的性能。

关键观点5: 探索CLIP在其他任务上的应用

研究探索了CLIP在图像质量评估、3D识别等任务上的应用,展示了CLIP在这些领域的潜力。


文章预览

导读 本文汇总了近年来基于CLIP的相关研究,涉及CLIP的改进、分析、应用等多个领域。对于每项工作,附带了论文和代码链接。 项目地址: https://github.com/TalkUHulk/Awesome-CLIP Train 2022 题目:SUPERVISION EXISTS EVERYWHERE: A DATA EFFICIENT CONTRASTIVE LANGUAGE-IMAGE PRE-TRAINING PARADIGM 链接 :https://arxiv.org/pdf/2110.05208 代码 :https://github.com/Sense-GVT/DeCLIP 本文提出一种创新的CLIP训练方式--Data efficient CLIP (DeCLIP),来解决CLIP训练对文本-图像pair数据量的需求.  核心思想就是增加对图像-文本对的supervision(增加更多约束),更有效地学习通用的视觉特征. 作者增加了以下监督:1.每个模态内的self-supervision;2.跨模态的多视图supervision(数据增强后的view);3.来自其他相似对的最近邻supervision.  实验证明,与base CLIP相比,更少的训练数据取得了更高的表现.   🧟‍♂️:Nearest-Neighbor Supervision处设计了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览