LongCLIP：解锁CLIP的长文本能力

自动驾驶之心 · 公众号 · · 2024-10-21 07:30

文章预览

作者 | 迪西编辑 | 自动驾驶之心原文链接：https://zhuanlan.zhihu.com/p/1640361503 点击下方卡片，关注“ 自动驾驶之心 ”公众号戳我-> 领取自动驾驶近15个方向学习路线 >> 点击进入→ 自动驾驶之心『大语言模型』技术交流群本文只做学术分享，如有侵权，联系删文研究背景研究问题：这篇文章要解决的问题是CLIP模型在处理长文本输入时的局限性。CLIP模型的文本输入长度被限制在77个标记以内，实际有效长度甚至小于20个标记，这限制了其在处理详细描述时的能力，特别是在图像检索和文本到图像生成任务中。研究难点：该问题的研究难点包括：简单地微调CLIP会导致其性能显著下降；用支持更长上下文的语言模型替换文本编码器需要大量数据预训练，成本高昂。相关工作：CLIP模型基于对比学习，广泛应用于零样本分类、文本图像检 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博