一个百度人的技术提升之路,为您提供一系列计算机视觉,自然语言处理和推荐系统等高质量技术文章,让您的碎片化时间最大价值化
目录
相关文章推荐
今天看啥  ›  专栏  ›  深度学习基础与进阶

字节团队提出 SuperClass 告别CLIP ,革新图像文本预训练分类技术 !

深度学习基础与进阶  · 公众号  ·  · 2024-12-02 18:50
    

文章预览

作者提出了SuperClass,一种用于图像文本数据上的视觉语言预训练的超级简单的分类方法。与对比学习的CLIP[57]不同,SuperClass直接利用分词的原始文本作为监督分类标签,无需额外的文本过滤或选择。 由于不存在文本编码作为对比目标,SuperClass不需要文本编码器,也不需要像CLIP[57]那样保持大的批量大小。 SuperClass在各种下游任务上表现出色,包括经典计算机视觉基准测试和视觉语言下游任务。 作者进一步探索了SuperClass在模型大小、训练长度或数据大小上的扩展行为,并报告了令人鼓舞的结果和与CLIP的比较。 1 Introduction 近年来,利用直接利用网络级图像文本数据集的预训练方法已经改变了计算机视觉领域。其中,对比语言图像预训练(CLIP)[57]获得了日益增长的普及度,并成为主导方法,原因如下。 首先,它作为行业的标准预训练模型,可以实 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览