专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

Google Deepmind提出SigLIP,用于语言图像预训练的 Sigmoid 损失

FightingCV  · 公众号  ·  · 2024-10-13 09:00

文章预览

摘要 我们提出了一种用于图像文本预训练的简单成对 sigmoid 损失。  与使用 softmax 归一化的标准对比学习不同,sigmoid 损失仅作用于图像文本对,并且不需要全局视角来查看成对相似性以进行归一化。  sigmoid 损失同时允许进一步扩大批次大小,同时在较小的批次大小下也能表现更好。  仅使用四个 TPUv4 芯片,我们就可以在   批次大小下训练 Base CLIP 模型,并在   批次大小下训练 Large LiT 模型,后者在两天内实现了   ImageNet 零样本精度。  批次大小与损失的这种解耦进一步允许我们研究示例与对以及负例与正例比率的影响。  最后,我们将批次大小推向极致,达到百万级,发现批次大小增加带来的益处迅速减少,而   的更合理的批次大小就足够了。  我们希望我们的研究能激发人们进一步探索如何提高语言图像预训练的质量和效率。 1.   简介 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览