无文本编码器仍能媲美CLIP！豆包大模型团队首创SuperClass模型

字节跳动技术团队 · 公众号 · AI 科技自媒体 · 2024-11-21 12:00

主要观点总结

本文介绍了字节跳动豆包大模型团队提出的SuperClass预训练方法，该方法舍弃了文本编码器，直接使用原始文本的分词作为多分类标签进行预训练。实验结果表明，SuperClass在多种纯视觉任务和视觉语言多模态下游任务上表现出色，并且具有与CLIP相当的扩展性。该方法解决了CLIP高计算量的问题，节省了显存使用并加速了训练。此外，SuperClass还展示了更好的视觉表征能力、跨模态能力和可扩展性。

关键观点总结

关键观点1: SuperClass方法简介

字节跳动豆包大模型团队提出一种全新的多分类方法SuperClass，无需文本编码器和解码器，直接使用原始文本进行高效训练。

关键观点2: SuperClass的优势

SuperClass在多种任务上表现出色，具有简单的实现原理、更高的效率和良好的模型与数据扩展性。它解决了CLIP高计算量的问题，节省了显存使用并加速了训练。

关键观点3: SuperClass的实验结果

实验结果表明，SuperClass在各种纯视觉场景和视觉-语言多模态场景下均优于CLIP。与CLIP相比，SuperClass在ImageNet linear probing分类上的精度高出1.1%。此外，在跨模态能力和可扩展性方面，SuperClass也取得了更好的结果。

关键观点4: 未来展望

团队将继续推进图像文本预训练技术的迭代，基于文本顺序信息训练更强大的视觉模型，以更好地服务于视觉和多模态相关的任务。

文章预览

近日，字节跳动豆包大模型团队提出 SuperClass ，一个超级简单且高效的预训练方法。该方法首次舍弃文本编码器，直接使用原始文本的分词作为多分类标签，无需额外的文本过滤或筛选，比 CLIP 具有更高的训练效率。实验结果表明， SuperClass 在多种纯视觉任务和视觉语言多模态下游任务上表现出色，并且在模型大小和数据集大小方面具备与 CLIP 相同或更优的 Scalability 。本文将介绍 SuperClass 的实现原理、技术亮点及实验结果。 CLIP，可谓 AI 大模型中的“眼睛”。该模型通过将图像与文本对齐，实现了图像与语言之间的理解与关联。近些年来，CLIP 被广泛应用于视觉理解、图像问答、机器人/具身智能等多个领域。但 CLIP 自身结构对计算量的高要求，限制其进一步应用与发展。字节跳动豆包大模型视觉基础研究团队于近日公布最新成果 SuperClass 。该 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博