训练只靠视觉数据！更小的视觉大模型DeLVM：数据高效的自回归视觉模型训练

arXiv每日学术速递 · 公众号 · · 2024-05-27 12:07

文章预览

极市导读本文提出了一种只在序列化的视觉数据上面训练，不使用文本数据，且数据高效的大视觉模型。本文目录 1 数据高效的自回归视觉模型训练 (来自悉尼大学，北京理工大学，北京华为诺亚方舟实验室) 1 DeLVM 论文解读 1.1 LVM 的相关背景 1.2 LVM 训练数据的不平衡和参数量冗余 1.3 使用数据增强策略训练 LVM 1.4 使用知识蒸馏策略训练 LVM 太长不看版本文提出了一种只在序列化的视觉数据上面训练，不使用文本数据，且数据高效的大视觉模型，属于大视觉模型的行列。这类模型的特点是训练好之后，无需微调，即可迁移到多种不同的下游任务上面。当前的代表性工作就是大视觉模型 (Large Visual Model, LVM)[1]。LVM 依赖较大的模型尺寸 (通常 3B 以上)，以及较大的训练数据 (约 400B tokens)。本文提出数据高效的大视觉模型 (Data Efficient Large Visual Model, De ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博