专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
目录
今天看啥  ›  专栏  ›  arXiv每日学术速递

训练只靠视觉数据!更小的视觉大模型DeLVM:数据高效的自回归视觉模型训练

arXiv每日学术速递  · 公众号  ·  · 2024-05-27 12:07
    

文章预览

极市导读   本文提出了一种只在序列化的视觉数据上面训练,不使用文本数据,且数据高效的大视觉模型。   本文目录 1 数据高效的自回归视觉模型训练 (来自悉尼大学,北京理工大学,北京华为诺亚方舟实验室) 1 DeLVM 论文解读 1.1 LVM 的相关背景 1.2 LVM 训练数据的不平衡和参数量冗余 1.3 使用数据增强策略训练 LVM 1.4 使用知识蒸馏策略训练 LVM 太长不看版 本文提出了一种只在序列化的视觉数据上面训练,不使用文本数据,且数据高效的大视觉模型,属于大视觉模型的行列。这类模型的特点是训练好之后,无需微调,即可迁移到多种不同的下游任务上面。当前的代表性工作就是大视觉模型 (Large Visual Model, LVM)[1]。LVM 依赖较大的模型尺寸 (通常 3B 以上),以及较大的训练数据 (约 400B tokens)。 本文提出 数据高效的大视觉模型 (Data Efficient Large Visual Model, De ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览