专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
今天看啥  ›  专栏  ›  arXiv每日学术速递

南加州大学 & 英特尔BSR 方法革新边缘设备上的 ViTs 训练,高效微调与标记丢弃结合,训练时间缩短2.5倍 !

arXiv每日学术速递  · 公众号  ·  · 2024-07-26 13:24

文章预览

视觉 Transformer (ViTs)在各种边缘应用中的普及,包括个性化学习,创造了对设备端微调的需求。然而,在边缘设备有限的内存和计算能力下进行训练仍然是一个重大挑战。特别是,训练所需的内存远高于推理所需的内存,这主要是因为需要存储所有层的激活值以计算进行权重更新的梯度。先前的研究通过冻结权重训练以及以压缩格式存储激活值来减少这一内存需求。然而,这些方法被认为效率低下,因为它们无法提供训练或推理速度的提升。 在本文中,作者首先调查了旨在减少内存和计算需求现有设备端训练方法的局限性。 然后作者提出了块选择性重编程(BSR),在其中作者仅对预训练模型的全部块中的一小部分进行微调,并根据冻结层的自注意力分数选择性地丢弃标记。 为了展示BSR的有效性,作者对ViT-B和DeiT-S模型在五个不同的数据集上进行 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览