文章预览
视觉 Transformer (ViTs)在各种边缘应用中的普及,包括个性化学习,创造了对设备端微调的需求。然而,在边缘设备有限的内存和计算能力下进行训练仍然是一个重大挑战。特别是,训练所需的内存远高于推理所需的内存,这主要是因为需要存储所有层的激活值以计算进行权重更新的梯度。先前的研究通过冻结权重训练以及以压缩格式存储激活值来减少这一内存需求。然而,这些方法被认为效率低下,因为它们无法提供训练或推理速度的提升。 在本文中,作者首先调查了旨在减少内存和计算需求现有设备端训练方法的局限性。 然后作者提出了块选择性重编程(BSR),在其中作者仅对预训练模型的全部块中的一小部分进行微调,并根据冻结层的自注意力分数选择性地丢弃标记。 为了展示BSR的有效性,作者对ViT-B和DeiT-S模型在五个不同的数据集上进行
………………………………