主要观点总结
本文主要介绍了计算机视觉研究院在视觉转换器(ViT)模型方面的新技术,该技术在模型推理过程中实现高精度量化部署。文章探讨了ViT模型在实际应用场景中的挑战,包括模型实时推理能力和在不同部署场景中的速度要求。研究者发现LayerNorm输入的通道间变化和注意力图值的极端不均匀分布是导致模型量化误差的主要原因,并提出了新的量化方法来解决这些问题。通过结合这些方法,本文首次实现了全量化Vision Transformer的训练后量化。
关键观点总结
关键观点1: 视觉转换器(ViT)在实际应用场景中的挑战
模型实时推理能力和在不同部署场景中的速度要求成为ViT模型应用的主要挑战。
关键观点2: LayerNorm输入的通道间变化和注意力图值的极端不均匀分布的问题
这两个问题被认为是导致模型量化误差的主要原因。
关键观点3: 新的量化方法
研究者提出了Power-of-Two Factor(PTF)和Log Int Softmax(LIS)来分别解决LayerNorm的输入量化和Softmax的量化问题。这些方法降低了量化误差并提高了计算效率。
关键观点4: 实验与可视化
文章展示了在ImageNet数据集上与最先进的方法的top-1准确率比较,以及注意力图的可视化结果,以说明新量化方法的优势。
文章预览
点击蓝字 关注我们 关注并星标 从此不迷路 计算机视觉研究院 公众号ID | 计算机视觉研究院 学习群 | 扫码在主页获取加入方式 论文地址: https://arxiv.org/pdf/2111.13824.pdf 项目代码: https://github.com/megvii-research/FQ-ViT 计算机视觉研究院专栏 Column of Computer Vision Institute 将算法网络进行量化和模型转换可以显着降低模型推理的复杂性,并在实际部署中得到了广泛的应用。然而,大多数现有的量化方法主要是针对卷积神经网络开发的,并且在完全量化的vision Transformer上应用时会出现严重的掉点。今天我们就分享一个新技术,实现高精度量化的Vit部署。AI大模型落地使用离我们还远吗? 01 总 述 Transformer 是现在火热的AIGC预训练大模型的基础,而ViT(Vision Transformer)是真正意义上将自然语言处理领域的Transformer带到了视觉领域。从Transformer的发展历程就可以看出
………………………………