文章预览
基于transformer的网络在深度学习中是一股强大的力量。 自transformer发明以来,在许多领域如神经机器翻译、语言理解和图像处理都产生了巨大影响。 然而,transformer在感知识别处理的性能伴随着高昂的计算和内存成本,这成为基于transformer应用高效部署的重大障碍。 已有学者提出了一种在 FPGA 上的密集脉动阵列加速器以及一种分区方案,以实现transformer的低延迟推理。此外,利用基于块循环矩阵的权重表示来对transformer的加速运算。然而,很多先前由于transformer在高并行任务计算特性使得其无论是在计算资源需求还是运行功耗都很高,很难满足transformer高效推理的需求。 本文介绍一篇经典的论文,通过充分利用稀疏模式,在 FPGA 上提出了一种高效的稀疏transformer加速器,即 STA。它减少了transformer的操作次数和内存大小,减轻了计算和存储的负担。因此
………………………………