文章预览
作者:王焱 文章链接:https://zhuanlan.zhihu.com/p/106810758 1 背景 BERT的魅力无需过多赘述,然而其最大痛点在于难以投入实际应用。我们不禁要问:BERT如此庞大的参数量是否都被合理利用?是否存在精简参数的可能性,仍能保持相似的性能表现? 以NLP领域常用的三大特征抽取器CNN、RNN和Transformer为例,尽管对LSTM的门控逻辑或Transformer的注意力机制在逻辑层面上确信其有效性(it should be work),但数学上尚缺乏坚实的理论依据来证明这些模型已达到参数拟合的最优状态。 因此,我们可以自信地认为:我们确实能够使用更少的参数达到与现有模型相似的效果。业界在模型压缩方面的主流手段包括剪枝、权重分解、参数共享以及量化等技术,正如本文所引用的文章标题所示(参见https://zhuanlan.zhihu.com/p/93728391)。 然而,从工业界与学术界的反馈来看,针对BERT
………………………………