今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

BERT模型蒸馏有哪些方法?

机器学习算法与自然语言处理  · 公众号  ·  · 2020-10-21 09:05

文章预览

公众号关注 “ ML_NLP ” 设为 “ 星标 ”,重磅干货,第一时间送达! 转载自|PaperWeekly ©PaperWeekly 原创 · 作者|蔡杰 学校|北京大学硕士生 研究方向|问答系统 我们都知道预训练模型的标准范式: pretrain-利用大量的未标记数据通过一些自监督的学习方式学习丰富的语义和句法知识。例如:Bert 的 MLM,NSP 等等。 finetune-将预训练过程中所学到的知识应用到子任务中,以达到优异的效果。 预训练模型在各个领域虽然带来了巨大的提升,但是也有一些致命的问题: 预训练模型高计算复杂度-不可能在实时系统中运行。 大存储需求——预训练模型一般都很大,少则几百 M,大则几 G,无法在有限资源的设备上部署。 所以模型压缩和加速技术的研究迫在眉睫! Logit Distillatio ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览