BERT模型蒸馏有哪些方法？

机器学习算法与自然语言处理 · 公众号 · · 2020-10-21 09:05

文章预览

公众号关注 “ ML_NLP ” 设为 “ 星标 ”，重磅干货，第一时间送达！转载自｜PaperWeekly ©PaperWeekly 原创 · 作者｜蔡杰学校｜北京大学硕士生研究方向｜问答系统我们都知道预训练模型的标准范式： pretrain-利用大量的未标记数据通过一些自监督的学习方式学习丰富的语义和句法知识。例如：Bert 的 MLM，NSP 等等。 finetune-将预训练过程中所学到的知识应用到子任务中，以达到优异的效果。预训练模型在各个领域虽然带来了巨大的提升，但是也有一些致命的问题：预训练模型高计算复杂度-不可能在实时系统中运行。大存储需求——预训练模型一般都很大，少则几百 M，大则几 G，无法在有限资源的设备上部署。所以模型压缩和加速技术的研究迫在眉睫！ Logit Distillatio ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

刀法研究所 · 雀巢前高管出任亿滋大中华区CMO；良品铺子净利润减少87.38%；江苏消保委建议微短剧建立老人防沉迷模式... | 刀法品牌热讯

昨天

刀法研究所 · 营销3.0——全域为赢，怎么赢？| 刀法年度公开日预告

3 天前

刀法研究所 · 元气森林自在水销售额预计破10亿元；拼多多二季度营收增长86%；珀莱雅上半年净利润增长40.48%... | 刀法品牌热讯

4 天前

刀法研究所 · 抖音卖货百亿，揭秘疯狂小杨哥和他背后的公司

4 天前

刀法研究所 · 用“穷鬼”思路做家居，源氏木语让买不起房的年轻人掏了10个亿

5 天前