专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

重新回顾：BERT知识蒸馏

AINLP · 公众号 · · 2024-05-27 19:36

文章预览

作者：王焱文章链接：https://zhuanlan.zhihu.com/p/106810758 1 背景 BERT的魅力无需过多赘述，然而其最大痛点在于难以投入实际应用。我们不禁要问：BERT如此庞大的参数量是否都被合理利用？是否存在精简参数的可能性，仍能保持相似的性能表现？以NLP领域常用的三大特征抽取器CNN、RNN和Transformer为例，尽管对LSTM的门控逻辑或Transformer的注意力机制在逻辑层面上确信其有效性（it should be work），但数学上尚缺乏坚实的理论依据来证明这些模型已达到参数拟合的最优状态。因此，我们可以自信地认为：我们确实能够使用更少的参数达到与现有模型相似的效果。业界在模型压缩方面的主流手段包括剪枝、权重分解、参数共享以及量化等技术，正如本文所引用的文章标题所示（参见https://zhuanlan.zhihu.com/p/93728391）。然而，从工业界与学术界的反馈来看，针对BERT ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博