专栏名称: 机器学习初学者
号主黄博Github全球排名前90,3.6万Star!致力于为初学者提供学习路线和基础资料,公众号可以当作随身小抄,文章很全,建议收藏!点击菜单可以进入学习!
目录
相关文章推荐
低维 昂维  ·  复旦大学Nat. ... ·  3 天前  
低维 昂维  ·  复旦大学Nat. ... ·  3 天前  
今天看啥  ›  专栏  ›  机器学习初学者

【深度学习】知识蒸馏:如何用一个神经网络训练另一个神经网络

机器学习初学者  · 公众号  ·  · 2024-08-23 12:00

文章预览

仅作学术分享,不代表本公众号立场,侵权联系删除 转载于: 深度学习这件小事 如果你曾经用神经网络来解决一个复杂的问题,你就会知道它们的尺寸可能非常巨大,包含数百万个参数。例如著名的BERT模型约有1亿1千万参数。 为了说明这一点,参见下图中的NLP中最常见架构的参数数量。 各种模型结构的参数数量 在Kaggle竞赛中,胜出的模型通常是由几个模型组成的集合。尽管它们在精确度上可以大大超过简单模型,但其巨大的计算成本使它们在实际应用中完全无法使用。 有没有什么方法可以在不扩展硬件的情况下利用这些强大但庞大的模型来训练最先进的模型? 目前,有三种方法可以压缩神经网络,同时保持预测性能: 权值裁剪 量化 知识蒸馏 在这篇文章中,我的目标是向你介绍“知识蒸馏”的基本原理,这是一个令人难以置信的令人兴奋的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览