文章预览
2024-08-25 07:30
本条微博链接
为了了解如何将大型模型的知识提炼为较小的模型,我在 pytorch 中实现了它。 简单的笔记本代码、论文中的注释和下面的解释器。 👇 大纲: 1. 创建教师和学生模型的架构。 2. 训练教师模型 - 约 500 万个参数 3. 为了获得学生表现的基线,训练学生模型 - 约 12k 个参数 - 大小为 400 倍 4. 使用老师的软输出概率作为学生的指导,从老师那里提取知识 5.对优秀学生进行评价。 6. 有趣的是,比较一下
………………………………