专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

小模型崛起！Llama 3.1 8B参数减半性能更强，英伟达把剪枝和蒸馏玩明白了

PaperWeekly · 公众号 · 科研 · 2024-08-17 12:50

文章预览

©作者 | 杜伟、陈陈、泽南来源 | 机器之心上个月，Meta 发布了 Llama 3.1 系列模型，其中包括 Meta 迄今为止最大的 405B 模型，以及两个较小的模型，参数量分别为 700 亿和 80 亿。 Llama 3.1 被认为是引领了开源新时代。然而，新一代的模型虽然性能强大，但部署时仍需要大量计算资源。因此，业界出现了另一种趋势，即开发小型语言模型 (SLM)，这种模型在许多语言任务中表现足够出色，部署起来也非常便宜。最近，英伟达研究表明，结构化权重剪枝与知识蒸馏相结合，可以从初始较大的模型中逐步获得较小的语言模型。 ▲ 图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 也点赞转帖了该研究经过剪枝和蒸馏，英伟达研究团队将 Llama 3.1 8B 提炼为 Llama-3.1-Minitron 4B 开源了出来。这是英伟达在 Llama 3.1 开源系列中的第一个作品。 Llama-3.1-Minitron 4B 的表现优于 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博