专栏名称: 机器学习算法与Python学习

作为沟通学习的平台，发布机器学习与数据挖掘、深度学习、Python实战的前沿与动态，欢迎机器学习爱好者的加入，希望帮助你在AI领域更好的发展，期待与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

相关文章推荐

山西省人民政府 · 互动海报丨“晋”非昔比！动动手指，一起为山西 ... · 3 天前

南方能源观察 · 插柳踏青，思故惜今 · 3 天前

福建发改委 · 年输气能力超10亿立方米！闽粤天然气管网联通 ... · 3 天前

南方能源观察 · 绿电直连探路，价格机制将如何设计？ · 3 天前

光伏們 · 天津：重点支持落实消纳的风、光项目，确保应并尽并 · 4 天前

今天看啥 › 专栏 › 机器学习算法与Python学习

英伟达神操作！剪枝、蒸馏让 Llama 3.1 8B参数减半，同尺寸最强！

机器学习算法与Python学习 · 公众号 · · 2024-08-16 15:27

文章预览

机器之心报道小模型崛起了。上个月，Meta 发布了 Llama 3.1 系列模型，其中包括 Meta 迄今为止最大的 405B 模型，以及两个较小的模型，参数量分别为 700 亿和 80 亿。 Llama 3.1 被认为是引领了开源新时代。然而，新一代的模型虽然性能强大，但部署时仍需要大量计算资源。最近，英伟达研究表明，结构化权重剪枝与知识蒸馏相结合，可以从初始较大的模型中逐步获得较小的语言模型。图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 也点赞转帖了该研究。经过剪枝和蒸馏，英伟达研究团队将 Llama 3.1 8B 提炼为 Llama-3.1-Minitron 4B 开源了出来。这是英伟达在 Llama 3.1 开源系列中的第一个作品。 Llama-3.1-Minitron 4B 的表现优于类似大小的最先进的开源模型，包括 Minitron 4B、Phi-2 2.7B、Gemma2 2.6B 和 Qwen2-1.5B。这项研究的相关论文早在上个月已经放出了。论文链接： https://w ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

山西省人民政府 · 互动海报丨“晋”非昔比！动动手指，一起为山西能源革命助力！

3 天前

山西省人民政府 · 互动海报丨“晋”非昔比！动动手指，一起为山西能源革命助力！

3 天前

南方能源观察 · 插柳踏青，思故惜今

3 天前

福建发改委 · 年输气能力超10亿立方米！闽粤天然气管网联通工程开工

3 天前

南方能源观察 · 绿电直连探路，价格机制将如何设计？

3 天前

光伏們 · 天津：重点支持落实消纳的风、光项目，确保应并尽并

4 天前

光伏們 · 天津：重点支持落实消纳的风、光项目，确保应并尽并

4 天前

红秀GRAZIA · 叠出新意，领出温暖～你的衣橱准备好了吗？

6 月前

清风春城 · 春城热线 | 明天上午9:00昆明市人力资源和社会保障局将做客直播节目《春城热线》

1 月前

物道 · 听劝！白茶这样喝，错不了

1 月前

河北新闻广播 · 小到中雪+大雪！河北这些地方，正在入春！

3 周前