专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
目录
相关文章推荐
今天看啥  ›  专栏  ›  大模型智能

算力直降97%,GPT-3存储只用20MB?!这篇直接在1.58-bit下训练模型的新论文火了

大模型智能  · 公众号  ·  · 2024-12-30 00:00
    

文章预览

大模型智能|分享 来源 | 量子位 作者 | 一水 好家伙!1750亿参数的GPT-3只需20MB存储空间了?! 基于1.58-bit训练,在不损失精度的情况下,大幅节省算力(↓97%)和存储(↓90%)。 最近,从事机器学习的Will小哥发了一篇论文,直接引来几十万网友or同行围观。 他提出了一项名为“noise_step”的新技术,允许模型直接在1.58-bit低精度下训练,且无需反向传播或动量(Momentum)加速,从而降低算力和存储消耗。 对此,网友们也纷纷发来祝贺,表示很高兴看到模型越来越具有性价比。 话不多说,来看论文具体内容。 01 反向传播不需要了 简单说,noise_step的目标是通过降低模型训练的精度要求,来减少算力和存储消耗。 一开始,作者提到前人研究已经表明,大语言模型(LLM)的推理可以在1.58-bit精度下进行,且不会有任何性能损失。 比如下面这篇论文,有 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览