文章预览
大模型智能|分享 来源 | 量子位 作者 | 一水 好家伙!1750亿参数的GPT-3只需20MB存储空间了?! 基于1.58-bit训练,在不损失精度的情况下,大幅节省算力(↓97%)和存储(↓90%)。 最近,从事机器学习的Will小哥发了一篇论文,直接引来几十万网友or同行围观。 他提出了一项名为“noise_step”的新技术,允许模型直接在1.58-bit低精度下训练,且无需反向传播或动量(Momentum)加速,从而降低算力和存储消耗。 对此,网友们也纷纷发来祝贺,表示很高兴看到模型越来越具有性价比。 话不多说,来看论文具体内容。 01 反向传播不需要了 简单说,noise_step的目标是通过降低模型训练的精度要求,来减少算力和存储消耗。 一开始,作者提到前人研究已经表明,大语言模型(LLM)的推理可以在1.58-bit精度下进行,且不会有任何性能损失。 比如下面这篇论文,有
………………………………