文章预览
新智元报道 近日,来自加州大学尔湾分校等机构的研究人员,利用延迟掩蔽、MoE、分层扩展等策略,将扩散模型的训练成本降到了1890美元。 训练一个扩散模型要多少钱?之前最便宜的方法(Wuerstchen)用了28400美元,而像Stable Diffusion这样的模型还要再贵一个数量级。 为了降低这庞大的开销,研究者们尝试了各种方案。 减少模型步数:原始的扩散模型从噪声到图像大约需要1000步,目前已经被减少到20步左右,甚至更少。 模型结构优化:扩散模型的基础模块由Unet(CNN)替换为DiT(Transformer),一些根据Transformer特性来做的优化也跟了上来。 比如跳过Attention中的一些冗余计算,比如pipeline。 而近日,来自加州大学尔湾分校等机构的研究人员,把「省钱」这个目标直接向前推进了一大步: 从头开始训练一个11.6亿参数的扩散模型,只需要1890美元! 论
………………………………