文章预览
原文: https://arxiv.org/abs/2411.04330 前置知识 : scaling law: Training Compute-Optimal Large Language Models(Chinchilla scaling law) 太长不看版: 个人讨厌晦涩难懂+无法应用于实际场景的'装逼结论',因此先按照自己的理解帮大家rephrase一下论文的主要发现(in plain language): 首先,这是一篇研究精度(precision)、参数量(parameters)和训练数据量(tokens)之间关系的重要论文。 1. 关于 后训练量化 (Post-Training Quantization, PTQ): 1.1 基本概念 指的是pretrain以较高精度(bf16)进行,结束后再量化到更低精度(如int4) 1.2 结论1 模型预训练的trained_token/parameter比率越高,预训练结束后,使用PTQ带来的性能下降就越大。这里作者没写明白有误导性!!! 实际上这个结论指的是: 我们都知道PTQ一定会带来性能下降(PTQ后,valid loss相比pretrain之后会上升),这个下降可以用 论文提出了预测这个下降值
………………………………