主要观点总结
英伟达团队提出了全新的神经网络架构——归一化Transformer(nGPT),基于超球面进行表示学习。相较于传统Transformer架构,nGPT将LLM训练速度提升高达20倍,并且保持了原有精度。文章详细描述了nGPT架构的改进和实验验证,包括上下文长度对训练速度的影响以及相较于传统GPT的优势。
关键观点总结
关键观点1: nGPT架构的主要特点
nGPT在超球面上进行优化,将所有向量归一化为单位范数。输入token在超球面表面上移动,每一层都通过「位移」来贡献最终的输出预测。实验证明,nGPT达到相同精度所需的训练步骤减少了4-20倍,具体取决于序列长度。
关键观点2: nGPT相较于传统Transformer的优势
nGPT在训练稳定性、推理成本、上下文长度、鲁棒性等方面进行了改进。主要改进包括嵌入层归一化、层/块归一化、自注意力块和MLP块的改进,以及引入了一些可学习的缩放参数。
关键观点3: 实验验证
研究人员在OpenWebText数据集上训练了基础Transformer和nGPT,并在一系列标准下游任务上进行了评估。实验表明,在迭代次数和使用token数量方面,nGPT实现了显著的加速。在上下文长度和参数规模方面,nGPT也表现出明显的优势。
文章预览
新智元报道 编辑:桃子 LRS 【新智元导读】 LLM训练速度还可以再飙升20倍!英伟达团队祭出全新架构归一化Transformer(nGPT),上下文越长,训练速度越快,还能维持原有精度。 AI的未来,或许就此改写...... 最近,英伟达团队抛出的一枚重磅炸弹,提出了全新神经网络架构——归一化Transformer(nGPT),基于超球面(hypersphere)进行表示学习。 相较于Transformer架构本身,nGPT直接将LLM训练速度提升至高20倍,而且还保持了原有精度。 也就意味着,原本需要一个月完成的训练,在未来可能只需1-2天的时间就能搞定。 无疑为通向AGI终极目标,注入了一针强心剂! 论文地址:https://arxiv.org/pdf/2410.01131 在nGPT中,所有的向量(嵌入、MLP、注意力矩阵、隐藏状态),都被归一化为单位范数(unit norm)。 输入后的token在超球面表面上移动,每一层都通过「位移
………………………………