文章预览
英伟达团队最近提出了一种新的神经网络架构—归一化Transformer(nGPT),这一创新在人工智能领域引起了巨大轰动。 论文出自NVIDIA核心研究团队,作者包括 : Ilya Loshchilov:深度学习优化领域专家,AdamW优化器的提出者 Cheng-Ping Hsieh:专注于模型架构设计 Simeng Sun:深度学习系统优化专家 Boris Ginsburg:NVIDIA AI研究主管 nGPT基于超球面进行表示学习,相较于传统的Transformer架构,它能够将大型语言模型 (LLM)的训练速度提高多达20倍,同时保持原有的精度水平。 这项技术的核心在于将所有向量,包括嵌入、MLP、注意力矩阵和隐藏状态,归一化为单位范数。这意味着在输入后的token在超球面表面上移动,每一层通过“位移“来贡献最终的输出预测。 实验结果表明,nGPT在达到相同精度所需的训练步骤上减少了4到20倍,这一加速效果随着上下文长度的增加而
………………………………