专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

英伟达nGPT重塑Transformer，AI训练速度暴增20倍！文本越长，加速越快

新智元 · 公众号 · AI · 2024-10-20 12:27

主要观点总结

英伟达团队提出了全新的神经网络架构——归一化Transformer（nGPT），基于超球面进行表示学习。相较于传统Transformer架构，nGPT将LLM训练速度提升高达20倍，并且保持了原有精度。文章详细描述了nGPT架构的改进和实验验证，包括上下文长度对训练速度的影响以及相较于传统GPT的优势。

关键观点总结

关键观点1: nGPT架构的主要特点

nGPT在超球面上进行优化，将所有向量归一化为单位范数。输入token在超球面表面上移动，每一层都通过「位移」来贡献最终的输出预测。实验证明，nGPT达到相同精度所需的训练步骤减少了4-20倍，具体取决于序列长度。

关键观点2: nGPT相较于传统Transformer的优势

nGPT在训练稳定性、推理成本、上下文长度、鲁棒性等方面进行了改进。主要改进包括嵌入层归一化、层/块归一化、自注意力块和MLP块的改进，以及引入了一些可学习的缩放参数。

关键观点3: 实验验证

研究人员在OpenWebText数据集上训练了基础Transformer和nGPT，并在一系列标准下游任务上进行了评估。实验表明，在迭代次数和使用token数量方面，nGPT实现了显著的加速。在上下文长度和参数规模方面，nGPT也表现出明显的优势。

文章预览

新智元报道编辑：桃子 LRS 【新智元导读】 LLM训练速度还可以再飙升20倍！英伟达团队祭出全新架构归一化Transformer（nGPT），上下文越长，训练速度越快，还能维持原有精度。 AI的未来，或许就此改写...... 最近，英伟达团队抛出的一枚重磅炸弹，提出了全新神经网络架构——归一化Transformer（nGPT），基于超球面（hypersphere）进行表示学习。相较于Transformer架构本身，nGPT直接将LLM训练速度提升至高20倍，而且还保持了原有精度。也就意味着，原本需要一个月完成的训练，在未来可能只需1-2天的时间就能搞定。无疑为通向AGI终极目标，注入了一针强心剂！论文地址：https://arxiv.org/pdf/2410.01131 在nGPT中，所有的向量（嵌入、MLP、注意力矩阵、隐藏状态），都被归一化为单位范数（unit norm）。输入后的token在超球面表面上移动，每一层都通过「位移 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博