关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
目录
相关文章推荐
郁见投资  ·  有惊无险 ·  2 天前  
郁见投资  ·  有惊无险 ·  2 天前  
调研心得  ·  当心,要变盘了! ·  4 天前  
今天看啥  ›  专栏  ›  深度图学习与大模型LLM

归一化Transformer(nGPT):(LLM)的训练速度提高多达20倍,同时保持原有的精度水平!

深度图学习与大模型LLM  · 公众号  ·  · 2024-10-25 09:37
    

文章预览

英伟达团队最近提出了一种新的神经网络架构—归一化Transformer(nGPT),这一创新在人工智能领域引起了巨大轰动。 论文出自NVIDIA核心研究团队,作者包括 : Ilya Loshchilov:深度学习优化领域专家,AdamW优化器的提出者 Cheng-Ping Hsieh:专注于模型架构设计 Simeng Sun:深度学习系统优化专家 Boris Ginsburg:NVIDIA AI研究主管 nGPT基于超球面进行表示学习,相较于传统的Transformer架构,它能够将大型语言模型 (LLM)的训练速度提高多达20倍,同时保持原有的精度水平。 这项技术的核心在于将所有向量,包括嵌入、MLP、注意力矩阵和隐藏状态,归一化为单位范数。这意味着在输入后的token在超球面表面上移动,每一层通过“位移“来贡献最终的输出预测。 实验结果表明,nGPT在达到相同精度所需的训练步骤上减少了4到20倍,这一加速效果随着上下文长度的增加而 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览