注册登录

专栏名称: 深度图学习与大模型LLM

关注图网络、图表示学习，最近顶会顶刊动态以及机器学习基本方法，包括无监督学习、半监督学习、弱监督学习、元学习等

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

郁见投资 · 有惊无险 · 2 天前

郁见投资 · 有惊无险 · 2 天前

调研心得 · 当心，要变盘了！ · 4 天前

道与术抓妖 · 今天的冰点不算拐点的冰点——12.17 · 4 天前

道与术抓妖 · 今天的冰点不算拐点的冰点——12.17 · 4 天前

今天看啥 › 专栏 › 深度图学习与大模型LLM

归一化Transformer（nGPT）：（LLM）的训练速度提高多达20倍，同时保持原有的精度水平！

深度图学习与大模型LLM · 公众号 · · 2024-10-25 09:37

文章预览

英伟达团队最近提出了一种新的神经网络架构—归一化Transformer（nGPT），这一创新在人工智能领域引起了巨大轰动。论文出自NVIDIA核心研究团队，作者包括： Ilya Loshchilov：深度学习优化领域专家，AdamW优化器的提出者 Cheng-Ping Hsieh：专注于模型架构设计 Simeng Sun：深度学习系统优化专家 Boris Ginsburg：NVIDIA AI研究主管 nGPT基于超球面进行表示学习，相较于传统的Transformer架构，它能够将大型语言模型（LLM）的训练速度提高多达20倍，同时保持原有的精度水平。这项技术的核心在于将所有向量，包括嵌入、MLP、注意力矩阵和隐藏状态，归一化为单位范数。这意味着在输入后的token在超球面表面上移动，每一层通过“位移“来贡献最终的输出预测。实验结果表明，nGPT在达到相同精度所需的训练步骤上减少了4到20倍，这一加速效果随着上下文长度的增加而 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

郁见投资 · 有惊无险

2 天前

郁见投资 · 有惊无险

2 天前

调研心得 · 当心，要变盘了！

4 天前

道与术抓妖 · 今天的冰点不算拐点的冰点——12.17

4 天前

道与术抓妖 · 今天的冰点不算拐点的冰点——12.17

4 天前

富士康成都 · 假期预告丨端午假期出游指南（四川版）

6 月前

迪拜人 · 阿联酋一英籍老师受贿后帮学生伪造成绩，被罚款、监禁并驱逐出境

2 月前

广州本地宝 · 微信新功能上线！

2 月前

gooood谷德设计网 · 陶磊新作｜秦皇岛如是海·尚空间

6 天前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号