专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

为什么说大模型训练很难？

关于NLP那些你不知道的事 · 公众号 · · 2024-09-24 00:00

文章预览

为什么说大模型训练很难？作者：罗小黑链接：https://www.zhihu.com/question/498271491/answer/3338156041 来源：知乎问题背景为什么说大模型训练很难？自从Bert网络模型产数量超过3亿规模，当时候只是觉得性能好，没想到GPT系列出来后，GPT-3直接用170B规模的参数量模型精度碾压竞品。接着就是新一轮的竞争了，后面的事情就有点可怕了，Google推出万亿稀疏switch transformer，huawei推出2000亿稠密鹏程盘古大模型，微软推出Turing-NLG有1000亿参数，英伟达推出MegatronLM系列。大家都说大模型难，大模型训练除了集群调度麻烦，还难在哪里吗？思考之前做过一部分预训练的工作，训的模型是7B，13B大小，分享一下个人的感受首先是训练方面，这两个量级的模型训练起来其实和小模型差不多，参数设置上有两个地方需要注意：一个是学习率需要略小，在e-5这个量级就 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博