整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)
目录
相关文章推荐
今天看啥  ›  专栏  ›  关于NLP那些你不知道的事

为什么说大模型训练很难?

关于NLP那些你不知道的事  · 公众号  ·  · 2024-09-24 00:00
    

文章预览

为什么说大模型训练很难? 作者:罗小黑 链接:https://www.zhihu.com/question/498271491/answer/3338156041 来源:知乎 问题背景 为什么说大模型训练很难? 自从Bert网络模型产数量超过3亿规模,当时候只是觉得性能好,没想到GPT系列出来后,GPT-3直接用170B规模的参数量模型精度碾压竞品。 接着就是新一轮的竞争了,后面的事情就有点可怕了,Google推出万亿稀疏switch transformer,huawei推出2000亿稠密鹏程盘古大模型,微软推出Turing-NLG有1000亿参数,英伟达推出MegatronLM系列。 大家都说大模型难,大模型训练除了集群调度麻烦,还难在哪里吗? 思考 之前做过一部分预训练的工作,训的模型是7B,13B大小,分享一下个人的感受 首先是训练方面,这两个量级的模型训练起来其实和小模型差不多,参数设置上有两个地方需要注意:一个是学习率需要略小,在e-5这个量级就 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览