GPT5训练失败的思考

吃果冻不吐果冻皮 · 公众号 · · 2024-09-06 08:56

文章预览

原文：https://zhuanlan.zhihu.com/p/718513570 近期硅谷VC、ai创始人交流要点：scaling law或已放缓 1、大模型：AI仍是硅谷唯一的话题，但是没有去年那么狂热了，主要是scaling 的速度有所放缓（警惕对于训练算力的需求放缓），大约3-4周前谷歌内部训练Gemini下一代模型（比上一代大10倍，类似GPT-5）时2次都失败了。这也解释了为什么GPT-5延期发布。硅谷目前认为LLM层面再把模型做大难度较大，原因在于： a) MOE后post-training效果不太好，模型没有收敛 b) 数据是瓶颈，合成数据质量比网上搜的数据质量差了不少 2、不排除GPT-5继续延期思考一：在日常使用GPT-4 的过程中，我发现其在许多场景下的输出已经非常接近完美。这里的“完美”并不意味着通用人工智能（AGI）已经实现。而是在现有系统形态，对话界面+输入有限的信息，模型基于有限的信息给出回复，已 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新乡土 · 贺雪峰 | 小概率事件如何影响常规体制及社会成本 ——以住房安全排查为例

2 月前

斌叔OKmath · Llama 3.2 可能不是昨天最有趣的多模式版本。 🤔来自@-20240927080542

1 月前

律新V品 · 陪伴数万家庭走过情感至暗时刻，18位精品婚家律师总结了这些爱的方法论！《律界婚姻家事品牌创新之道》新书隆重发布

1 月前