今天看啥  ›  专栏  ›  PaperAgent

Llama3 405B预估要2.5万块H100训练50天!GPT-5尼?

PaperAgent  · 公众号  ·  · 2024-06-01 00:02
    

文章预览

Alan D. Thompson博士 在 LifeArchitect.ai 网站的最新报告(2024.5)显示: Llama3 405B 模型需要 24597块H100 训练 50天 ,在2024.4训练结束! GPT-5:则 需要50000 块 H100 训练120 天,在2024.4 训练结束! 如果训练在2024年4月结束,并且需要大约 6个月 的时间让GPT5达到可以安全使用的程度,那么时间窗口期大约是 10月-11月 。 GPT-5摘要信息汇总: 谁才是最强王者?Grok 3(2x GPT-5) Grok 3 模型 需要100000 块 H100 训练 50天,在2024.12 训练结束! 100000个H100串联在一起照片会是怎么样的: 如果 Llama3 405B、GPT-5、 Grok3等模型都 使用B200训练会发生什么? B200比H100, 在训练中效果提高了 3倍 。推理速度提高 5倍 ,绝对是游戏规则的改变者! https: / /x.com/kimmonismus /status/ 1795028708413034741 GPT- 5 报告: https: / /lifearchitect.ai/gpt - 5 / 推荐阅读 •  对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO • ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览