专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
今天看啥  ›  专栏  ›  黄建同学

DeepSeek-V3这个点很厉害:其训练预算非常低,只用了20-20241227203634

黄建同学  · 微博  · AI  · 2024-12-27 20:36
    

文章预览

2024-12-27 20:36 本条微博链接 DeepSeek-V3这个点很厉害:其训练预算非常低,只用了2048 个 GPU,2 个月,600 万美元。 按照Andrej Karpathy,这种级别的能力应该需要接近 16K GPU 的集群,而今天推出的集群大约有 100K GPU。例如,Llama 3 405B 使用了 30.8M GPU 小时,而 DeepSeek-V3 看起来是一个更强大的模型,仅使用了 2.8M GPU 小时(计算量减少了约 11 倍)。 #ai创造营# #ai# ChatGPT ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览