DeepSeek-V3这个点很厉害：其训练预算非常低，只用了20-20241227203634

黄建同学 · 微博 · AI · 2024-12-27 20:36

文章预览

2024-12-27 20:36 本条微博链接 DeepSeek-V3这个点很厉害：其训练预算非常低，只用了2048 个 GPU，2 个月，600 万美元。按照Andrej Karpathy，这种级别的能力应该需要接近 16K GPU 的集群，而今天推出的集群大约有 100K GPU。例如，Llama 3 405B 使用了 30.8M GPU 小时，而 DeepSeek-V3 看起来是一个更强大的模型，仅使用了 2.8M GPU 小时（计算量减少了约 11 倍）。 #ai创造营# #ai# ChatGPT ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新智元 · 中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元

昨天

黄建同学 · #评论罗伯特锐评一加Ace5#AI思维下的智能科技，一加 Ace-20241226145743

2 天前

爱可可-爱生活 · 【KeyPub.sh：一个公共的SSH公钥注册表，连接身份与密钥-20241225135217

3 天前

爱可可-爱生活 · 【AI的”选择性失忆“】 #人工智能##AI创造营# -20241225080336

3 天前

爱可可-爱生活 · [CL] A Survey of Query Optimizat-20241225060333

4 天前

智研咨询 · 2024年中国元宇宙+教育行业现状简析：技术、政策等利好因素推动下，市场规模不断扩张[图]

3 月前