今天看啥  ›  专栏  ›  调研纪要

Deepseek V3模型解读:算力不再关键了吗?

调研纪要  · 公众号  ·  · 2024-12-28 23:59
    

文章预览

12.26日晚,全新大模型Deepseek V3上线,拥有671B参数,训练数据14.8T 高质量token,训练成本极低,仅为557.6万美金,整个训练只需要280万个GPU小时, 而LLama 3(405B)使用了3080万GPU小时,几乎是Deepseek V3的11倍,相比较来说Deepseek V3的参数量/训练成本的能效极高,训练超大模型的成本极低; #DeepseekV3如何用极低的成本实现超大规模的模型训练? 1)模型架构的差异: -- OpenAI和Claude普遍采用稠密的Transformer架构,需要在每个前向 & 后向过程中激活并更新全部参数,因而在大规模预训练时对算力与显存的需求非常高; -- Deepseek V3采用的是稀疏的MoE(Mixture of Expert)架构,在推理或训练时只会激活少量参数(5%~10% 参数量),有效减少每次前向 & 后向的计算量,显著降低整体训练开支; 2)精度差异: -- OpenAI和Claude等模型在训练过程中多采用FP16精度,兼顾数值稳 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览