今天看啥  ›  专栏  ›  蒋涛CSDN

工程性能优化持续迭代,这一方向中国有优势//@刘群MT-to-D-20241229172920

蒋涛CSDN  · 微博  · 科技自媒体  · 2024-12-29 17:29
    

文章预览

2024-12-29 17:29 本条微博链接 工程性能优化持续迭代,这一方向中国有优势// @刘群MT-to-Death :不太同意这里的观点。DeepSeek-V3能够降低训练成本的几个主要技术是:① 模型架构改进② FP8训练 ③ Multi-token Prediction。这几个技术都是既可以用在训练上,也可以用在推理上的。其中①中的两个架构改进(细粒度MoE和MLA),都是DeepSeek前期论文发表过的工作,是他们自己独创的改进;②FP8训练, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览