专栏名称: 包包算法笔记
数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。
今天看啥  ›  专栏  ›  包包算法笔记

DeepSeek-V3技术报告完整解读

包包算法笔记  · 公众号  ·  · 2025-01-05 09:05
    

文章预览

  原文:https://zhuanlan.zhihu.com/p/14890557782 12月中旬,我浙之光Deepseek宣布完成了v2.5的最后一次升级之后,约过了十来天,v3.0就正式上线了。 DeepSeek-V3 是一款性能卓越的 混合专家(MoE)  语言模型,整体参数规模达到 671B,其中每个 token 激活的参数量为  37B 。 评估结果表明,DeepSeek-V3  在性能上超越了其他开源模型 ,并能够与主流闭源模型相媲美。 模型检查点已开放获取,地址为: https : //github.com/deepseek-ai/DeepSeek-V3 图1:DeepSeek-V3和竞品的各科目考分对比 *笔者会用GPTs翻译形成初稿,然后精读后完成终稿,力求每一句话自己都能理解后再输出译文。 *需要原文的请至文末跳转至原文链接阅读。 引言 近年来,LLM 经历了快速迭代和演进,逐步缩小了与 通用人工智能(AGI)  的差距。除了闭源模型外,开源模型阵营也在取得重大进展,包括 DeepSeek 系列、LL ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览