文章预览
原文:https://zhuanlan.zhihu.com/p/14890557782 12月中旬,我浙之光Deepseek宣布完成了v2.5的最后一次升级之后,约过了十来天,v3.0就正式上线了。 DeepSeek-V3 是一款性能卓越的 混合专家(MoE) 语言模型,整体参数规模达到 671B,其中每个 token 激活的参数量为 37B 。 评估结果表明,DeepSeek-V3 在性能上超越了其他开源模型 ,并能够与主流闭源模型相媲美。 模型检查点已开放获取,地址为: https : //github.com/deepseek-ai/DeepSeek-V3 图1:DeepSeek-V3和竞品的各科目考分对比 *笔者会用GPTs翻译形成初稿,然后精读后完成终稿,力求每一句话自己都能理解后再输出译文。 *需要原文的请至文末跳转至原文链接阅读。 引言 近年来,LLM 经历了快速迭代和演进,逐步缩小了与 通用人工智能(AGI) 的差距。除了闭源模型外,开源模型阵营也在取得重大进展,包括 DeepSeek 系列、LL
………………………………