专栏名称: 机器学习实验室
专注于机器学习和深度学习技术与实践。
今天看啥  ›  专栏  ›  机器学习实验室

DeepSeek-V3技术报告解读!

机器学习实验室  · 公众号  ·  · 2025-01-03 16:36
    

文章预览

作者:吕阿华 https://zhuanlan.zhihu.com/p/14890557782 12月中旬,我浙之光Deepseek宣布完成了v2.5的最后一次升级之后,约过了十来天,v3.0就正式上线了。 DeepSeek-V3 是一款性能卓越的 混合专家(MoE)  语言模型,整体参数规模达到 671B,其中每个 token 激活的参数量为  37B 。 评估结果表明,DeepSeek-V3  在性能上超越了其他开源模型 ,并能够与主流闭源模型相媲美。 模型检查点已开放获取,地址为: https: //github.com/deepseek-ai/DeepSeek-V3 图1:DeepSeek-V3和竞品的各科目考分对比 *笔者会用GPTs翻译形成初稿,然后精读后完成终稿,力求每一句话自己都能理解后再输出译文。 *需要原文的请至文末跳转至原文链接阅读。 引言 近年来,LLM 经历了快速迭代和演进,逐步缩小了与 通用人工智能(AGI)  的差距。除了闭源模型外,开源模型阵营也在取得重大进展,包括 DeepSeek 系 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览