今天看啥  ›  专栏  ›  LLM SPACE

大模型日报(6月19日 学术篇)

LLM SPACE  · 公众号  ·  · 2024-06-19 20:28
    

文章预览

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢 迎 大 家 一 起 交 流 ! 论文 0 1 DeepSeek-Coder-V2: 打破代码智能中封闭模型的壁垒 我们提出了DeepSeek-Coder-V2,一个开源的专家混合(MoE)代码语言模型,其在代码特定任务上表现与GPT4-Turbo相当。具体来说,DeepSeek-Coder-V2是在DeepSeek-V2的中间检查点的基础上再次预训练,额外增加了6万亿个tokens。通过这种持续的预训练,DeepSeek-Coder-V2显著增强了DeepSeek-V2的编码和数学推理能力,同时在一般语言任务中保持相当的性能。与DeepSeek-Coder-33B相比,DeepSeek-Coder-V2在代码相关任务、推理和一般能力的各个方面都取得了显著进展。此外,DeepSeek-Coder-V2将其对编程语言的支持从86个扩展到338个,同时将 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览