文章预览
前言: 平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、大语言模型、模型评估的,喜欢的小伙伴赶紧去阅读相关论文吧。 1. DeepSeek-Coder-V2: 打破代码智能中闭源模型的壁垒 标题: DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence 相关领域: 模型结构改进、预训练、指令微调、奖励模型 作者: DeepSeek-AI, Qihao Zhu, Daya Guo 分析: 这篇论文介绍了DeepSeek-Coder-V2,这是一种开放源码的混合专家(MoE)代码语言模型,其在特定代码任务中的表现可与GPT4-Turbo相媲美。通过从DeepSeek-V2的中间检查点进行额外的6万亿次令牌的预训练,DeepSeek-Coder-V2大大增强了DeepSeek-V2的编码和数学推理能力,同时在一般语言任务中保持了相当的性能。与DeepSeek-Coder-33B相比,DeepSeek-Coder-V2在各种与代码相关的任务、推理和一般能力方面都显示出
………………………………