今天看啥  ›  专栏  ›  AI for Research

DeepSeek-Coder-V2报告发布!支持338种编程语言 | ChatGLM系列发展:从GLM-130B到GLM-4

AI for Research  · 公众号  ·  · 2024-06-19 20:44
    

文章预览

前言: 平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、大语言模型、模型评估的,喜欢的小伙伴赶紧去阅读相关论文吧。 1. DeepSeek-Coder-V2: 打破代码智能中闭源模型的壁垒   标题: DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence   相关领域: 模型结构改进、预训练、指令微调、奖励模型   作者: DeepSeek-AI,  Qihao Zhu,  Daya Guo   分析: 这篇论文介绍了DeepSeek-Coder-V2,这是一种开放源码的混合专家(MoE)代码语言模型,其在特定代码任务中的表现可与GPT4-Turbo相媲美。通过从DeepSeek-V2的中间检查点进行额外的6万亿次令牌的预训练,DeepSeek-Coder-V2大大增强了DeepSeek-V2的编码和数学推理能力,同时在一般语言任务中保持了相当的性能。与DeepSeek-Coder-33B相比,DeepSeek-Coder-V2在各种与代码相关的任务、推理和一般能力方面都显示出 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览