超越Claude 3.5紧追o1！DeepSeek-V3-Base开源，编程能力暴增近31％

机器之心 · 公众号 · AI · 2024-12-26 16:38

文章预览

机器之心报道编辑：杜伟、小舟在 2024 年底，探索通用人工智能（AGI）本质的 DeepSeek AI 公司开源了最新的混合专家（MoE）语言模型 DeepSeek-V3-Base。不过，目前没有放出详细的模型卡。 HuggingFace 下载地址：https://huggingface.co/DeepSeek-ai/DeepSeek-V3-Base/tree/main 具体来讲，DeepSeek-V3-Base 采用了 685B 参数的 MoE 架构，包含 256 个专家，使用了 sigmoid 路由方式，每次选取前 8 个专家（topk=8）。图源：X@arankomatsuzaki 该模型利用了大量专家，但对于任何给定的输入，只有一小部分专家是活跃的，模型具有很高的稀疏性。图源：X@Rohan Paul 从一些网友的反馈来看，API 显示已经是 DeepSeek-V3 模型。图源：X@ruben_kostard 同样地，聊天（chat）界面也变成了 DeepSeek-v3。图源：X@Micadep 那么，DeepSeek-V3-Base 性能怎么样呢？Aider 多语言编程测评结果给了我们答案。先来了解一下 Aider 多 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博