专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

超越Claude 3.5紧追o1!DeepSeek-V3-Base开源,编程能力暴增近31%

机器之心  · 公众号  · AI  · 2024-12-26 16:38
    

文章预览

机器之心报道 编辑:杜伟、小舟 在 2024 年底,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了最新的混合专家(MoE)语言模型 DeepSeek-V3-Base。不过,目前没有放出详细的模型卡。 HuggingFace 下载地址:https://huggingface.co/DeepSeek-ai/DeepSeek-V3-Base/tree/main 具体来讲,DeepSeek-V3-Base 采用了 685B 参数的 MoE 架构,包含 256 个专家,使用了 sigmoid 路由方式,每次选取前 8 个专家(topk=8)。 图源:X@arankomatsuzaki 该模型利用了大量专家,但对于任何给定的输入,只有一小部分专家是活跃的,模型具有很高的稀疏性。 图源:X@Rohan Paul 从一些网友的反馈来看,API 显示已经是 DeepSeek-V3 模型。 图源:X@ruben_kostard 同样地,聊天(chat)界面也变成了 DeepSeek-v3。 图源:X@Micadep 那么,DeepSeek-V3-Base 性能怎么样呢?Aider 多语言编程测评结果给了我们答案。 先来了解一下 Aider 多 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览