专栏名称: 智东西
智东西-聚焦智能变革,服务产业升级!作为智能行业新锐媒体,智东西专注五大领域:VR/AR;AI/机器人/无人机;智能汽车/智能出行;智能家居/物联网;智能穿戴/智能医疗,通过内容、活动、报告以及社群等方式助力“智能+”时代的创业和产业升级。
今天看啥  ›  专栏  ›  智东西

DeepSeek是否有国运级创新?2万字解读与硬核分析V3/R1的架构

智东西  · 公众号  · 科技媒体  · 2025-02-09 08:15
    

文章预览

本文由浅入深分析和解读DeepSeek V3/R1模型架构,适合投资人和行业人士了解新技术趋势。 作者 |   陈巍 DeepSeek的最新模型DeepSeek-V3和DeepSeek-R1都属于MoE(混合专家)架构,并在开源世界产生了较大的影响力。特别是2025 年 1 月开源的DeepSeek-R1,模型性能可挑战 OpenAI  闭源的 o1 模型。 随着热度的提升,DeepSeek也被大模型行业之外的各路媒体不断提起,“打破CUDA垄断”,“挖了NVLink 的墙角”,“引发英伟达市值大跌”,“证明大模型算力建设浪费”,“算力霸权转移”,“国运级的创新”, 似乎有用皮衣卡住老黄脖子的架势 。 那么,从技术和架构的角度深入最新的V3和R1模型,是否真的有“国运级的创新”,又有哪些误传? 下面我们从V3与R1的架构分析 开始,分层解读DeepSeek的创新。 01 . V3与R1的主要特征 DeepSeek-R1的模型架构来自于V3,甚至可以说R1是 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览