专栏名称: 智东西

智东西－聚焦智能变革，服务产业升级！作为智能行业新锐媒体，智东西专注五大领域：VR/AR；AI/机器人/无人机；智能汽车/智能出行；智能家居/物联网；智能穿戴/智能医疗，通过内容、活动、报告以及社群等方式助力“智能＋”时代的创业和产业升级。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

DeepSeek是否有国运级创新？2万字解读与硬核分析V3/R1的架构

智东西 · 公众号 · 科技媒体 · 2025-02-09 08:15

文章预览

本文由浅入深分析和解读DeepSeek V3/R1模型架构，适合投资人和行业人士了解新技术趋势。作者 | 陈巍 DeepSeek的最新模型DeepSeek-V3和DeepSeek-R1都属于MoE（混合专家）架构，并在开源世界产生了较大的影响力。特别是2025 年 1 月开源的DeepSeek-R1，模型性能可挑战 OpenAI 闭源的 o1 模型。随着热度的提升，DeepSeek也被大模型行业之外的各路媒体不断提起，“打破CUDA垄断”，“挖了NVLink 的墙角”，“引发英伟达市值大跌”，“证明大模型算力建设浪费”，“算力霸权转移”，“国运级的创新”，似乎有用皮衣卡住老黄脖子的架势。那么，从技术和架构的角度深入最新的V3和R1模型，是否真的有“国运级的创新”，又有哪些误传？下面我们从V3与R1的架构分析开始，分层解读DeepSeek的创新。 01 . V3与R1的主要特征 DeepSeek-R1的模型架构来自于V3，甚至可以说R1是 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新浪科技 · 【#DeepSeek下周开源5个代码库#，每日解锁新内容】#De-20250221134125

昨天

新浪科技 · 【#俞敏洪称还没找到接班人##俞敏洪谈公司接班人标准#】《酌见》-20250220141000

2 天前

凤凰网科技 · DeepSeek考虑进行外部融资？

2 天前

新浪科技 · 【#iPhone16e采用苹果自研芯片##iPhone16e支持-20250220001925

2 天前

腾讯科技 · Grok 3用20万GPU帮AI界做了个实验：Scaling Law没撞墙，但预训练不一定

2 天前

李大霄 · 苏兄您好，绝大部分人都不屑于回看，也没有这个时间，就算看了也不会-20240924202647

5 月前

句读 · 萧规曹随

2 月前

闽南日报 · 共唱乡村“幸福曲” 我的溪东我做主

3 周前