专栏名称: Hollis
一个对Coding有着独特追求的人。
目录
相关文章推荐
Java架构技术  ·  迪丽热巴 ·  昨天  
今天看啥  ›  专栏  ›  Hollis

漫谈DeepSeek及其背后的核心技术

Hollis  · 公众号  ·  · 2025-02-10 14:00
    

文章预览

阿里妹导读 本文深入探讨了DeepSeek大模型的核心技术,从公司背景、模型能力、训推成本到核心技术细节进行了全面分析。 一、 关于DeepSeek公司及其大模型 1.1 公司概况 DeepSeek 2023年7月成立于杭州,是幻方量化旗下的子公司,全称是杭州深度求索人工智能基础技术研究有限公司。 "成立时间才一年多"、"最近推出的V3已经能和OpenAI的4o媲美"、"训练成本不到600W美元"、"API定价仅是国内其他头部厂商几十分之一"、"APP已经在中美APP store登上免费应用榜首"; 以上是最近关于DeepSeek的一些新闻热点信息,下面我们从官网看下: DeepSeek近半年相继推出了3个主要的大模型版本,分别是DeepSeek V2.5、DeepSeek V3、DeepSeek-R1(无一例外的都是用了MOE架构)。在这之前还推出了 DeepSeek-VL 、 DeepSeek Coder 、 DeepSeek Math 。 1.2 模型能力 DeepSeek模型已经对标国内Qwen、海外Llama、GPT 4 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览