专栏名称: 阿里云开发者
阿里巴巴官方技术号,关于阿里的技术创新均将呈现于此
目录
相关文章推荐
今天看啥  ›  专栏  ›  阿里云开发者

漫谈DeepSeek及其背后的核心技术

阿里云开发者  · 公众号  · 科技公司  · 2025-02-07 08:29
    

主要观点总结

本文深入探讨了DeepSeek大模型的核心技术,包括公司背景、模型能力、训推成本以及核心技术细节。文章介绍了DeepSeek的公司概况,模型的能力,训练成本以及DeepSeek在模型核心技术方面的创新,如DeepSeekMoE架构、MLA多头潜在注意力等。

关键观点总结

关键观点1: DeepSeek公司及其大模型

介绍了DeepSeek公司的概况,以及该公司推出的大模型DeepSeek V3已经和OpenAI的GPT-4相媲美,并且训练成本较低。

关键观点2: 模型能力

描述了DeepSeek模型的能力,包括与国内外其他模型的对比,以及DeepSeek-V3在开源模型中的排名。

关键观点3: 训练与推理成本

详细介绍了DeepSeek模型的训练与推理成本,包括使用的技术和策略来降低这些成本。

关键观点4: 核心技术细节

深入解析了DeepSeek的核心技术,包括DeepSeekMoE架构、MLA多头潜在注意力、训练框架HAI-LLM等。

关键观点5: 一些个人思考

表达了作者对于大模型未来的趋势以及DeepSeek的发展的一些个人看法和思考。


文章预览

阿里妹导读 本文深入探讨了DeepSeek大模型的核心技术,从公司背景、模型能力、训推成本到核心技术细节进行了全面分析。 一、 关于DeepSeek公司及其大模型 1.1 公司概况 DeepSeek 2023年7月成立于杭州,是幻方量化旗下的子公司,全称是杭州深度求索人工智能基础技术研究有限公司。 "成立时间才一年多"、"最近推出的V3已经能和OpenAI的4o媲美"、"训练成本不到600W美元"、"API定价仅是国内其他头部厂商几十分之一"、"APP已经在中美APP store登上免费应用榜首"; 以上是最近关于DeepSeek的一些新闻热点信息,下面我们从官网看下: DeepSeek近半年相继推出了3个主要的大模型版本,分别是DeepSeek V2.5、DeepSeek V3、DeepSeek-R1(无一例外的都是用了MOE架构)。在这之前还推出了 DeepSeek-VL 、 DeepSeek Coder 、 DeepSeek Math 。 1.2 模型能力 DeepSeek模型已经对标国内Qwen、海外Llama、GPT 4 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览