注册登录

专栏名称: 阿里云开发者

阿里巴巴官方技术号，关于阿里的技术创新均将呈现于此

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

白鲸出海 · 中国互联网出海一周头条 ... · 2 天前

今天看啥 › 专栏 › 阿里云开发者

漫谈DeepSeek及其背后的核心技术

阿里云开发者 · 公众号 · 科技公司 · 2025-02-07 08:29

主要观点总结

本文深入探讨了DeepSeek大模型的核心技术，包括公司背景、模型能力、训推成本以及核心技术细节。文章介绍了DeepSeek的公司概况，模型的能力，训练成本以及DeepSeek在模型核心技术方面的创新，如DeepSeekMoE架构、MLA多头潜在注意力等。

关键观点总结

关键观点1: DeepSeek公司及其大模型

介绍了DeepSeek公司的概况，以及该公司推出的大模型DeepSeek V3已经和OpenAI的GPT-4相媲美，并且训练成本较低。

关键观点2: 模型能力

描述了DeepSeek模型的能力，包括与国内外其他模型的对比，以及DeepSeek-V3在开源模型中的排名。

关键观点3: 训练与推理成本

详细介绍了DeepSeek模型的训练与推理成本，包括使用的技术和策略来降低这些成本。

关键观点4: 核心技术细节

深入解析了DeepSeek的核心技术，包括DeepSeekMoE架构、MLA多头潜在注意力、训练框架HAI-LLM等。

关键观点5: 一些个人思考

表达了作者对于大模型未来的趋势以及DeepSeek的发展的一些个人看法和思考。

文章预览

阿里妹导读本文深入探讨了DeepSeek大模型的核心技术，从公司背景、模型能力、训推成本到核心技术细节进行了全面分析。一、关于DeepSeek公司及其大模型 1.1 公司概况 DeepSeek 2023年7月成立于杭州，是幻方量化旗下的子公司，全称是杭州深度求索人工智能基础技术研究有限公司。 "成立时间才一年多"、"最近推出的V3已经能和OpenAI的4o媲美"、"训练成本不到600W美元"、"API定价仅是国内其他头部厂商几十分之一"、"APP已经在中美APP store登上免费应用榜首"；以上是最近关于DeepSeek的一些新闻热点信息，下面我们从官网看下： DeepSeek近半年相继推出了3个主要的大模型版本，分别是DeepSeek V2.5、DeepSeek V3、DeepSeek-R1（无一例外的都是用了MOE架构）。在这之前还推出了 DeepSeek-VL 、 DeepSeek Coder 、 DeepSeek Math 。 1.2 模型能力 DeepSeek模型已经对标国内Qwen、海外Llama、GPT 4 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

白鲸出海 · 中国互联网出海一周头条我们一起看真相聊大事儿 | 白鲸出品350期

2 天前

体外诊断观察 · 246家IVD企业参展，2024检验医学大会全攻略

7 月前

弗雷赛斯 · 如何10分钟写完综述，真实参考文献自动插入

4 月前

宁波晚报生活号 · 突击检查！宁波主城区承接年夜饭的餐饮机构，能让人放心吗？

1 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号