文章预览
新智元报道 编辑:桃子 好困 DeepSeek这波强攻, 彻底把OpenAI逼急 了——深夜紧急上线o3-mini 。 整整半个月,中国AI承包了国内外各大头条,影响力只增不减。 关于DeepSeek模型训练数据、GPU用量、成员构成、RL训练算法,早已成为所有人的关注焦点。 SemiAnalysis一篇深度报道中,从多个方面进行了推测——训练成本、对闭源模型利润影响、团队等等。 其中一些关键亮点包括: DeepSeek不是「副业」,在GPU等硬件支出远超5亿美元,论文中600万美元仅是预训练运行GPU成本,研发、硬件总拥有成本(TCO)被排除在外 DeepSeek大约有5万块Hopper GPU,包括特供版H800和H20 DeepSeek大约有150名员工,并定期从北大、浙大等招募顶尖人才,据称有潜力的候选人能拿到超130万美元(934万元)薪水 DeepSeek一个关键创新——多头潜注意力(MLA),耗时多月开发,将每个查询KV
………………………………