今天看啥  ›  专栏  ›  InfoQ

奥特曼阴阳“国产之光”DeepSeek?把训练成本打下来99%,表现还优于GPT-4o,国产开源大模型火爆全球

InfoQ  · 公众号  · 科技媒体  · 2024-12-29 10:15
    

主要观点总结

中国AI初创公司创建了一个被称为“真正的‘Open’AI ”的人工智能模型,DeepSeek发布了最新系列模型DeepSeek-V3首个版本并同步开源。该模型可处理一系列基于文本的工作负载和任务,其性能优于其他开源和闭源模型。DeepSeek-V3具有6710亿参数,可通过Hugging Face获取,其架构基础是多头潜在注意力和DeepSeekMoE。此外,DeepSeek还发布了两个提高模型表现的创新,包括辅助无损负载均衡策略和多token预测。该模型的训练成本低,性能在多个基准测试中优于其他领先模型,包括Llama-3.1和Qwen 2.5等。DeepSeek-V3的价格也获得了用户的好评。网友和用户对其性能给予了高度评价。

关键观点总结

关键观点1: DeepSeek-V3模型的发布

DeepSeek发布了最新系列模型DeepSeek-V3的首个版本,并同步开源。该模型具有强大的性能,可处理一系列基于文本的工作负载和任务。

关键观点2: DeepSeek-V3的性能优势

DeepSeek-V3的性能优于其他开源和闭源模型,通过了多项基准测试,表现突出。

关键观点3: DeepSeek-V3的技术特点

DeepSeek-V3使用混合专家架构,具有6710亿参数,可通过Hugging Face获取。此外,DeepSeek还发布了两个提高模型表现的创新,包括辅助无损负载均衡策略和多token预测。

关键观点4: DeepSeek-V3的训练成本

DeepSeek-V3的训练成本低廉,使用H800 GPU进行训练,降低了流程运行成本。

关键观点5: DeepSeek-V3的价格和用户反馈

DeepSeek为DeepSeek-V3 API设定的价格合理,获得了用户的好评。实测用户对其性能感到难以置信。


文章预览

整理 | 华卫、核子可乐 一家中国 AI 初创公司创建出被用户称作 “真正的‘Open’AI ”的人工智能模型。 11月26日,有“AI界的拼多多”之称的DeepSeek 发布了最新系列模型 DeepSeek-V3 首个版本并同步开源。该模型可以处理一系列基于文本的工作负载和任务,如编码、翻译以及根据描述性提示撰写论文和电子邮件。根据 DeepSeek 的内部基准测试,DeepSeek V3 的性能优于可下载的 “公开 ”可用模型和只能通过 API 访问的 “封闭 ”人工智能模型。 在编程竞赛平台 Codeforces 主办的编码竞赛子集中,DeepSeek 的表现优于 Meta 的 Llama 3.1 405B、OpenAI 的 GPT-4o 和阿里巴巴的 Qwen 2.5 72B 等模型。DeepSeek V3 还在 Aider Polyglot 测试中击败了竞争对手,该测试旨在衡量模型是否能成功编写新代码,并将其整合到现有代码中。 “综合评估表明,DeepSeek-V3 已成为目前可用的最强大的开源 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览