重磅！“AI界拼多多”再发力，国产大模型DeepSeek-V3开源后刷屏，总训练成本557万美元，性能比肩GPT-4o

CSDN企业招聘 · 公众号 · · 2024-12-31 09:00

文章预览

整理 | 屠敏出品 | CSDN（ID：CSDNnews）就在今天，素来被硅谷视为“来自东方神秘力量”的中国大模型创业公司 DeepSeek 再次悄悄惊艳了国内外的 AI 技术圈，其重磅发布了一个全新的超大规模模型—— DeepSeek-V3 。这个新模型拥有 6710 亿个参数，但采用了 MOE（混合专家）架构，能根据任务需求激活特定参数，每处理一个词元激活 370 亿参数，从而实现高效又准确的任务处理。这一次 DeepSeek-V3 的发布令业界振奋，不仅因为它是开源模型，更因为测试结果显示，它已超越诸如 Meta 的 Llama 3.1-405B、阿里 Qwen 等主流开源模型，甚至在性能上逼近 Anthropic 和 OpenAI 等封闭模型，大大缩小了开源和闭源 AI 之间的差距。可谓是一个“低调的实力派”选手再次搅动了 AI 大模型的风云，当前这款模型可以通过Hugging Face 平台（https://huggingface.co/deepseek-ai/DeepSeek-V3-Base） ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国基金报 · A股重大资产重组！突然终止

14 小时前

敦和资管 · 元旦贺岁 | 新岁启封美好启程

2 天前

中国基金报 · 底价1.37亿，又一金融机构要被100%转让

2 天前

中国基金报 · 明天起，这些新规将影响你我生活

3 天前

中国基金报 · 12306，出新功能了！

3 天前

上辈子是hr · 社招 | 渤海证券招聘风控、行业研究、数据管理职位（天津）

6 月前

电商报Pro · 刘强东顾不了那么多了，京东再砸10亿搞直播

4 月前