专栏名称: CSDN企业招聘
笑谈开发轶事,品味程序人生
今天看啥  ›  专栏  ›  CSDN企业招聘

重磅!“AI界拼多多”再发力,国产大模型DeepSeek-V3开源后刷屏,总训练成本557万美元,性能比肩GPT-4o

CSDN企业招聘  · 公众号  ·  · 2024-12-31 09:00
    

文章预览

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 就在今天,素来被硅谷视为“来自东方神秘力量”的中国大模型创业公司 DeepSeek 再次悄悄惊艳了国内外的 AI 技术圈,其重磅发布了一个全新的超大规模模型—— DeepSeek-V3 。 这个新模型拥有 6710 亿个参数,但采用了 MOE(混合专家)架构,能根据任务需求激活特定参数,每处理一个词元激活 370 亿参数,从而实现高效又准确的任务处理。 这一次 DeepSeek-V3 的发布令业界振奋,不仅因为它是开源模型,更因为测试结果显示,它已超越诸如 Meta 的 Llama 3.1-405B、阿里 Qwen 等主流开源模型,甚至在性能上逼近 Anthropic 和 OpenAI 等封闭模型,大大缩小了开源和闭源 AI 之间的差距。 可谓是一个“低调的实力派”选手再次搅动了 AI 大模型的风云,当前这款模型可以通过Hugging Face 平台 (https://huggingface.co/deepseek-ai/DeepSeek-V3-Base) ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览