专栏名称: 财联社
财联社系上海报业集团旗下界面(上海)网络科技有限公司产品,定位财经资讯报道,全面聚焦全球证券市场资讯,为投资者提供365天24小时不间断的“快速、准确、权威、专业”金融信息服务。
今天看啥  ›  专栏  ›  财联社

大模型性价比之王来了!训练2个月、花费558万美元 性能匹敌GPT-4o

财联社  · 公众号  ·  · 2024-12-28 10:01
    

文章预览

12月26日晚,幻方量化宣布,全新系列模型DeepSeek-V3上线并同步开源,API服务已同步更新,接口配置无需改动。 其上一代模型DeepSeek-V2.5于9月6日正式发布,迭代速速不可谓不快。 据介绍,DeepSeek-V3为自研MoE模型,生成速度相比V2.5模型实现了3倍的提升,但暂不支持多模态输入输出。(小K注:MoE模型全称Mixture of Experts,混合专家模型,是一种机器学习架构,通过组合多个专家模型,在处理复杂任务时显著提高效率和精度)。 参数和性能:DeepSeek-V3拥有6710亿参数,其中激活参数为370亿, 在14.8万亿token上进行了预训练 。 生成速度: 相比V2.5版本,DeepSeek-V3的生成速度提升至3倍 ,每秒吞吐量高达60 token。 开源和可用性: DeepSeek-V3完全开源 。 多语言处理能力:虽然 当前版本暂不支持多模态输入输出 ,但在多语言处理方面表现出色,尤其在算法代码和数学 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览