专栏名称: HuggingFace
The AI community building the future.
今天看啥  ›  专栏  ›  HuggingFace

社区发布 | 深度求索 670 亿大模型技术报告发布

HuggingFace  · 公众号  ·  · 2024-01-08 22:30

文章预览

2024 开年巨献,深度解读 DeepSeek 大模型背后的技术秘密.. 一个月前,深度求索开源了 670 亿参数 的大模型 (DeepSeek LLM 67B) ,在近 40 个中英文榜单上 全面超越了 700 亿的 LLaMA 2 。 全系列模型已开源至 Hugging Face, 无需申请 免费商用 ,目前已累积 超 5.8 万次下载 。 https://hf.co/deepseek-ai 今天,我们将 40+ 页的DeepSeek LLM技术报告发布至 Arxiv,并在本文深度解读其后的关键技术。 论文地址:https://arxiv.org/abs/2401.02954 技术报告 Highlights 自建全面Scaling Laws,为模型扩大更好奠基 深入探索了 超参数的Scaling Law s :为选择最佳超参数(Batch Size、 Learning Rate)提供了经验框架 详细论证了 数据质量 对Scaling Laws的影响 :同等数据规模下,数据质量越高,最优参数规模越大 完整的对齐实践细节,全方位的AGI能力评估 对比开源模型(左图),DeepSeek LLM 67B 的中英文能力 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览