社区发布 | 深度求索 670 亿大模型技术报告发布

HuggingFace · 公众号 · · 2024-01-08 22:30

文章预览

2024 开年巨献，深度解读 DeepSeek 大模型背后的技术秘密.. 一个月前，深度求索开源了 670 亿参数的大模型（DeepSeek LLM 67B），在近 40 个中英文榜单上全面超越了 700 亿的 LLaMA 2 。全系列模型已开源至 Hugging Face，无需申请免费商用，目前已累积超 5.8 万次下载。 https://hf.co/deepseek-ai 今天，我们将 40+ 页的DeepSeek LLM技术报告发布至 Arxiv，并在本文深度解读其后的关键技术。论文地址：https://arxiv.org/abs/2401.02954 技术报告 Highlights 自建全面Scaling Laws,为模型扩大更好奠基深入探索了超参数的Scaling Law s ：为选择最佳超参数（Batch Size、 Learning Rate）提供了经验框架详细论证了数据质量对Scaling Laws的影响：同等数据规模下，数据质量越高，最优参数规模越大完整的对齐实践细节，全方位的AGI能力评估对比开源模型（左图），DeepSeek LLM 67B 的中英文能力 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 那么什么是智能的本质呢？//@-马小虎-:附议-20240908004028

昨天

爱可可-爱生活 · 【Cherry Studio：支持多语言模型提供商的桌面客户端，-20240907171304

昨天

爱可可-爱生活 · 【AI for Grant Writing：利用人工智能语言模型-20240907141126

昨天

黄建同学 · 扩散模型在游戏实时引擎中的应用↓Google 推出的 GameN-20240904192619

4 天前

爱可可-爱生活 · 【Sapiens-Pytorch-Inference：用于Pyt-20240903181323

5 天前