整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)
目录
相关文章推荐
今天看啥  ›  专栏  ›  关于NLP那些你不知道的事

大模型预训练 训练策略系列: tiny llm pretrain trick

关于NLP那些你不知道的事  · 公众号  ·  · 2024-11-06 08:00

文章预览

大模型预训练 训练策略系列: tiny llm pretrain trick 作者:磐石 原文地址:https://zhuanlan.zhihu.com/p/701865337 minicpm Tsinghua University. Modelbest Inc. 2024 随着大型语言模型 (LLM) 参数激增至数万亿的趋势,人们越来越关注资源效率和实际成本问题,尤其是巨额的实验开销。这种局面凸显了探索小型语言模型 (SLM) 作为资源高效替代方案的潜力。 在此背景下,我们介绍了 MiniCPM,特别是 1.2B 和 2.4B 非嵌入参数变体,它们不仅在其各自的类别中表现出色,而且还展示了媲美 7B-13B LLM 的能力。虽然我们专注于 SLM,但我们的方法在模型和数据维度上都表现出可扩展性,有利于未来大型语言模型研究。 在模型缩放方面,我们采用广泛的模型风洞实验来实现稳定和最佳的缩放。 对 于数据缩放, 我们引入了一种  Warmup-Stable-Decay (WSD) 学习率调度程序  (LRS),有利于持续训练和领 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览