文章预览
大模型预训练 训练策略系列: tiny llm pretrain trick 作者:磐石 原文地址:https://zhuanlan.zhihu.com/p/701865337 minicpm Tsinghua University. Modelbest Inc. 2024 随着大型语言模型 (LLM) 参数激增至数万亿的趋势,人们越来越关注资源效率和实际成本问题,尤其是巨额的实验开销。这种局面凸显了探索小型语言模型 (SLM) 作为资源高效替代方案的潜力。 在此背景下,我们介绍了 MiniCPM,特别是 1.2B 和 2.4B 非嵌入参数变体,它们不仅在其各自的类别中表现出色,而且还展示了媲美 7B-13B LLM 的能力。虽然我们专注于 SLM,但我们的方法在模型和数据维度上都表现出可扩展性,有利于未来大型语言模型研究。 在模型缩放方面,我们采用广泛的模型风洞实验来实现稳定和最佳的缩放。 对 于数据缩放, 我们引入了一种 Warmup-Stable-Decay (WSD) 学习率调度程序 (LRS),有利于持续训练和领
………………………………