专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

大模型预训练训练策略系列: tiny llm pretrain trick

关于NLP那些你不知道的事 · 公众号 · · 2024-11-06 08:00

文章预览

大模型预训练训练策略系列: tiny llm pretrain trick 作者：磐石原文地址：https://zhuanlan.zhihu.com/p/701865337 minicpm Tsinghua University. Modelbest Inc. 2024 随着大型语言模型 (LLM) 参数激增至数万亿的趋势，人们越来越关注资源效率和实际成本问题，尤其是巨额的实验开销。这种局面凸显了探索小型语言模型 (SLM) 作为资源高效替代方案的潜力。在此背景下，我们介绍了 MiniCPM，特别是 1.2B 和 2.4B 非嵌入参数变体，它们不仅在其各自的类别中表现出色，而且还展示了媲美 7B-13B LLM 的能力。虽然我们专注于 SLM，但我们的方法在模型和数据维度上都表现出可扩展性，有利于未来大型语言模型研究。在模型缩放方面，我们采用广泛的模型风洞实验来实现稳定和最佳的缩放。对于数据缩放，我们引入了一种 Warmup-Stable-Decay (WSD) 学习率调度程序 (LRS)，有利于持续训练和领 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

广西中公教育 · 【新课】新大纲事省双学领跑计划，情人节甜蜜特惠

昨天

广西中公教育 · 【新课】新大纲事省双学领跑计划，情人节甜蜜特惠

昨天

新重庆-重庆日报 · 正式印发！事关所有中小学生

昨天

湘微教育 · 一组海报解锁！看湖南奔向教育强省的进阶之路

2 天前

湘微教育 · 一组海报解锁！看湖南奔向教育强省的进阶之路

2 天前

南京日报 · 最新！南京中小学、高校开学时间

2 天前

南京日报 · 最新！南京中小学、高校开学时间

2 天前

香港365天 · 全港学科排名第一！这所港校太牛了！

2 天前

香港365天 · 全港学科排名第一！这所港校太牛了！

2 天前

一天一篇经济学人 · 第126期六点早起打卡营(最后1天)

6 月前

中国化学二化建 · 速来点赞！中国化学10项作品入围央企优秀故事评选

4 月前

直通硅谷 · 无OFFER退款丨机器学习工程师求职1V1定制计划

3 月前

院长技术 · 运维必备神器！一款开源的堡垒机系统，支持通过Web浏览器对SSH、RDP、Kubernetes、数据库和RemoteApp端点

3 月前

AF智慧城市网 · 新时代下数字中国司法开启新模式

3 月前

大模型预训练 训练策略系列: tiny llm pretrain trick

文章预览

大模型预训练训练策略系列: tiny llm pretrain trick