文章预览
以下 文 章来源于微信公众号:极市平台 作者: 极 市 平台 链接:https://mp.weixin.qq.com/s/NOBwQir3tVhAOrfVSYq4nw 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 大模型作为目前最前沿的技术,是如何开发或者训练出来的呢。本文就为大家总结了大模型训练各阶段的最新技术方法,希望对大家有所帮助。 1 背景 根据scaling law,模型越大,高质量数据越多,效果越好。 但还有一个很直观的情况,随着预训练样本的质量不断提升,训练手段的优化。新的模型,往往效果能轻松反超参数量两倍于它的模型。 例如,最新出的minicpm,微信内部评测效果也是非常棒的。跟规模相对接近的2b、7b模型比,得分比qwen2b高,和qwen7b比有的高有的低。 这个是minicpm的详细技术文档。 https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a 这说明,现有参数量情况
………………………………