今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

如何从零开始训练大模型(minicpm分享&讨论)

吃果冻不吐果冻皮  · 公众号  ·  · 2024-05-17 12:13
    

文章预览

【点击】 加入大模型技术交流群 原文: https://zhuanlan.zhihu.com/p/686664720 1. 背景 根据scaling law,模型越大,高质量数据越多,效果越好。 但还有一个很直观的情况,随着预训练样本的质量不断提升,训练手段的优化。新的模型,往往效果能轻松反超参数量两倍于它的模型。 例如,最新出的minicpm,微信内部评测效果也是非常棒的。跟规模相对接近的2b、7b模型比,得分比qwen2b高,和qwen7b比有的高有的低。 这个是minicpm的详细技术文档: https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a 这说明, 现有参数量情况下,哪怕是2B尺度,也并没有得到充分训练。 近期,邀请minicpm作者内部做了一个小范围分享,参与人员有国内好几个大模型团队的成员,基本上都是预训练为主。 很多人都签了保密协议,所以都是基于公开信息沟通。 提前约法三章,对面拒 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览