如何从零开始训练大模型（minicpm分享&讨论）

吃果冻不吐果冻皮 · 公众号 · · 2024-05-17 12:13

文章预览

【点击】加入大模型技术交流群原文： https://zhuanlan.zhihu.com/p/686664720 1. 背景根据scaling law，模型越大，高质量数据越多，效果越好。但还有一个很直观的情况，随着预训练样本的质量不断提升，训练手段的优化。新的模型，往往效果能轻松反超参数量两倍于它的模型。例如，最新出的minicpm，微信内部评测效果也是非常棒的。跟规模相对接近的2b、7b模型比，得分比qwen2b高，和qwen7b比有的高有的低。这个是minicpm的详细技术文档： https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a 这说明，现有参数量情况下，哪怕是2B尺度，也并没有得到充分训练。近期，邀请minicpm作者内部做了一个小范围分享，参与人员有国内好几个大模型团队的成员，基本上都是预训练为主。很多人都签了保密协议，所以都是基于公开信息沟通。提前约法三章，对面拒 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

Quora文选英语 · 老外说get cold feet，可不是【脚冷】！这意思你能想到吗？

20 小时前

知乎日报 · 一在朋友圈发东西就如坐针毡，有「数字社交焦虑」怎么办？

昨天

南昌晚报 · 突发讣告！她于15时47分逝世，出生于江西

2 天前

知乎日报 · 为什么豌豆，玉米与胡萝卜丁经常混合在一起袋装冷冻售卖？

2 天前

江西日报 · 事关寒假！江西中小学师生、家长速看

3 天前

江西日报 · 事关寒假！江西中小学师生、家长速看

3 天前

山东省交通运输厅 · 省交通运输厅组织开展汛期公路风险排查专业技术力量下沉一线指导帮扶工作

5 月前

维港通 · 港校厕所偷拍丑闻曝光，教育局重视并介入调查！

3 月前