文章预览
大家好,我是刘聪NLP。 面壁一直都在做端侧大模型,之前有文本系列MiniCPM-2B模型,还有多模态系列的MiniCPM-V系列模型,今天又开源了MiniCPM3-4B模型,真是端侧一路走到低。 这次MiniCPM3-4B也是在效果上有了巨大的提升,超过Phi-3.5-mini-Instruct模型,肩比Llama3.1-8B-Instruct、GLM-4-9B-Chat、Qwen2-7B-Instruct等一众模型,堪称小模型之王。 之前的MiniCPM-2B模型报告也是干活满满,详见:https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a 这里说一下哈,MiniCPM-2B是1.0版本模型,MiniCPM-1B是2.0版本模型,现在是3.0版本4B。 模型改进 下面是3个版本的模型结构(1->2->3)的区别: 位置编码:RoPE->RoPE->RoPE 注意力机制:MHA->GQA->MLA,MLA也是DeepSeek-V2的核心创新 词表大小:123K->73K->73K 模型层数:40->52->62 隐藏层节点:2304->1536->2560 最大长度:4k->4K->32k 系统提示词:不支持->不支持-
………………………………