文章预览
你可能刷过这样的新闻: 一个只有 27B Gemma-3 参数的小模型,竟和 671B 参数 DeepSeek V3 不相上下。世界又要变天了 后面,可能还带个图,像这样: Gemma:我 27B 这种“技术奇迹” ,总被媒体反复包装成“一夜变天” ,但其实并不新鲜: • 大模型说:我参数更大、上限更高。 • 小模型说:我表现差不多,推理还便宜。 • 厂商都在说自己赢了, 读者却越来越搞不懂这到底在比什么。 细究起来,这表面是在做模型对比,实则是两种语言体系在鸡同鸭讲 ,而参数恰成了“最容易理解、但最容易误导”的数字,如同:用人口数量,来判断足球水平。 我想借着这个话题,来聊聊几个核心问题: • 为什么参数量大 ≠ 实际效果强? • Dense 和 MoE 到底是怎么一回事? • “看起来很大”的模型,到底动用了多少能力? • 在大模型持续扩张的趋势下,小
………………………………