专栏名称: 赛博禅心
拜AI古佛,修赛博禅心
目录
相关文章推荐
今天看啥  ›  专栏  ›  赛博禅心

大,就聪明吗?论模型的“尺寸虚胖”

赛博禅心  · 公众号  ·  · 2025-03-28 20:53
    

文章预览

  你可能刷过这样的新闻: 一个只有 27B Gemma-3 参数的小模型,竟和 671B 参数 DeepSeek V3 不相上下。世界又要变天了 后面,可能还带个图,像这样: Gemma:我 27B 这种“技术奇迹” ,总被媒体反复包装成“一夜变天”  ,但其实并不新鲜: • 大模型说:我参数更大、上限更高。 • 小模型说:我表现差不多,推理还便宜。 • 厂商都在说自己赢了, 读者却越来越搞不懂这到底在比什么。 细究起来,这表面是在做模型对比,实则是两种语言体系在鸡同鸭讲 ,而参数恰成了“最容易理解、但最容易误导”的数字,如同:用人口数量,来判断足球水平。 我想借着这个话题,来聊聊几个核心问题: • 为什么参数量大 ≠ 实际效果强? • Dense 和 MoE 到底是怎么一回事? • “看起来很大”的模型,到底动用了多少能力? • 在大模型持续扩张的趋势下,小 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览