大，就聪明吗？论模型的“尺寸虚胖”

赛博禅心 · 公众号 · · 2025-03-28 20:53

文章预览

你可能刷过这样的新闻：一个只有 27B Gemma-3 参数的小模型，竟和 671B 参数 DeepSeek V3 不相上下。世界又要变天了后面，可能还带个图，像这样： Gemma：我 27B 这种“技术奇迹” ，总被媒体反复包装成“一夜变天” ，但其实并不新鲜： • 大模型说：我参数更大、上限更高。 • 小模型说：我表现差不多，推理还便宜。 • 厂商都在说自己赢了，读者却越来越搞不懂这到底在比什么。细究起来，这表面是在做模型对比，实则是两种语言体系在鸡同鸭讲，而参数恰成了“最容易理解、但最容易误导”的数字，如同：用人口数量，来判断足球水平。我想借着这个话题，来聊聊几个核心问题： • 为什么参数量大 ≠ 实际效果强？ • Dense 和 MoE 到底是怎么一回事？ • “看起来很大”的模型，到底动用了多少能力？ • 在大模型持续扩张的趋势下，小 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

歸藏的AI工具箱 · FLUX 现在已经可以训练概念滑块 Lora 了。#ai# 可以-20240910170732

7 月前

机器之心 · ChatGPT确实会看人下菜！OpenAI官方报告揭示大模型的刻板印象

6 月前

青岛日报 · 华为官宣：悬赏300万元！

3 月前

青岛日报 · 华为官宣：悬赏300万元！

3 月前

舰大官人 · 我决定去小红书上泡世界各国的洋妞们去了！让国内这些贪财且自私的小-20250116021535

2 月前