专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

张俊林:Grok 3是否意味着大力出奇迹的大模型法则仍然成立?

AINLP  · 公众号  ·  · 2025-02-20 10:00
    

文章预览

媒体风向变化太快,让人目不暇接。早上还在夸Deepseek成本低,性价比高,预训练Scaling Law死了,不需要太多机器和GPU卡,性价比优先,英伟达休矣;中午Grok 3一出来,说是用了10万张英伟达H100卡,效果力压OpenAI o3 mini和Deepseek R1,就转向说Scaling law还成立,还需要大量的卡,英伟达股价有救了,还是要大力出奇迹…… 知乎:https://zhuanlan.zhihu.com/p/24609799526 这两个观点明显对立,有一真必有一假,那事实的真相到底是啥呢?我们来推一推。 一. 预训练阶段的Scaling Law是否仍然成立 预训练阶段的Scaling Law成立吗?当然是成立的,所谓“Scaling Law撞墙”,大家普遍遇到的问题是数据不够了,没有大量新数据,导致预训练阶段的Scaling Law走势趋缓,注意是趋缓但不是停顿,预训练阶段的Scaling Law并没到天花板。按照Chinchilla Scaling Law推断,即使没有新数据,也并 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览