注册登录

专栏名称: zartbot

随便记录点有趣的东西

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

HR新逻辑 · 向华为学习：打造能征善战的干部管理体系（公开课） · 14 小时前

HR新逻辑 · 向华为学：如何科学分钱？（公开课） · 昨天

HR新逻辑 · 全面薪酬体系与奖金设计、预算管理实战 (公开课) · 2 天前

HR新逻辑 · 战略解码工作坊：从战略到执行落地（公开课） · 3 天前

今天看啥 › 专栏 › zartbot

Pretrain ScalingLaw真的终结了么?

zartbot · 公众号 · · 2025-01-05 18:29

文章预览

ilya在neurips 2024关于Pre-training的演讲被广泛传播但是Pretrain ScalingLaw真的终结了么? 诚然算力在增长, Data并没有. 既然data作为AI的fossil fuel,如果把大模型比成一个油车, 合成数据 (Synthetic data)似乎就有点生物燃料的味道, 但是这条路上的GPT5尚处在难产阶段...那么大模型的“新能源车”在哪? 或许身在圈中的人并不愿意提及这个话题, 这意味着基于Transformer的“油车大模型”路径的终结, 而新的“电车大模型”的框架似乎还有大量的问题悬而未决... 渣B前年在《大模型时代的数学基础(4)》中介绍了一些路径, 例如RWKV/Mamba/MoE等.. 例如Mamba相对于transformer的一些改进: 似乎在这个基础上, 缝合的“混动的大模型”产生了, 不得不提一个漫画~ 那么是否还有新的算法出现呢?例如能够超越Scalinglaw? 然而工业界, 特别是几个模型大厂在商业化的压力下似乎根本不愿意冒险, ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

HR新逻辑 · 向华为学习：打造能征善战的干部管理体系（公开课）

14 小时前

HR新逻辑 · 向华为学：如何科学分钱？（公开课）

昨天

HR新逻辑 · 全面薪酬体系与奖金设计、预算管理实战 (公开课)

2 天前

HR新逻辑 · 战略解码工作坊：从战略到执行落地（公开课）

3 天前

中国银行保险报 · 这些情况不予处罚！央行最新发布→

8 月前

3E论文速递 · 【碳市场】通过收入再分配提高公众对碳定价的支持度

1 月前

重庆日报 · 新闻早点 | 收藏！2025年考证考试时间表公布

3 周前

上海发布 · 这些路段、枢纽、收费站易拥堵！沪苏浙皖鲁“四省一市”春节高速公路出行服务指南发布

1 周前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号