关于Scaling Law、半合成数据、MOE及长文本

张俊林 · 知乎专栏 · · 2024-05-30 08:46

文章预览

以下内容是5月15日甲子光年圆桌论坛讨论内容，涉及Scaling Law、合成数据与“半合成数据”、与Transformer不同的新模型结构、MOE及Long Context等问题。一、是否相信Scaling Law？王艺：围绕Scaling Law有很多的争议，有些人是坚定的信仰者，觉得只要堆数据、堆算力就能带领我们达到AGI；但是也有人认为你无限堆数据和算力并不能无限提升模型的性能，它其实会慢慢趋向于一个固定的值。那你是Scaling Law的坚定信仰者吗？张俊林：Scaling Law其实是个经验公式，最初是OpenAI在2020年提出来的，现在大家遵循的应该是DeepMind在22年提出的Chinchilla Scaling Laws（Chinchilla Scaling Laws：为了使模型达到最佳性能，模型参数量应与训练集的大小成等比例扩张。），尽管它被称为Law，但它是通过大量的实验来得出的关于模型规模、训练数据增长和对应模型效果增长的关系公式。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

Wind万得 · Wind风控日报 |债市全线杀跌，多家农商行回应“被禁国债交易”传言

7 月前

骨生物学 · 骨生物学进展：HIF-1α/PLOD2 轴整合细胞外基质组织和细胞代谢，导致异常的肌肉骨骼修复

6 月前

量化研究方法 · 免费送！4本！费孝通社会学四部曲，都是必读经典！

5 月前

ZEALER · 隐私和便利真的难兼得？鸿蒙NEXT：我全都要

5 月前

点云PCL · 一项研究图优化SLAM方法中3D LiDAR分辨率的影响

3 月前