专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

关于Scaling Law、合成数据、MOE及长文本的看法及未来

AINLP · 公众号 · · 2024-06-05 10:10

文章预览

作者：张俊林，新浪微博新技术研发负责人整理：青稞A 原文：https://zhuanlan.zhihu.com/p/700622253 以下内容是5月15日甲子光年圆桌论坛讨论内容，涉及Scaling Law、合成数据与“半合成数据”、与Transformer不同的新模型结构、MOE及Long Context等问题。一、是否相信Scaling Law？王艺：围绕Scaling Law有很多的争议，有些人是坚定的信仰者，觉得只要堆数据、堆算力就能带领我们达到AGI；但是也有人认为你无限堆数据和算力并不能无限提升模型的性能，它其实会慢慢趋向于一个固定的值。那你是Scaling Law的坚定信仰者吗？张俊林：Scaling Law其实是个经验公式，最初是OpenAI在2020年提出来的，现在大家遵循的应该是DeepMind在22年提出的Chinchilla Scaling Laws（Chinchilla Scaling Laws：为了使模型达到最佳性能，模型参数量应与训练集的大小成等比例扩张。），尽管它被称为Law， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博