专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
今天看啥  ›  专栏  ›  DeepTech深科技

DeepSeek-V3或证明Ilya“预训练终结论”有误?UC伯克利博士生证明大模型内容可用于训练新模型

DeepTech深科技  · 公众号  · 科技媒体  · 2025-01-06 16:36
    

文章预览

还记得 OpenAI 前首席科学家伊利亚·苏茨克维(Ilya Sutskever)在 2024 年神经信息处理系统大会(NeurIPS,Neural Information Processing Systems)上的“预训练即将终结”发言吗?他之所以这样说是因为:互联网上所有有用数据都将被用来训练大模型。 这个过程也被称为预训练,包括 ChatGPT 等在内的大模型均要经过这一步骤才能“出炉”。 不过,由于现有互联网数据或将被消耗殆尽,因此伊利亚表示这个时代“无疑将结束”。 但是,大多数业界人士并未因此感到恐慌,这是为什么?答案可以先从最近火到大洋彼岸的中国大模型 DeepSeek V3 说起。 图 | 查理·斯内尔(Charlie Snell)积极关注 DeepSeek V3 动态(来源:X) 曾在谷歌旗下公司 DeepMind 实习过的美国加州大学伯克利分校博士生查理·斯内尔(Charlie Snell)非常关注 DeepSeek V3,他不仅在 X 上转发了 DeepSeek V3 的相关 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览