专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

LLM 预训练到头了吗?

AINLP  · 公众号  ·  · 2025-01-03 18:21
    

文章预览

今天给大家带来的是好友@Binyuan的一篇想法,主要是对Ilya的“pre-training as we know it will end” 观点的看法。 正文如下: 最近,Ilya 在 NeurIPS 的演讲中提到了一个观点:“pre-training as we know it will end” 引发了热烈的讨论。我非常认同 agent、synthetic data 和 inference-time computing 是未来超级智能的突破点,但我认为开放社区仍然需要在 pre-training 坚持一段时间。 数据扩展:训练数据要真正做到 “覆盖整个互联网” 并不容易。比如,Qwen2.5 在预训练的时候使用了 18T tokens,但这些数据仍然不足以覆盖所有领域的知识,尤其是一些长尾领域的内容,也无法覆盖持续不断更新的数据。可以预见,开源模型预训练必须依赖更多的数据。此外,数据清洗仍然是一个重要环节。目前社区尚未完全掌握所有数据清洗的最佳技巧,也无法以低成本获取高质量数据。因此,可扩 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览