专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
今天看啥  ›  专栏  ›  爱可可-爱生活

【LLM训练数据会耗尽吗?】 - 文章研究了大型语言模型是否会因-20240620080218

爱可可-爱生活  · 微博  · AI  · 2024-06-20 08:02
    

文章预览

2024-06-20 08:02 本条微博链接 【LLM训练数据会耗尽吗?】 - 文章研究了大型语言模型是否会因为人类生成的数据有限而无法继续扩展。 - 作者估计目前公开可用的人类生成文本总量约为300万亿词条,90%置信区间在1万亿到1万万亿之间。 - 根据当前的扩展趋势,语言模型将在2026年到2032年之间利用完这些数据,如果过度训练的话可能更早。 - 但是如果考虑到利润最大化,语言模型可能会被过度训练100倍。如果是这样,所有 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览