专栏名称: AIGC开放社区

专注AIGC（生成式人工智能）领域的专业社区，关注GPT-4、百度文心一言、华为盘古等大语言模型（LLM）的发展应用和落地，以及国内LLM的发展和市场研究，社区秉承共建、共享、开放的理念，提供对社区会员有价值的商业化思路和服务。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

ChatGPT等模型疯狂训练，最快2026年消耗尽公开文本数据

AIGC开放社区 · 公众号 · · 2024-06-19 11:04

文章预览

专注AIGC领域的专业社区，关注微软、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！ AI发展科研机构Epochai在官网发布了一项，关于大模型消耗训练数据的研究报告。目前，人类公开的高质量文本训练数据集大约有300万亿tokens。但随着ChatGPT等模大型的参数、功能越来越强以及过度训练，对训练数据的需求呈指数级增长，预计将在2026年——2032年消耗完这些数据。研究人员特别提到了“过度训练”（Overtraining）是加速消耗训练数据进程的主要原因之一。例如， Meta最新开源的Llama 3的8B版本过度训练达到了惊人的100倍，如果其他模型都按照这个方法来训练，数据可能在2025年就消耗尽了；70B版本还好，过度训练只有10倍。所以，无论是闭源还是开源大模型，已经进入比拼训练数据的阶 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

BCG波士顿咨询 · 蛇来运转｜BCG新春红包封面等你来抢！

4 天前

BCG波士顿咨询 · 人工智能引领金融保险业变革 | BCG 2024金融保险行业洞察集锦

5 天前

陕西果业 · 今日关注：合阳、汉阴、长武、西咸新区、富平！

6 月前

家美鲜鸡蛋 · 大片鸡场突然出现破蛋、软蛋、太阳蛋、产蛋率低等问题，用药以后一直反复，原来是它一直在搞鬼！

5 月前

追问nextquestion · 侵入式脑机接口，进展到哪一步了？ | 追问观察

4 月前

聿璋 · 投资周记20240922 宜将未来启华章本周（2024年9月1-20240922161200

4 月前