专栏名称: 谈数据
聚焦数据治理,数字化转型,数据中台等领域专业知识总结和实战分享,做你身边最有价值的数据号!
今天看啥  ›  专栏  ›  谈数据

AI大模型需要什么样的数据?

谈数据  · 公众号  ·  · 2024-08-01 14:19

文章预览

来源:CIO之家 全文共 4987 字,建议阅读 10 分钟 数据将是未来AI大模型竞争的关键要素 人工智能发展的突破得益于高质量数据的发展。例如,大型语言模型的最新进展依赖于更高质量、更丰富的训练数据集:与GPT-2相比,GPT-3对模型架构只进行了微小的修改,但花费精力收集更大的高质量数据集进行训练。 ChatGPT 与GPT-3的模型架构类似,并使用RLHF(来自人工反馈过程的强化学习)来生成用于微调的高质量标记数据。 人工智能领域以数据为中心的AI,即在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果。提升数据集质量的方法主要有:添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等。未来数据成本在大模型开发中的成本占比或将提升,主要包括数据采集,清洗,标注等成本。 以数 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览