专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

研发大模型的血液--万字长文详谈数据工程

吃果冻不吐果冻皮  · 公众号  ·  · 2024-06-19 13:26
    

文章预览

【点击】 加入大模型技术交流群 最近1年研究大模型,有个很不好的现象,大家都认为做大模型,认为只要喂数据就行,甭管数据噪声。CV计算机视觉时代,需要人工标注每一个图片,分类检测分割,标注数据都需要97%以上准确率;有多少智能就需要多少人工。计算机视觉的鼻祖李飞飞,就是靠人工标注ImageNet 300M数据集,才走进大众视野。 数据在大型语言模型(LLM)的训练中起着基础性作用。在预训练和监督微调阶段,有效的数据管理对于增强模型性能和提高训练效率具有重要意义。23年的实践表明,即使最强大的模型,没有领域知识的协同,也根本无法上生产。本文依据相关论文和研发实际设计-开发-测试-知识QA case整理, 期望在澄清通用数据处理方法的基础上,快速聚焦研发场景特定任务需要的数据采集、处理、数据集 & 知识库的构建。 尝试 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览