专栏名称: 新机器视觉
最前沿的机器视觉与计算机视觉技术
今天看啥  ›  专栏  ›  新机器视觉

万字长文,详谈大模型研发的数据工程

新机器视觉  · 公众号  ·  · 2024-06-26 21:29

文章预览

以下 文 章来源于:知乎@ 西红柿牛腩 作者:西红柿牛腩 链接: https://zhuanlan.zhihu.com/p/685077556 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 在当今数字化时代,大语言模型扮演着越来越重要的角色,它们不仅令人惊叹地生成文本,还在各行各业中展现着巨大潜力。本文探讨了大语言模型中的数据工程。在数据处理、模型训练和提示词工程等方面进行了深入分析,方便读者了解数据工程在大语言模型背后的关键作用。 最近1年研究大模型,有个很不好的现象,大家都认为做大模型,认为只要喂数据就行,甭管数据噪声。CV计算机视觉时代,需要人工标注每一个图片,分类检测分割,标注数据都需要97%以上准确率;有多少智能就需要多少人工。计算机视觉的鼻祖李飞飞,就是靠人工标注ImageNet 300M数据集,才走进大众视野。 数据在大 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览