一文梳理自监督学习以及最火的端到端自动驾驶

古月居 · 公众号 · · 2024-09-01 18:20

文章预览

1. 前言特斯拉的FSD带火了自监督学习，而GPT这类大模型也使用了自监督学习的理念。众所周知，监督学习的成本过于高昂，尤其在任务复杂时，典型的就是FSD这样的系统。特斯拉收集的训练数据已经超出4亿公里，这些数据如果没有“自动标注系统”的帮助，根本无法用于训练。即便特斯拉构建了自己的Dojo超级计算机和自动标注、训练软件系统等整套自动化数据闭环体系，仍然无法足够快的完成数据标注和训练，因为标注永远会成为数据闭环的瓶颈，它依赖更大的网络和大量软件的清洗修正等动作，这些动作消耗大量算力、带宽和存储，甚至需要加入少量人工干预，打断循环。看看ChatGPT的训练步骤，第一列是Pre-trainning，这一步占据了99%的训练数据集，第二、三、四列才是肯尼亚团队（contractors）需要干的事情，这几步所产生或标记的数据量只占1 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博