文章预览
如果让你向朋友解释“Chat-GPT”,你会怎么做?这项任务看起来很困难,有太多东西要讲,以至于很多人完全放弃了理解 LLM 的想法……但是,如果我们不试图理解它,而是将其简化为以下 3 个想法,会怎么样呢: 想法1:核心架构是一个Transformer网络。 想法 2:使用自监督学习在整个互联网上进行训练,并可以使用监督学习在数据集上进行微调 想法 3:核心任务是循环预测下一个单词或 token。 看到了吗?我们大大简化了问题,现在我们只需要了解 3 件事:Transformers、自监督学习和下一个单词预测。在此之后我们可能还需要更多知识,但我们已经掌握了要点。 许多概念乍一看可能非常抽象,但一旦将其分解成几个元素,我们就能突然“明白”了。 视觉 SLAM 是一个类似的问题。一开始,它可能很难理解;有各种不同类型的 SLAM 算法,使用卡尔曼滤波
………………………………