文章预览
周末看了些和AI大模型相关的资料,和你们分享下,不一定对。 最近国内爆火的 幻方DeepSeek V3大约用十分之一的算力就基本实现了OpenAI最新版本的数理推理能力,被称为大模型界的pdd。 这倒不是因为幻方的技术更好,而是用到了一种叫做“数据蒸馏”的技术。 什么叫做数据蒸馏? 个人理解,就是对着标准答案来做作业。 做难题的时候,很多时候都是在试错,就是用各种思路都做一遍,最后找到那个对的。类似于寻宝的时候有100条路,你可能要把前面99条路都走到尽头,才找到正确的那条。 但假如你预先知道标准答案(宝藏坐标),那很快就可以否定掉大部分路径,比方说坐标告诉你位置在北边,那就可以把通往东南西三个方向的路都直接删除掉。 在大模型领域,水平最领先的探索者不知道标准答案是啥,只能这100条路都走一遍。 但当领先者把
………………………………