文章预览
大家好,我是很帅的狐狸🦊 最近几天被 DeepSeek 给刷屏了。 因为它用非常低的成本训练了个 R1模型 ,其性能甚至可以比肩OpenAI的顶级推理模型o1。 这直接干崩了英伟达的股价(市场开始质疑训练AI其实不用烧那么多钱囤卡)。 截图/ 雪球APP 不过让我觉得最有意思的,并不是它对英伟达股价的冲击,也不是中美AI差距的缩窄,而是 它的训练方法,给了我很大的启发(在个人学习上) 。 先简单介绍两句R1模型—— R1跟我们平时用来润色文案、总结文章的普通大语言模型不大一样,它具备一定的 推理能力 。 它跟OpenAI的o1类似,可以通过增加 「思维链」 (自言自语)来提高推理能力,让答案质量变高(特别是理工科题目)—— 截图/ DeepSeek 而要让 大语言模型 具备推理能力(也就是有「思维链」的过程),过往的做法,一般是在基础模型上,通过 SFT
………………………………