文章预览
头图由豆包生成。提示词:一条海底大鲸鱼,赛博朋克,金属发光。 作者 | 王兆洋 邮箱 | wangzhaoyang@pingwest.com 在DeepSeek V3一个月前惊艳亮相后,它背后的“能量来源”DeepSeek R1系列正式发布。 1月20日,DeepSeek在Huggingface上上传了R1系列的技术报告和各种信息。 按照DeepSeek的介绍,它这次发布了三组模型:1)DeepSeek-R1-Zero,它直接将RL应用于基座模型,没有任何SFT数据,2)DeepSeek-R1,它从经过数千个长思想链(CoT)示例微调的检查点开始应用RL,和3)从DeepSeek-R1中蒸馏推理能力到小型密集模型。 DeepSeek-R1在AIME2024上获得了79.8%的成绩,略高于OpenAI-o1-1217。在MATH-500上,它获得了97.3%的惊人成绩,表现与OpenAI-o1-1217相当,并明显优于其他模型。在编码相关的任务中,DeepSeek-R1在代码竞赛任务中表现出专家水平,在Codeforces上获得了2029 Elo评级,在竞赛中表现优
………………………………