今天看啥  ›  专栏  ›  AI寒武纪

突发!DeepSeek 放出超重磅全新模型R1:对标o1, 实测超出想象的好,今天可用

AI寒武纪  · 公众号  ·  · 2024-11-21 00:10

主要观点总结

DeepSeek推出全新模型DeepSeek-R1-Lite-Preview,具备强大的推理能力,并且在多个基准测试中超越了包括OpenAI o1-preview在内的知名模型。该模型能够实时展示推理思考过程,强调推理缩放的重要性并展示了其潜力。目前该模型仍处于开发阶段,仅支持网页使用,即将推出开源模型和API。网友对DeepSeek-R1-Lite的表现赞不绝口,并期待正式版的发布。

关键观点总结

关键观点1: DeepSeek-R1-Lite-Preview的推出

DeepSeek推出新的AI模型DeepSeek-R1-Lite-Preview,该模型具备超强的推理能力,并且在多个权威评测中表现出卓越的性能。

关键观点2: 超越OpenAI o1-preview等模型

在多个基准测试中,DeepSeek-R1-Lite-Preview大幅超越了GPT4以及OpenAI的o1-preview等模型,显示出其卓越的性能。

关键观点3: 实时展示推理思考过程

DeepSeek-R1-Lite-Preview的一个独特之处在于,它能够实时展示推理思考过程,这使得用户能够清楚地看到AI的决策过程。

关键观点4: 模型性能的具体数据

在AIME 2024基准测试中,DeepSeek-R1-Lite-Preview的pass@1率达到52.5%,MATH基准测试中的正确率为91.6%,表现出强大的领先优势。

关键观点5: 模型的开源和API

DeepSeek-R1模型将完全开源,并公开技术报告,部署API。目前DeepSeek-R1-Lite-Preview仍处于迭代开发阶段,仅支持网页使用。

关键观点6: 网友的反应和期待

网友对DeepSeek-R1-Lite的表现给予高度评价,并期待正式版的发布以及OpenAI o1完整版的推出。


文章预览

DeepSeek放大招!DeepSeek-R1-Lite-Preview 震撼登场!推理能力超强,没有黑盒,实时展示推理思考过程,直接叫板OpenAI的o1-preview! 直接看性能 DeepSeek-R1-Lite 预览版模型在美国数学竞赛(AMC)中难度等级最高的 AIME 以及全球顶级编程竞赛(codeforces)等权威评测中,大幅超越了 GPT4o,甚至o1-preview 等知名模型 在六个不同基准测试(AIME 2024、MATH、GPQA Diamond、Codeforces、LiveCodeBench、ZebraLogic)中的表现 AIME 2024  :pass@1,模型第一次尝试就给出正确答案的百分比 deepseeker-r1-lite-preview 的表现最佳,达到 52.5%。o1-preview 紧随其后,为 44.6% MATH  :accuracy,模型在数学推理题上的正确率 deepseeker-r1-lite-preview 依然领先,正确率为 91.6%。o1-preview 紧随其后(85.5%),与其他模型拉开较大差距 GPQA Diamond :pass@1,模型在高难度问题上的首答正确率 o1-preview 领先,达到 73.3%,deepseeke ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览