专栏名称: 夕小瑶科技说
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
今天看啥  ›  专栏  ›  夕小瑶科技说

DeepSeek版o1与OpenAI的o1大PK,到底谁真的炸场了?

夕小瑶科技说  · 公众号  · 科技自媒体  · 2024-11-21 15:05

主要观点总结

文章介绍了DeepSeek新推出的类o1推理模型——DeepSeek R1-Lite,其标志着国产大模型开始进入o1时代。文章对该模型和o1进行了对比测试,涉及数学、编程和开放性问题的挑战。测试结果显示,DeepSeek R1-Lite在某些方面表现优秀,如推理时间长带来的效果提升,但仍存在不足之处,如推理过程中的不确定性和答案的正确性。文章还讨论了Scaling Law和o1的不同路径,指出DeepSeek R1-Lite有很大的提升空间,同时期待国产大模型的未来发展。

关键观点总结

关键观点1: DeepSeek推出类o1推理模型DeepSeek R1-Lite

文章主要介绍了DeepSeek新推出的类o1推理模型——DeepSeek R1-Lite,它是国产大模型进入o1时代的代表。

关键观点2: 模型与o1的对比测试

文章对DeepSeek R1-Lite和o1进行了对比测试,包括数学、编程和开放性问题的挑战,测试结果显示两者在不同方面各有优劣。

关键观点3: DeepSeek R1-Lite的推理时间越长,性能越好

DeepSeek提到,他们的模型在推理时间越长的情况下,性能越好,这一点在测试中得到了体现。

关键观点4: Scaling Law与o1的不同路径

文章还讨论了Scaling Law和o1的不同路径,指出DeepSeek R1-Lite有很大的提升空间,同时期待国产大模型的未来发展。


文章预览

 夕小瑶科技说 原创  作者 | 付奶茶 家人们,DeepSeek 刚推出了他们最新的 类o1推理模型——DeepSeek R1-Lite 。 这代表着国产大模型开始进入o1时代了。 根据官方的介绍,r1的 思维链的长度可以达到数万字 ,采用强化学习技术,推理过程涵盖大量的反思和验证环节。 先简单看一眼指标表现,再拉出来练练。 整体结论是:数学和编程方面,这款模型与o1-preview相当,甚至一些榜单结果上超越了o1。 比如美国数学竞赛(AMC)中最高难度级别的AIME,DeepSeek R1-Lite领先o1一大截! 推理时间更长了!但是效果更牛逼了! DeepSeek提到,他们做了更强势的 推理时间越长,性能越好 。 如下图所示,DeepSeek-R1-Lite-Preview和o1-preview对比,随着思考长度的增加,AIME 上的得分稳步提高。 预览版可以试用了,正式版在路上 DeepSeek团队透露,R1模型目前还在持续打磨中。 后续 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览