专栏名称: 极客公园
科技创新者的大本营。汇聚优秀的产品报道、评测视频和高质量的线下活动。
今天看啥  ›  专栏  ›  极客公园

测试「天下最聪明」的 Grok3:它真的是模型边际效应的终点吗?

极客公园  · 公众号  · 科技媒体  · 2025-02-19 05:21
    

主要观点总结

本文介绍了Grok3作为最新AI模型的发布情况,包括其在实际测试中的表现、与DeepSeek R1等模型的对比、马斯克对其的推崇以及公众的反馈。文章还讨论了关于预训练模型可能面临的瓶颈和未来AI模型的发展趋势。

关键观点总结

关键观点1: Grok3的发布及表现

Grok3是xAI团队发布的最新AI模型,马斯克在直播中对其进行了展示。该模型在数学、科学与编程的基准测试上超越了目前的主流模型,但被发现在一些基础问题的测试上无法正确回答,引发网友关注。

关键观点2: Grok3与DeepSeek R1等模型的对比

在实际测试中,Grok3的表现并不优于DeepSeek R1或GPT4.0,其实际算力消耗远超市场预期。尽管在榜单中得分较高,但存在刷分现象和业内质疑其实际能力的情况。

关键观点3: 马斯克对Grok3的推崇与公众反馈

马斯克对Grok3寄予厚望,将其用于SpaceX火星任务计算并预测三年内将实现诺贝尔奖级别突破。然而,公众对Grok3的实际表现存在质疑,对于模型是否能在复杂应用场景中可靠运行持保留意见。

关键观点4: 关于预训练模型的瓶颈和未来发展趋势的讨论

Grok3的表现引发了关于预训练模型是否即将走到尽头的讨论。行业专家指出,随着优质训练数据的不足,模型能力的边际效应迅速曝光。未来AI模型的发展可能需要寻找新的突破点,如真正的自主性和类似人脑的推理能力。


文章预览

消耗了 DeepSeek V3 的 263 倍的算力的 Grok3,就这? 作者 | 张勇毅 北京时间 2 月 18 日,马斯克与 xAI 团队,在直播中正式发布了 Grok 最新版本 Grok3。 早在本次发布会之前,依靠着种种相关信息的抛出,加上马斯克本人 24/7 不间断的预热炒作,让全球对 Grok3 的期待值被拉到了空前的程度。在一周前,马斯克在直播中评论 DeepSeek R1 时,还信心满满地表示「xAI 即将推出更优秀的 AI 模型」。 从现场展示的数据来看,Grok3 在数学、科学与编程的基准测试上已经超越了目前所有的主流模型,马斯克甚至宣称 Grok 3 未来将用于 SpaceX 火星任务计算,并预测「三年内将实现诺贝尔奖级别突破」。 但这些目前都只是马斯克的一家之言。笔者在发布后,就测试了最新的 Beta 版 Grok3,并提出了那个经典的用来刁难大模型的问题:「9.11 与 9.9 哪个大?」 遗憾的是,在不加 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览