测试「天下最聪明」的 Grok3：它真的是模型边际效应的终点吗？

极客公园 · 公众号 · 科技媒体 · 2025-02-19 05:21

主要观点总结

本文介绍了Grok3作为最新AI模型的发布情况，包括其在实际测试中的表现、与DeepSeek R1等模型的对比、马斯克对其的推崇以及公众的反馈。文章还讨论了关于预训练模型可能面临的瓶颈和未来AI模型的发展趋势。

关键观点总结

关键观点1: Grok3的发布及表现

Grok3是xAI团队发布的最新AI模型，马斯克在直播中对其进行了展示。该模型在数学、科学与编程的基准测试上超越了目前的主流模型，但被发现在一些基础问题的测试上无法正确回答，引发网友关注。

关键观点2: Grok3与DeepSeek R1等模型的对比

在实际测试中，Grok3的表现并不优于DeepSeek R1或GPT4.0，其实际算力消耗远超市场预期。尽管在榜单中得分较高，但存在刷分现象和业内质疑其实际能力的情况。

关键观点3: 马斯克对Grok3的推崇与公众反馈

马斯克对Grok3寄予厚望，将其用于SpaceX火星任务计算并预测三年内将实现诺贝尔奖级别突破。然而，公众对Grok3的实际表现存在质疑，对于模型是否能在复杂应用场景中可靠运行持保留意见。

关键观点4: 关于预训练模型的瓶颈和未来发展趋势的讨论

Grok3的表现引发了关于预训练模型是否即将走到尽头的讨论。行业专家指出，随着优质训练数据的不足，模型能力的边际效应迅速曝光。未来AI模型的发展可能需要寻找新的突破点，如真正的自主性和类似人脑的推理能力。

文章预览

消耗了 DeepSeek V3 的 263 倍的算力的 Grok3，就这？作者 | 张勇毅北京时间 2 月 18 日，马斯克与 xAI 团队，在直播中正式发布了 Grok 最新版本 Grok3。早在本次发布会之前，依靠着种种相关信息的抛出，加上马斯克本人 24/7 不间断的预热炒作，让全球对 Grok3 的期待值被拉到了空前的程度。在一周前，马斯克在直播中评论 DeepSeek R1 时，还信心满满地表示「xAI 即将推出更优秀的 AI 模型」。从现场展示的数据来看，Grok3 在数学、科学与编程的基准测试上已经超越了目前所有的主流模型，马斯克甚至宣称 Grok 3 未来将用于 SpaceX 火星任务计算，并预测「三年内将实现诺贝尔奖级别突破」。但这些目前都只是马斯克的一家之言。笔者在发布后，就测试了最新的 Beta 版 Grok3，并提出了那个经典的用来刁难大模型的问题：「9.11 与 9.9 哪个大？」遗憾的是，在不加 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博