今天看啥  ›  专栏  ›  赛博禅心

万轮实测:GPT-4.5 不如 GPT-4

赛博禅心  · 公众号  · 科技自媒体  · 2025-02-28 17:59
    

主要观点总结

本文介绍了对GPT-4.5模型的实测结果,发现其表现不如预期,尤其在情商相关任务上表现较差,与GPT-4相比没有显著改进。文章还提到了GPT系列的发展历史和OpenAI的自吹自擂,以及马斯克对此的态度。

关键观点总结

关键观点1: GPT-4.5实测表现不佳

经过实际数万论实测,发现GPT-4.5表现不如预期,特别是在情商相关任务上表现更差,与GPT-4相比没有显著改进。

关键观点2: GPT系列发展历史回顾

文章回顾了GPT系列的发展历史,从GPT-1到GPT-4.5,介绍了各个版本的特点和改进。

关键观点3: OpenAI和马斯克的态度

文章提到了OpenAI的自吹自擂和马斯克对此的态度,以及马斯克对GPT-4.5模型的反应。

关键观点4: 文章对GPT-4.5的疑问

文章对GPT-4.5模型究竟优化了什么提出了疑问,并指出该模型是否优化了收费。


文章预览

我先给大家道个歉,上一篇讲的不太对:《 GPT-4.5 一手实测:垃圾 》 是我喷得保守了,觉得 GPT-4.5 只是贵 & 慢,但模型总归是素质在线。     没想到,经过 实际数万论实测:GPT-4.5 还烂   经过总计  30291 次盲测投票后,发现绝大多数人,一边倒喜欢 GPT-4     这个 盲测,是赛博菩萨 Andrej Karpathy 发起的 ,他先带着大家回顾了 GPT 系列的发展历史: GPT-1 只能产生基本连贯文本,GPT-2 还很混乱,GPT-3 更为有趣 GPT-3.5 达到可商用水平并引发"ChatGPT 时刻" GPT-4 带来了微妙但全面的提升(更好的措辞、理解能力、类比、幽默感等)。   那么很显然, 我们会认为 GPT-4.5 一定会更好:尤其是在"情商"相关任务 (世界知识、创造力、理解力、幽默感等)上会有明显改进。   因此,为了评估这些非推理能力, Karpathy 设计了 5 个有趣的 prompt,并拿这个去问 GPT- ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览