专栏名称: 赛博禅心

拜AI古佛，修赛博禅心

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

万轮实测：GPT-4.5 不如 GPT-4

赛博禅心 · 公众号 · 科技自媒体 · 2025-02-28 17:59

主要观点总结

本文介绍了对GPT-4.5模型的实测结果，发现其表现不如预期，尤其在情商相关任务上表现较差，与GPT-4相比没有显著改进。文章还提到了GPT系列的发展历史和OpenAI的自吹自擂，以及马斯克对此的态度。

关键观点总结

关键观点1: GPT-4.5实测表现不佳

经过实际数万论实测，发现GPT-4.5表现不如预期，特别是在情商相关任务上表现更差，与GPT-4相比没有显著改进。

关键观点2: GPT系列发展历史回顾

文章回顾了GPT系列的发展历史，从GPT-1到GPT-4.5，介绍了各个版本的特点和改进。

关键观点3: OpenAI和马斯克的态度

文章提到了OpenAI的自吹自擂和马斯克对此的态度，以及马斯克对GPT-4.5模型的反应。

关键观点4: 文章对GPT-4.5的疑问

文章对GPT-4.5模型究竟优化了什么提出了疑问，并指出该模型是否优化了收费。

文章预览

我先给大家道个歉，上一篇讲的不太对：《 GPT-4.5 一手实测：垃圾》是我喷得保守了，觉得 GPT-4.5 只是贵 & 慢，但模型总归是素质在线。　　没想到，经过实际数万论实测：GPT-4.5 还烂　经过总计 30291 次盲测投票后，发现绝大多数人，一边倒喜欢 GPT-4 　　这个盲测，是赛博菩萨 Andrej Karpathy 发起的，他先带着大家回顾了 GPT 系列的发展历史： GPT-1 只能产生基本连贯文本，GPT-2 还很混乱，GPT-3 更为有趣 GPT-3.5 达到可商用水平并引发"ChatGPT 时刻" GPT-4 带来了微妙但全面的提升（更好的措辞、理解能力、类比、幽默感等）。　那么很显然，我们会认为 GPT-4.5 一定会更好：尤其是在"情商"相关任务（世界知识、创造力、理解力、幽默感等）上会有明显改进。　因此，为了评估这些非推理能力， Karpathy 设计了 5 个有趣的 prompt，并拿这个去问 GPT- ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

青岛日报 · 央视紧急提醒：见到这种“草莓熊”瓶子，请立即报警！

19 小时前

南京新闻 · IN南京，赢未来！102个重大项目签约落地

昨天

南京新闻 · IN南京，赢未来！102个重大项目签约落地

昨天

渑池县公安局反诈中心 · 30分钟，95万失而复得！

昨天

渑池县公安局反诈中心 · 30分钟，95万失而复得！

昨天

雷达Finance · 蔚来七年累计亏损超千亿，李斌坦言“我也不是神”

2 天前

雷达Finance · 蔚来七年累计亏损超千亿，李斌坦言“我也不是神”

2 天前

云头版 · （高价）中国电信击败（低价）中国移动，拿下DeepSeek大单

2 天前

云头版 · （高价）中国电信击败（低价）中国移动，拿下DeepSeek大单

2 天前

媒哥媒体招聘 · 影视 | 中闰汉宇文化集团2025秋季招聘！（多地）

5 月前

华思联认证 · PFI 宠物食品创新论坛，全球宠食新趋势

4 月前

四川省证券期货业协会 · 【熊猫投教】什么是“代理维权”黑灰产

4 月前

洁净工程联盟 · 现场安全常见隐患排查（查着查着你就成专家了）

1 月前

i黑马 · 90后接班的暴雷公司，要IPO了

2 周前