文章预览
专注AIGC领域的专业社区,关注微软 、百度文心一言、讯飞星火等大语言模型(LLM)的发展和 应用 落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注! 善于整活玩猜字谜的OpenAI首席执行官Sam Altman又发了一条神秘消息,“我听说o2在GPQA的性能测试达到105%。” 要知道,博士级人类在GPQA的准确率平均只有65%,非专家级的普通人仅有34%。而OpenAI在9月发布的o1模型的测试数据也只有78%。 如果o2真能达到105%确实相当恐怖,已经恐怖的多出了5%~~~这完全就是不可能的事情啊,MMLU、MaTH、CPQA、GSM8K、GPQA等基准测试范围怎么可能超出100%呢? 你要能在满分100的数学试卷中考出105分,老师见你都得鞠一躬绕着走 ~~ 随后Sam Altman自己也发现这个错误,连发两条推文: 要命啊,账号错误了。我真的很感激自己能把自己逗得哈哈大笑,这是一种很好的生活方式。 但关于
………………………………