文章预览
经过一周的激烈角逐,OpenAI的o1模型在lmsys排行榜上取得了显著的成绩。同时,为了满足公众对模型性能的好奇心,OpenAI公开了o1在测评中使用的所有代码。 备受期待的OpenAI o1模型在lmsys的测评中表现出色。 不出所料,o1-preview在各个领域均取得了领先地位,超越了GPT-4o的最新版本,在数学、复杂提示和编程领域尤为突出; 而o1-mini,尽管名字中有“mini”,却也与GPT-4o并列综合排名第二,同样在复杂提示、编程、数学等领域登顶。 lmsys社区官方在社交平台上表示,这项测试结果是基于6k+社区投票得出的,并将OpenAI的这一成就描述为“难以置信的里程碑”。 o1-preview在所有模型中的胜率均超过50%,尤其是与04-09版GPT-4-Turbo的对比中,胜率达到了88%。 o1-mini在与o1-preview的对决中胜率为46%,与09-03版GPT-4o的对决中胜率为48%,显示出两者实力相当。 值得注意的
………………………………