今天看啥  ›  专栏  ›  AI寒武纪

OpenAI推出SimpleQA:专治大模型“胡说八道”,实测o1和Claude3.5都不及格

AI寒武纪  · 公众号  ·  · 2024-10-31 06:09

文章预览

AI 大模型经常“一本正经地胡说八道”,这个问题 OpenAI 也头疼!现在,他们祭出了新武器—— SimpleQA,并已正式开源,这是一个全新的事实性基准测试,专门用来检测大模型回答事实性问题的准确性!OpenAI 的研究科学家 Jason Wei 表示,由于此前一直缺乏一个好的事实性基准测试,所以他们团队决定自己动手,创建一个简单、可靠、易用的评估工具,供所有 AI 研究人员使用 SimpleQA 究竟有何过人之处?总结起来有三大特点: 设置简单到爆:  包含 4000 道由人类编写、清晰无歧义的事实性问题,每个问题都只有一个无可争议的正确答案。模型的回答会被自动评分器评为“正确”、“错误”或“未尝试” 挑战性大,前沿模型也跪了:  SimpleQA 对目前最先进的大模型也构成了巨大挑战!连 o1-preview 和 Claude Sonnet 3.5 的准确率都不到 50%! 参考答案准确度高 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览