OpenAI推出SimpleQA：专治大模型“胡说八道”,实测o1和Claude3.5都不及格

AI寒武纪 · 公众号 · · 2024-10-31 06:09

文章预览

AI 大模型经常“一本正经地胡说八道”，这个问题 OpenAI 也头疼！现在，他们祭出了新武器—— SimpleQA，并已正式开源，这是一个全新的事实性基准测试，专门用来检测大模型回答事实性问题的准确性！OpenAI 的研究科学家 Jason Wei 表示，由于此前一直缺乏一个好的事实性基准测试，所以他们团队决定自己动手，创建一个简单、可靠、易用的评估工具，供所有 AI 研究人员使用 SimpleQA 究竟有何过人之处？总结起来有三大特点：设置简单到爆：包含 4000 道由人类编写、清晰无歧义的事实性问题，每个问题都只有一个无可争议的正确答案。模型的回答会被自动评分器评为“正确”、“错误”或“未尝试” 挑战性大，前沿模型也跪了： SimpleQA 对目前最先进的大模型也构成了巨大挑战！连 o1-preview 和 Claude Sonnet 3.5 的准确率都不到 50%！参考答案准确度高 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

大皖新闻 · 张继科：乒乓球打法20年没创新

13 小时前

纯银V · 这两天看了不少案例，主要是以去东南亚工作，或商务合作的名义，人被-20250108145929

20 小时前

界面新闻 · 于东来：胖东来集团去年利润8亿多元，员工平均月收入9千多

19 小时前

纯银V · 换个角度看，小作文也可以用于洗粉，洗出来因为身份政治与自己绑定的-20250106114141

2 天前

界面新闻 · 两年多计10亿营收，证监会拟决定对普利制药及相关责任人罚款2420万

3 天前

通用技术集团 · 祝贺！通用技术集团这位医生上榜“中国好医生”

3 月前