文章预览
转自 | 新智元 编辑 | 编辑部 HXY 【导读】 Ilya两年前观点,竟被Nature论文反驳了!来自剑桥大学等团队最新研究发现,所有大模型并不可靠,包括最强o1。 2022年,AI大牛Ilya Sutskever曾预测:「随着时间推移,人类预期和AI实际表现差异可能会缩小」。 然而,一篇最新发表在Nature上的研究表明,事实并非如此! 世界上所有的大模型,甚至指令微调后的LLM,竟是一个「巨大的草台班子」。 论文地址:https://www.nature.com/articles/s41586-024-07930-y 来自VRAIN、剑桥等机构研究人员对o1-preview等领先的LLM开启了全方位评测,结果发现: - LLM & 人类无法保持一致:人类认为复杂的任务,LLM轻易解决;而对人类小菜一碟的问题,LLM却失败了。 - LLM不会「回避」复杂任务,而是强撑面子费力思考半天,最终仍旧答错。 - 提示工程,无法挽救LLM的不可靠。 且看CoT「推理王者」
………………………………