文章预览
2022年,AI大牛Ilya Sutskever曾预测:「随着时间推移,人类预期和AI实际表现差异可能会缩小」。 ,时长 02:19 然而,一篇最新发表在Nature上的研究表明,事实并非如此! 世界上所有的大模型,甚至指令微调后的LLM,竟是一个「巨大的草台班子」。 论文地址:https://www.nature.com/articles/s41586-024-07930-y 来自VRAIN、剑桥等机构研究人员对o1-preview等领先的LLM开启了全方位评测,结果发现: - LLM & 人类无法保持一致:人类认为复杂的任务,LLM轻易解决;而对人类小菜一碟的问题,LLM却失败了。 - LLM不会「回避」复杂任务,而是强撑面子费力思考半天,最终仍旧答错。 - 提示工程,无法挽救LLM的不可靠。 且看CoT「推理王者」o1-preview,既能解决非常复杂的字谜任务,却在超级简单的任务中犯错。 (上)根据所给字母,成功拼出了electroluminescence(电场发光);(下
………………………………