专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

Ilya预言错了!华人Nature一作给RLHF「判死刑」,全球大模型都不可靠

新智元  · 公众号  · AI  · 2024-09-29 13:03
    

主要观点总结

本文报道了关于大模型可靠性的研究,指出包括最强模型在内的所有大模型都存在不可靠问题。研究发现,大模型在难度不一致性、任务回避和提示敏感性和稳定性等方面存在问题。尽管使用了强化学习等技术,但大模型的可靠性并未得到显著改善。作者呼吁在设计和开发通用AI系统时,特别是在高风险领域,需要注意大模型的这些问题,并警惕过度依赖人类监督带来的潜在风险。

关键观点总结

关键观点1: 大模型的不可靠性

研究发现,包括最强模型在内的大模型,存在不可靠的问题。它们在面对一些任务时,会出现回答不准确、回避任务或答案不稳定的情况。

关键观点2: 难度不一致性

大模型在解决复杂任务时表现出色,但在面对简单任务时却经常出错。这种难度不一致性使得人们难以确定在何种条件下可以信任这些模型。

关键观点3: 任务回避现象

尽管大模型在解决难题时表现出自信,但它们并不懂得回避超出自己能力范围的任务。即使面对超出自己能力范围的任务,它们也会尝试给出答案,但往往答案是错误的。

关键观点4: 提示敏感性和稳定性问题

大模型对提示词的反应存在敏感性和不稳定性的问题。相同的问题,使用不同的提示词可能会导致模型给出完全不同的答案。

关键观点5: RLHF技术的无效性

通过人类反馈强化学习优化后的LLM,其可靠性并未得到显著改善。人类监督在难度较高的任务中往往存在判断误差,导致大模型的RLHF结果并不理想。


文章预览

   新智元报道   编辑:编辑部 HXY 【新智元导读】 Ilya两年前观点,竟被Nature论文反驳了!来自剑桥大学等团队最新研究发现,所有大模型并不可靠,包括最强o1。 2022年,AI大牛Ilya Sutskever曾预测:「随着时间推移,人类预期和AI实际表现差异可能会缩小」。 然而,一篇最新发表在Nature上的研究表明,事实并非如此! 世界上所有的大模型,甚至指令微调后的LLM,竟是一个「巨大的草台班子」。 论文地址:https://www.nature.com/articles/s41586-024-07930-y 来自VRAIN、剑桥等机构研究人员对o1-preview等领先的LLM开启了全方位评测,结果发现: - LLM & 人类无法保持一致:人类认为复杂的任务,LLM轻易解决;而对人类小菜一碟的问题,LLM却失败了。 - LLM不会「回避」复杂任务,而是强撑面子费力思考半天,最终仍旧答错。 - 提示工程,无法挽救LLM的不可靠。 且看CoT「 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览