主要观点总结
本文介绍了一篇关于大模型的论文在Nature上引起热议。论文发现更大且更遵循指令的大模型变得更不可靠,GPT-4在回答可靠性上不如GPT-3。研究发现人类难度预期与模型表现存在不一致性,并指出任务回避现象、模型对指令表述的敏感性以及人类监督的不可靠性等问题。论文作者通过三个关键方面分析了LLMs的可靠性问题,并提到了一些可能的解决方案。论文引发专家反思人工智能面临的挑战。
关键观点总结
关键观点1: 论文发现大模型存在可靠性问题。
随着模型规模增大,虽然带来了前所未有的功能,但也带来了可靠性问题。包括GPT、LLaMA和BLOOM系列等模型都存在类似问题。
关键观点2: 论文研究了LLMs可靠性的三个关键方面。
这三个方面包括难度不一致、任务回避和对提示语表述的敏感性。论文分析了这些问题随着任务难度如何演变,并指出目前没有让人类确定LLMs可以信任的安全操作条件。
关键观点3: 论文揭示了人类难度预期与模型表现的不一致性。
人类无法准确判断LLMs的安全操作空间,导致在某些应用中存在担忧。此外,人类监督无法有效纠正模型的错误,这也加剧了这种不一致性。
关键观点4: 论文作者提出了可能的解决方案。
作者建议可以使用人类难度预期去训练或微调模型,利用任务难度和模型自信度去教会模型规避超出自身能力范围的难题。同时,他也强调了评估模型时需要考虑人类的难度预期和模型的回避行为。
关键观点5: 论文引发了专家对人工智能挑战的思考。
论文揭示了人工智能在平衡模型扩展和可靠性方面的微妙挑战,专家开始反思是否正在创造的社会期望的机器智能。
文章预览
一水 发自 凹非寺 量子位 | 公众号 QbitAI 00后国人一作登上Nature,这篇大模型论文引起热议。 简单来说,论文发现:更大且更遵循指令的大模型也变得更不可靠了,某些情况下 GPT-4在回答可靠性上还不如GPT-3 。 与早期模型相比,有更多算力和人类反馈加持的最新模型,在回答可靠性上实际愈加恶化了。 结论一出,立即引来20多万网友围观: 在Reddit论坛也引发围观议论。 这让人不禁想起,一大堆专家/博士级别的模型还不会“9.9和9.11”哪个大这样的简单问题。 关于这个现象,论文提到这也反映出, 模型的表现与人类对难度的预期不符 。 换句话说,“LLMs在用户预料不到的地方既成功又(更危险地)失败”。 Ilya Sutskever2022年曾预测: 也许随着时间的推移,这种差异会减少。 然而这篇论文发现情况并非如此。不止GPT,LLaMA和BLOOM系列,甚至OpenAI新的 o1
………………………………