文章预览
论文标题: Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization 论文链接: https://arxiv.org/pdf/2406.11431 代码链接: https://github.com/keven980716/weak-to-strong-deception 论文团队: 中国人民大学高瓴人工智能学院、腾讯微信 超级对齐(Superalignment) 随着以大语言模型为代表的人工智能技术的迅速发展,AGI(人工通用智能,Artificial General Intelligence)时代的到来似乎不再遥不可及。与之而来的同样还有关于人类是否还能可靠监督超过人类智能模型(superhuman models)的担忧。 OpenAI 在去年首先提出了 超级对齐 (superalignment) [1] 的概念,即当超级智能拥有比人类更丰富的世界知识、比人类更聪明时,人类此时将作为弱监督者的角色去监督、对齐和控制超级智能。 与目前人类还作为强监督者的角色去训练大语言模型的情况不同,当人类只能提供
………………………………