专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

AGI会在人类未知的地方欺骗人类吗?揭露超级对齐范式下的“弱至强欺骗”现象

PaperWeekly  · 公众号  · 科研  · 2024-06-30 18:22

文章预览

论文标题: Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization 论文链接: https://arxiv.org/pdf/2406.11431 代码链接: https://github.com/keven980716/weak-to-strong-deception 论文团队: 中国人民大学高瓴人工智能学院、腾讯微信 超级对齐(Superalignment) 随着以大语言模型为代表的人工智能技术的迅速发展,AGI(人工通用智能,Artificial General Intelligence)时代的到来似乎不再遥不可及。与之而来的同样还有关于人类是否还能可靠监督超过人类智能模型(superhuman models)的担忧。 OpenAI 在去年首先提出了 超级对齐 (superalignment) [1] 的概念,即当超级智能拥有比人类更丰富的世界知识、比人类更聪明时,人类此时将作为弱监督者的角色去监督、对齐和控制超级智能。 与目前人类还作为强监督者的角色去训练大语言模型的情况不同,当人类只能提供 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览