主要观点总结
文章介绍了关于大模型在训练过程中可能遗忘不需要保留的知识,如版权和私人内容的研究。研究者们提出了反学习概念以移除模型中的特定知识。然而,新研究发现,对遗忘后的模型进行量化可能导致大部分被遗忘的知识恢复。文章详细描述了这一发现的原因,分析了现有反学习方法的局限性,并提出了一个名为SURE的策略来改进这一状况。此外,文章还讨论了量化技术对遗忘的影响,并提供了实验结果的细节。
关键观点总结
关键观点1: 大模型在训练过程中可能无意学习到不希望保留的知识,如版权和私人内容。
为了解决这一问题,研究者提出了反学习的概念,旨在从模型中移除特定知识。
关键观点2: 研究发现,对遗忘后的模型进行量化可能导致大部分被遗忘的知识恢复。
这种现象的原因在于现有反学习方法为了保持模型效用而使用较小的学习率和效用约束,导致在量化过程中模型权重的微小变化。
关键观点3: 为了解决这个问题,研究者提出了一种名为SURE的策略,该策略通过构建模块级显著性图来指导遗忘过程,以减少量化后知识恢复的风险。
实验验证了SURE策略的有效性,与现有反学习方法相比,它在全精度模型上实现了更好的遗忘性能和模型效用。
文章预览
西风 发自 凹非寺 量子位 | 公众号 QbitAI 4- bit量化 ,能让现有 反学习/机器遗忘 技术失灵! 也就是大模型在人类要求下“假装”忘记了特定知识 (版权、私人内容等) ,但有手段能让它重新“回忆”起来。 最近,来自宾夕法尼亚州立大学、哈佛大学、亚马逊团队的一项新研究在reddit、Hacker News上引起热议。 他们发现对“失忆”的模型量化 (quantization) ,可以部分或甚至完全恢复其已遗忘的知识。 原因是在量化过程中,模型参数的微小变化可能导致 量化后的模型权重与原始模型权重相同 。 看到这项研究后,不少网友也表示有点意外: 从信息理论的角度来看这有点出人意料,似乎已经在完整的32-bit中成功移除了这些知识,但当你将其压缩到4-bit时,知识又重新出现了。 这让人不禁想知道在压缩/量化步骤中到底丢失了什么信息。 可能这些知识从
………………………………