文章预览
LG - 机器学习 CV - 计算机视觉 CL - 计算与语言 AS - 音频与语音 RO - 机器人 1、[CL] Evolving Alignment via Asymmetric Self-Play 2、[LG] How many classifiers do we need? 3、[LG] Learning Mixtures of Unknown Causal Interventions 4、[LG] Zipfian Whitening 5、[LG] Deep Learning Through A Telescoping Lens:A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond 摘要:通过非对称自弈进化对齐、我们需要多少个分类器、未知因果干预混合学习、Zipfian Whitening、一个简单模型提供了关于Grokking/梯度提升等的经验见解 1、[CL] Evolving Alignment via Asymmetric Self-Play Z Ye, R Agarwal, T Liu, R Joshi… [Google DeepMind] 通过非对称自弈进化对齐 要点: 现有RLHF的局限性:现有的强化学习来自人类反馈(RLHF)方法依赖于固定的提示分布,这阻碍了模型的可扩展性和泛化能力。模型可能在未见过的提示上表现不佳,或利用训练
………………………………