文章预览
LG - 机器学习 CV - 计算机视觉 CL - 计算与语言 AS - 音频与语音 RO - 机器人 1、[LG] Diversity-Rewarded CFG Distillation 2、[CL] LLMs Are In-Context Reinforcement Learners 3、[CL] Cheating Automatic LLM Benchmarks:Null Models Achieve High Win Rates 4、[LG] Emergent properties with repeated examples 5、[LG] A noise-corrected Langevin algorithm and sampling by half-denoising 摘要:多元化奖励的CFG蒸馏、通过上下文强化学习进行大语言模型学习、大语言模型基准测试作弊、重复样本学习的特性涌现、噪声校正朗格文算法和半去噪采样法 1、[LG] Diversity-Rewarded CFG Distillation G Cideron, A Agostinelli, J Ferret, S Girgin… [Google DeepMind] 多元化奖励的CFG蒸馏 要点: Classifier-Free Guidance (CFG) 的局限性: CFG 虽然提高了生成质量,但它会使推理成本加倍并降低多样性。这种反直觉的权衡是一个关键问题。 多样性奖励的 CFG 蒸馏: 本文介绍了一种新
………………………………