文章预览
LG - 机器学习 CV - 计算机视觉 CL - 计算与语言 AS - 音频与语音 RO - 机器人 1、[LG] Reward-free World Models for Online Imitation Learning 2、[LG] Goal Inference from Open-Ended Dialog 3、[CL] Do LLMs estimate uncertainty well in instruction-following? 4、[LG] Bridging the Training-Inference Gap in LLMs by Leveraging Self-Generated Tokens 5、[LG] Heavy-Tailed Diffusion Models 摘要:在线模仿学习的无奖励世界模型、从开放式对话中推断目标、大语言模型是否能很好地估计指令遵循过程中的不确定性、利用自生成Token弥合大语言模型中的训练-推理鸿沟、重尾扩散模型 1、[LG] Reward-free World Models for Online Imitation Learning S Li, Z Huang, H Su [University of California, San Diego] 在线模仿学习的无奖励世界模型 要点: 无奖励在线模仿学习: 本文提出了一种新的在线模仿学习方法,无需显式奖励信号。这与大多数将奖励估计或生成纳入模仿学
………………………………