文章预览
机器之心报道 机器之心编辑部 虽然大多数强化学习(RL)方法都在使用浅层多层感知器(MLP),但普林斯顿大学和华沙理工的新研究表明,将对比 RL(CRL)扩展到 1000 层可以显著提高性能,在各种机器人任务中,性能可以提高最多 50 倍。 论文标题:1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities 论文链接:https://arxiv.org/abs/2503.14858 GitHub 链接:https://github.com/wang-kevin3290/scaling-crl 研究背景 最近在人工智能领域里,强化学习的重要性因为 DeepSeek R1 等研究再次凸显出来,该方法通过试错让智能体学会在复杂环境中完成任务。尽管自监督学习近年在语言和视觉领域取得了显著突破,但 RL 领域的进展相对滞后。 与其他 AI 领域广泛采用的深层网络结构(如 Llama 3 和 Stable Diffusion 3 拥有数百层结构)相比,基于状态的强化学习任务
………………………………