强化学习也涌现？自监督RL扩展到1000层网络，机器人任务提升50倍

机器之心 · 公众号 · AI · 2025-03-22 12:00

文章预览

机器之心报道机器之心编辑部虽然大多数强化学习（RL）方法都在使用浅层多层感知器（MLP），但普林斯顿大学和华沙理工的新研究表明，将对比 RL（CRL）扩展到 1000 层可以显著提高性能，在各种机器人任务中，性能可以提高最多 50 倍。论文标题：1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities 论文链接：https://arxiv.org/abs/2503.14858 GitHub 链接：https://github.com/wang-kevin3290/scaling-crl 研究背景最近在人工智能领域里，强化学习的重要性因为 DeepSeek R1 等研究再次凸显出来，该方法通过试错让智能体学会在复杂环境中完成任务。尽管自监督学习近年在语言和视觉领域取得了显著突破，但 RL 领域的进展相对滞后。与其他 AI 领域广泛采用的深层网络结构（如 Llama 3 和 Stable Diffusion 3 拥有数百层结构）相比，基于状态的强化学习任务 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博