|
从仿真到现实:对抗强化学习练就互搏神技 深度强化学习实验室 · 公众号 · · 3 天前 · 访问文章快照 |
|
【留言送5本】清华大学刘知远团队新作,28位AI天才们的热血传奇,比番剧更燃! 深度强化学习实验室 · 公众号 · · 3 周前 · 访问文章快照 |
|
DeepSeek核心强化学习GRPO算法解读:大模型与小模型的不同选择 深度强化学习实验室 · 公众号 · 科技创业 科技自媒体 · 3 周前 · 访问文章快照 |
|
NeurIPS 2024 | DACER:扩散模型与在线强化学习强强联合创造新SOTA! 深度强化学习实验室 · 公众号 · · 1 月前 · 访问文章快照 |
|
清华团队提出RL专用神经网络优化器,性能位居榜首 深度强化学习实验室 · 公众号 · · 2 月前 · 访问文章快照 |
|
【第二弹】强化微调,用少量样本训练专家模型 深度强化学习实验室 · 公众号 · 科技自媒体 · 2 月前 · 访问文章快照 |
|
【清华大学】当鲁棒控制遇到强化学习:零和博弈视角的非线性拓展 深度强化学习实验室 · 公众号 · · 2 月前 · 访问文章快照 |
|
【重磅】阿尔伯塔大学提出“Stream-X”强化学习新范式,无需经验重放、目标网络或批量更新。 深度强化学习实验室 · 公众号 · 科技自媒体 · 3 月前 · 访问文章快照 |
|
【腾讯】招聘强化学习算法研究员 深度强化学习实验室 · 公众号 · · 3 月前 · 访问文章快照 |
|
控制系统可控性检验理论的变革:从模型驱动到数据驱动 深度强化学习实验室 · 公众号 · · 3 月前 · 访问文章快照 |
|
开放式物理RL环境空间,智能体零样本解决未见过人类设计环境! 深度强化学习实验室 · 公众号 · · 3 月前 · 访问文章快照 |
|
【图灵奖得主Yoshua Bengio】提出强化学习新策略, 解决策略KL正则化漏洞问题。 深度强化学习实验室 · 公众号 · · 4 月前 · 访问文章快照 |
|
【NeurlPS2024分享】北航提出“结构信息原理指导的高效智能体探索”(末尾附开源代码) 深度强化学习实验室 · 公众号 · 科技自媒体 AI · 4 月前 · 访问文章快照 |
|
【清华北大腾讯等】联合综述OpenAI o1背后的自博(Self-Play)方法原理与技术细节 深度强化学习实验室 · 公众号 · 算法 科技自媒体 · 5 月前 · 访问文章快照 |
|
【重磅发布】OpenAI o1模型(草莓)问世,五级AGI再突破!使用「强化学习」再立大功。 深度强化学习实验室 · 公众号 · 科技自媒体 · 5 月前 · 访问文章快照 |