不只是围棋！AlphaGo Zero之后DeepMind推出泛化强化学习算法AlphaZero

机器之心 · 公众号 · AI · 2017-12-07 00:18

文章预览

选自arXiv 作者：David Silver等机器之心编译在 DeepMind 发表 Nature 论文介绍 AlphaGo Zero 之后，这家公司一直在寻求将这种强大算法泛化到其他任务中的可能性。昨天，AlphaGo 研究团队提出了 AlphaZero：一种可以从零开始，通过自我对弈强化学习在多种任务上达到超越人类水平的新算法。据称，新的算法经过不到 24 小时的训练后，可以在国际象棋和日本将棋上击败目前业内顶尖的计算机程序（这些程序早已超越人类世界冠军水平），也可以轻松击败训练 3 天时间的 AlphaGo Zero。AlphaZero 为何如此强大？机器之心对论文全文进行了编译介绍，希望能以此带你一探究竟。 8 个小时训练击败李世石版本AlphaGo 12 小时训练击败世界顶级的国际象棋程序 Stockfish 14小时训练击败世界顶 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

黄建同学 · 另外两个和git相关的mcp服务器：1. Git: 网页链接，用-20250406181650

2 天前

爱可可-爱生活 · 【[60星]danbev/learning-ai：AI/ML学习-20250406165144

2 天前

量子位 · LIama 4发布重夺开源第一！DeepSeek同等代码能力但参数减一半，一张H100就能跑，还有两万亿参数超大杯

2 天前

量子位 · DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊

3 天前

宝玉xp · 将人像变成可爱 3D 微缩立体模型工具：Sora.com 或 G-20250405030626

4 天前

智驾社 · 智能驾驶系统开发课程之基于PreScan的AEB系统开发

10 月前

赛柏蓝 · 药品价格治理雷声大、动作快，药企紧张了

9 月前

AINLP · 现在LLM 的大小为什都设计成6/7B、13B和130B几个档次？

8 月前

购机帮你评 · 数码博主大学买笔记本，居然也踩坑！

5 月前

只只是个小朋友 · 赛力斯开股东会审议分红议案，林园总出席会议，表示：“赛力斯也开始-20241129151409

4 月前