AlphaZero问世:8小时完爆围棋、国际象棋、日本将棋-人工智能动态-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

AlphaZero问世:8小时完爆围棋、国际象棋、日本将棋

来源：互联网发布日期：2017-12-08 13:17:07 浏览：67362次

导读：日前，DeepMind团队发表了最新论文，提出了全新的强化学习算法AlphaZero，它是一种可以从零开始，通过自我对弈强化学习在多种任务上达到超越人类水平的新算法，堪称通用棋类AI。据了解，AlphaZero算法可以在8个小时训练击败李世石版本AlphaGo；再用4小时训...

日前，DeepMind团队发表了最新论文，提出了全新的强化学习算法AlphaZero，它是一种可以从零开始，通过自我对弈强化学习在多种任务上达到超越人类水平的新算法，堪称“通用棋类AI”。

据了解，AlphaZero算法可以在8个小时训练击败李世石版本AlphaGo；再用4小时训练击败世界顶级的国际象棋程序Stockfish；再用2小时训练击败世界顶级将棋程序Elmo。这是DeepMind团队继AlphaGo Zero的研究问世之后，带给我们的又一全新算法，它是“更通用的版本”。

此外，我们看到这次的AlphaZero与AlphaGo Zero有几点不同，首先AlphaGo Zero是在假设结果为赢/输二元的情况下，对获胜概率进行估计和优化。而AlphaZero会将平局或其他潜在结果纳入考虑，对结果进行估计和优化。其次，AlphaGo和AlphaGo Zero会转变棋盘位置进行数据增强，而AlphaZero不会。第三，AlphaZero只维护单一的一个神经网络，这个神经网络不断更新，而不是等待迭代，四，AlphaZero中，所有对弈都重复使用相同的超参数，因此无需进行针对特定某种游戏的调整。

资料显示，阿尔法围棋（AlphaGo）是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能程序，它由谷歌（Google）旗下DeepMind公司戴密斯·哈萨比斯领衔的团队开发。其主要工作原理是“深度学习”。

早在2016年3月，阿尔法围棋与围棋世界冠军、职业九段棋手李世石进行围棋人机大战，以4比1的总比分获胜；2016年末2017年初，该程序在中国棋类网站上以“大师”（Master）为注册帐号与中日韩数十位围棋高手进行快棋对决，连续60局无一败绩；2017年5月，在中国乌镇围棋峰会上，它与排名世界第一的世界围棋冠军柯洁对战，以3比0的总比分获胜。围棋界公认阿尔法围棋的棋力已经超过人类职业围棋顶尖水平，在GoRatings网站公布的世界职业围棋排名中，其等级分曾超过排名人类第一的棋手柯洁。

2017年5月27日，在柯洁与阿尔法围棋的人机大战之后，阿尔法围棋团队宣布阿尔法围棋将不再参加围棋比赛。

2017年10月18日，DeepMind团队公布了最强版AlphaGo ，代号AlphaGo Zero。

而这次，在短短的两个月之后，最强版的AlphaGo Zero就完成了进化，变身AlphaZero。

查看更多内容请点击论文地址：https://arxiv.org/pdf/1712.01815.pdf

相关热词： 强化学习 ai alphago 神经网络

AlphaZero问世:8小时完爆围棋、国际象棋、日本将棋
来源：互联网发布日期：2017-12-08 13:17:07 浏览：67362次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

AlphaZero问世:8小时完爆围棋、国际象棋、日本将棋 来源：互联网 发布日期：2017-12-08 13:17:07 浏览：67362次