AlphaZero完胜三大棋类程序 5000个TPU自学一天

高山流水 · 发表于 2017-12-7 14:40:54

AlphaZero和国际象棋冠军程序对弈

　　来源：公众号量子位

　　6日，DeepMind团队又在arXiv上扔了个重磅炸弹，新一代AlphaZero在用了强劲的计算资源（5000个一代TPU和64个二代TPU）之后，用不到24小时的时间自我对弈（tabula rasa，也叫白板）强化学习，接连击败了三个世界冠军级的程序 （国际象棋、将棋、围棋）。

　　△ AlphaZero和国际象棋冠军程序对弈

　　其中包括上一代冠军围棋程序AlphaGo Zero，这个程序发布还不到两个月，DeepMind就又把自己颠覆了（所以谷歌团队自我进化速度的时间单位都是按天计，可怕）。

　　AlphaZero的百局战绩

对弈国际象棋程序Stockfish：28胜，72平；
对弈将棋程序 Elmo：90胜，2平，8负；
对弈围棋程序AlphaGo Zero：60胜，40负。

　　AlphaZero自我对弈的训练时间

训练次数 | 训练时间 | 对弈冠军棋类程序
30万，2小时，击败将棋Elmo
11万，4小时，击败国际象棋Stockfish
16.5万，8小时，击败围棋AlphaGo

　　把Go去掉，意味着AlphaZero ，已经是比AlphaGo Zero更通用的程序。

　　一直以来，尽管众多顶尖的AI的程序都超过了人类世界冠军的水平，但它们都只能在单一的领域执行单一的任务，并不能把这种击败人类的超能力泛化到其他任务中。

　　而DeepMind的野心可不仅仅是在棋类游戏上超越人类，这次他们研究出了这个更通用的程序AlphaZero，将会马上投入到蛋白折叠的应用上。

　　官方称，他们不久就会发表相关论文，通过检测出蛋白错误折叠来快速诊断神经退行性疾病，比如阿尔茨海默症，帕金森，囊状纤维化。

　　期待AlphaZero在医疗健康领域的表现。

		自动登录	找回密码
密码			立即注册