AlphaGo，通过深度学习超越人类——围棋AI进化史（2）

安徽扇子 · 发表于 2021-6-25 13:59:20

摘自：日本经济新闻

作者：大桥拓文六段

翻译和整理：找借口安静才发觉已经完结了

围棋软件在“蒙特卡洛树搜索”的辅助下，实力达到了日本业余6段的实力，但是对职业棋手，即便让子也很难赢棋。就在这个时候，2016年英国DeepMind团队开发的AlphaGo击败了世界顶尖棋手李世石九段，AlphaGo就此横空出世。

以此为契机，电脑围棋以及围棋软件，就开始统称为围棋AI。出现这样的风水岭，是因为深度学习技术的出现，由此人工智能的想法就变得越来越接近人类了。

人类在下棋的时候，我们很难认为这个局部已经彻底算清楚了。我们职业棋手在看到某个局面之后，可以通过棋感就能看出是不是好棋。我们在下棋的时候，就根据棋感也自己的伦理计算局面。

很多人通过和其他人对局，然后通过对局提升实力，像是一种工匠精神。AlphaGo也对大量棋盘进行深度学习之后，提升了实力。首先学习了16万盘棋（3000万个局面）。不仅如此，还进行了3000万盘自我对局。职业棋手一辈子最多也只能下3万多盘棋，可见数量之庞大。

但是AlphaGo并非是全靠记忆，为了掌握特定局面下识别输赢而进行学习。通过大量的自我学习，AI掌握了看到局面就能判断出有多少胜率，然后正确的指示出下在哪一手棋才是正确的。

这就相当于，人工智能在看动物图片的时候，就能识别出图片中的动物是狗还是猫一样。虽然刚开始不知道是什么东西，但是通过自我学习，就能识别出是狗还是猫。同样的道理，人工智能在识别局面上的黑白后，就能判断出输赢。即便算不到最后，也能看出这盘棋的输赢，这就是人工智能的强大之处。

AlphaGo在2017年5月，面对当时还是世界第一的中国棋手柯洁九段，最终收获三战全胜之后选择退役。但是和围棋相关的人工智能的研究还在继续。2017年10月发布了AlphaGo Zero。

和最初的AlphaGo版本不同，AlphaGo Zero并没有使用人类的棋谱，只是教了围棋的规则，然后就让电脑不断进行自我对局。通过自我对局，让电脑自己掌握什么是围棋。

AlphaGo在学会规则3个小时后，它的棋盘真的是乱七八糟。过了1天在下满100万盘的时候，感觉已经积累了一定经验，已经达到了业余高段的水平。然后到了第3天，就以100盘全胜战胜了自己的上一个版本。3天之内一共和自己下了490万盘，尝试了无数个手段，在失败中提升了自己的实力。

DeepMind团队此后还开发了Alpha Zero，在一款AI里学习围棋、将棋和国际象棋。最后这三个棋类都达到了职业棋手以上的水平。原本AI只是学习一种本领，但是现在像人类一样可以同时学习几样东西，开发由此深度进行。这也是为了人工智能今后能在社会上适用而进行各种尝试。

比如说，通过AlphaGo的方法发展的AlphaFold的人工智能，预测了蛋白质的构造。本来花了几年进行的预测，在几天就能得到实现，这将对今后解决疾病，以及开发新药有很大作用。而这个AI实际上也很早地预测了新冠病毒的蛋白质构造。以围棋为主题开始研究的AI得到发展，期待今后能为社会做出贡献。

		自动登录	找回密码
密码			立即注册