徽帮棋友会

 找回密码
 立即注册
搜索
热搜: 围棋
查看: 5601|回复: 0
打印 上一主题 下一主题

《美丽心灵》中,诺奖获得者约翰纳什为何说围棋是有缺陷的游戏?

[复制链接]

1612

主题

2312

帖子

7790

积分

论坛元老

Rank: 8Rank: 8

积分
7790
跳转到指定楼层
楼主
发表于 2020-10-6 13:09:20 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
约翰纳什是个非常著名也非常传奇的人物,他的著名也来源于他的传奇。约翰纳什出生于1928年,在21岁的时候,约翰纳什就以一篇仅仅27页的论文获得了博士学位。其中有一项重要的发现,就是后来被称为“纳什均衡”的博弈理论。约翰纳什在1994年获得了诺贝尔经济学奖。
约翰纳什更为最出名的就是他因精神分裂导致疯癫,1958年,30岁的约翰纳什开始陷入了臆想的空虚世界,分不清虚幻和现实了。直到80年代末期,纳什才渐渐康复,从疯癫中苏醒。这段时间长达30年。


普林斯顿学院对约翰纳什体现出了极大的容纳,对科学家的极大尊重是美国强大的原因之一。更令人感动的是,约翰纳什的妻子也是他的学生艾里西亚一直没有放弃他,即便是后来实在无法忍受约翰纳什的狂躁疯癫被迫离婚,也没有再婚,而是一直在默默照顾他,直到纳什苏醒。


这段感人的故事被好莱坞拍成了电影,这就是《美丽心灵》,该片于2001年12月21日在美国上映,并获得了第74届奥斯卡金像奖最佳影片奖。
在影片中,还是大学生的约翰纳什和同学在下围棋,他边下边说“我的每一步时都最优,我一定可以赢你”,但结果却是纳什输了,纳什表现出对结果的无法理解和无法接受,他推倒了棋盘,在同学的哄笑中慌乱生气的走了,一边走一边说“围棋是个有缺陷的游戏”。


细心的观众会发现电影中的对局基本就是在乱下,这个情节只是为了突出博弈的特点,也就是对弈中对手的选择会根据你的选择发生变化,并不是静止的一直能线性演进下去。
我们试着推演一下围棋和博弈论的关系。
“博弈论”是一种研究“斗争”的科学,是探究在“自利”的大前提下,个体如何获得最大收益的策略。其实围棋就是一种斗争的游戏,最终也是要以双方围空的多少分出胜负。
博弈论中的核心就是大名鼎鼎的“纳什均衡”,纳什均衡中最经典的案例就是广为人知的“囚徒困境”


两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确凿,二者都判刑八年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。
我们简单了解一下什么是“纳什均衡”?
纳什均衡(Nash equilibrium)又称非合作博弈均衡,是指在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作支配性策略。如果任意一位参与者在其他所有参与者的策略确定的情况下,其选择的策略是最优的,那么这个组合就被定义为纳什均衡。
纳什均衡可以分成两类:“纯战略纳什均衡”和“混合战略纳什均衡”。
混合战略博弈均衡中要用概率计算,因为每一种策略都是随机的,达到某一概率时,可以实现支付最优。因为机率是连续的,所以即使战略集合是有限的,也会有无限多个混合战略。

围棋可以看做是一个混合战略博弈均衡。由于AI的引入,大家对围棋中的胜率其实也就是“获胜的概率”已经很熟悉了。


围棋是两个人之间的非合作博弈游戏,两个人每一个回合都是一个混合战略,一盘棋就是一个上百甚至数百个回合的混合战略集合。每个回合实际都有一个最优解,以前由于人们的水平不同,理解也不同,所以很难给出最优解。阿法狗出现后,它给出的胜率基本就是每个回合的最优解了,因为它战胜了所有的人类棋手,大家不得不信服。之所以说基本,是因为人类棋手偶尔也会下出比AI更好胜率更高的棋来。这也从另一个角度证明了围棋的复杂程度。
AI能战胜人类棋手,就是因为它在每一个博弈回合都取得了最优解,也就是胜率最高的下法,这些胜率持续累加起来自然也就是取得了胜利。
人类棋手则很难做到这一点,除了计算力和判断力的原因,还有就是人类总想下自己喜欢的棋,喜欢的棋并不代表是胜率最高的棋。举例来说,日本超一流武宫正树九段酷爱“宇宙流”下法,但现在的AI根本不推荐宇宙流,这样人类棋手就会很痛苦。站在博弈论的角度也很好理解,在水平相当也就是认知能力相当的情况下,你想下的棋,一定是对手千方百计不让你走到的棋,所以现在的围棋基本没有定式了。
我们再回到文章开头,约翰纳什认为自己每一步下法都是最优解,他理所应当会取得最后的胜利,但实际上,他认为的最优解可能并不是真正的最优解,用围棋行话说就是“判断失误”,所以输掉了。
不是围棋游戏有缺陷,而是人们的认知水准有缺陷。“囚徒困境”的成立前提就是两个罪犯对彼此的认知不同,也就是双方都不相信对方能死扛,也就是信息不对称,所以宁肯获得8年刑期,也不冒险获得10年刑期。


“知己知彼,百战不殆”,实际早在2000年前,孙子就已经告诉世人,信息的获取能力才是博弈获胜与否的关键。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

徽帮棋友会 ( 苏ICP备2022041640号-1

GMT+8, 2024-5-8 23:37 , Processed in 0.205390 second(s), 19 queries .

Powered by Discuz! X3.3

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表