什么是游戏?
什么是博弈论?古语有云,事如棋。生活中的每个人都像一个棋手,每一个动作都像在无形的棋盘上放一枚硬币。聪明而谨慎的棋手,相互揣摩,相互牵制,大家都力争胜,下了许多精彩多变的棋局。博弈论就是研究棋手“下棋”的理性和逻辑部分,并将其系统化为一门科学。换句话说,就是研究个体如何在复杂的互动中获得最合理的策略。实际上,博弈论来源于古代的游戏或棋牌等游戏。数学家通过建立一个自我完整的逻辑框架和体系,抽象具体问题,研究其规律和变化。这不是一项容易的任务。以最简单的双人游戏为例。你想一想,就知道有很大的玄机。如果假设双方都准确地记住了自己和对手的每一步棋,并且都是最“理性”的玩家,那么A在玩的时候,为了赢得比赛,就不得不仔细考虑B的想法,B在玩的时候也不得不考虑A的想法,那么A就不得不认为B在考虑他的想法,B当然知道A已经考虑过了。
面对这样的大雾,博弈论如何开始分析和解决问题,如何找到最优解将抽象的数学问题作为现实的归纳,从而在理论上为指导实践提供可能?现代博弈论是由匈牙利数学家冯·诺依曼在20世纪20年代创立的,他与经济学家奥斯卡·摩根斯坦合作于1944年出版的巨著《博弈论与经济行为》标志着现代系统博弈论的初步形成。对于非合作、纯竞争的博弈,诺依曼只解决两人零和博弈——就像两个人下棋或打乒乓球,一个人赢了一局,另一个人输了另一局,净利润为零。这里的抽象博弈问题是,在给定参与者集合(双方)、策略集合(所有棋步)和利润集合(赢家和输家)的情况下,是否以及如何找到一个理论上的“解”或“平衡”,即对于双方参与者来说最“合理”和最优的具体策略。什么叫“合理”?应用传统决定论中的“最小-最大”准则,即博弈的每一方都假设对方所有的优缺点的根本目的都是使自己最大程度地吃亏,并据此优化自己的对策,诺依曼从数学上证明了通过一定的线性运算,每一个二人零和博弈都可以找到一个“最小-最大解”。通过一定的线性运算,两个竞争者以概率分布的形式随机使用一组最优策略中的每一步,从而最终为对方实现最大且相等的利润。当然,言下之意是,这个最优策略并不依赖于对手在博弈中的操作。通俗地说,这个著名的极大极小定理所体现的基本“理性”思想就是“抱最好的希望,做最坏的准备”。
2.在经济学中,“猪的收益”是一个著名的博弈论例子。
这个例子讲的是:圆里有两个*,一个大,一个小。圆圈的一边有一个踏板。每踩一次踏板,就会有少量的食物落在远离踏板的圆圈另一侧的喂食口。如果其中一个*踩在踏板上,另一个*将有机会先吃掉掉在另一边的食物。当小*踩下踏板的时候,大*刚好会在小*跑到食槽之前吃完所有的食物;如果大的踩了踏板,小的还没吃完掉下来的食物,还有机会跑到食槽,争取剩下的另一半。
那么,两个*各自会采取什么策略呢?答案是:小*会选择“搭便车”策略,即在低谷期舒舒服服地等待;而达*为了一点剩菜,不知疲倦地在踏板和食槽之间奔跑。
是什么原因呢因为,小*蹬会什么也得不到,但是不蹬可以吃到食物。对于小*来说,不管大*是否踩踏,不踩踏始终是一个不错的选择。另一方面,大*知道小*不会踩油门。自己踩油门总比不踩好,所以我得自己来。
“小躺大跑”的现象是故事里的游戏规则造成的。规则的核心指标是:每次落下的东西数量和踏板到喂食口的距离。
如果改变核心指标,圈内会不会出现同样的“小*躺大*跑”的场景?试试吧。
变化方案1:还原方案。喂食只有原来体重的一半。结果小家伙们就不蹬了。小*要踩,大*要把菜吃完;如果大的踩上去,小的就会把食物吃完。谁蹬就意味着给对方贡献食物,所以谁也不会有蹬的动力。
如果目的是让孩子多蹬,这个游戏规则的设计显然是失败的。
变化方案二:增量方案。比以前多喂一倍。结果是,无论是小个子还是大个子都会蹬。谁想吃就蹬。反正对方不会一次吃完所有的食物。小*和大*相当于生活在一个物质相对丰富的“共产”社会,竞争意识不是很强。
对于游戏规则的设计者来说,这个规则的成本是相当高的(一次提供双份食物);而且由于竞争不强,让孩子多蹬也没什么效果。
变化方案三:减量加移位方案。只喂原来重量的一半,但同时要把喂食口移到踏板附近。结果小*和大*都拼命蹬。等的人不会吃,努力的人会得到更多。每一次收获都只是花。
对于游戏设计师来说,这是最好的解决方案。成本不高,但收获最大。
独创的“智力游戏”故事启发了竞争中的弱者(小*)等待最佳策略。但对于社会来说,由于小*未能参加比赛,小*搭便车时的社会资源配置并不是最优的。为了使资源得到最有效的配置,规则的设计者不希望看到任何人搭便车,政府也是如此,公司的老板也是如此。能否彻底杜绝“搭便车”现象,取决于游戏规则的核心指标设置是否得当。
比如公司的激励制度设计,奖励太强,而且还是持股和期权。公司的所有员工都成了百万富翁。且不说成本高,员工的积极性也不一定高。这相当于“智力游戏”
增量方案描述的情况。但如果奖励不给力,观众有分成(甚至是不干活的“小*”),曾经很努力的大*也就没有动力了——就像《智力游戏》第一个缩减计划里描述的情况。最好的激励机制设计就好比换第三种方案——减员加换班。奖励不是人人共享,而是针对个人(如业务比例提成),既节约了成本(对公司而言),又杜绝了“搭便车”现象,可以实现有效激励。
很多人没有看过《智力游戏》的故事,但都在有意识地运用小策略。散户在股市里等着庄家上轿;等待产业市场出现有利可图的新产品,然后大规模复制游资牟取暴利;公司里不创造效益但分享成果的人,等等。因此,对于制定经济管理的各种游戏规则的人来说,他们必须了解“智力游戏”指数变化的原因。
3.背景知识:纳什博弈论的原理和应用。
北京晚报
纳什在1950和1951年关于非合作博弈论的两篇重要论文,彻底改变了人们对竞争和市场的看法。他证明了非合作博弈及其均衡解,并证明了均衡解的存在性,即著名的纳什均衡。从而揭示了博弈均衡与经济均衡的内在联系。纳什的研究奠定了现代非合作博弈论的基石,后来的博弈论研究基本遵循了这条主线。然而,纳什的天才发现遭到了冯·诺依曼的断然否定,在此之前,他还受到了爱因斯坦的冷遇。但骨子里挑战和鄙视权威的天性,让纳什坚持自己的观点,最终成为大师。要不是三十多年的严重精神疾病,恐怕他早就
站在诺贝尔奖的领奖台上,我永远不会和别人分享这份荣誉。
纳什是一位非常有才华的数学家,他的主要贡献是在1950到1951在普林斯顿攻读博士学位时做出的。但他的天才发现,非合作博弈的均衡,即“纳什均衡”,并不是一帆风顺的。
1948纳什赴普林斯顿大学攻读数学博士学位。那年他还不到20岁。当时的普林斯顿,人杰地灵,高手如云。爱因斯坦、冯·诺依曼、列夫谢茨(数学系系主任)、阿尔伯特·塔克、阿伦佐·切赫、哈罗德·库恩、诺曼·斯汀·罗德斯、精灵福克斯等。都在这里。博弈论主要由冯·诺依曼(1903—1957)创立。他是出生于匈牙利的天才数学家。他不仅创立了经济博弈论,还发明了计算机。早在20世纪初,策梅洛、波莱尔和冯·诺依曼就已经开始研究博弈的精确数学表达式。直到1939,冯·诺依曼认识了经济学家奥斯卡·莫根施特恩,并与他合作,使博弈论进入了经济学的广阔领域。
65438-0944年,他与奥斯卡·摩根斯坦合著的代表作《博弈论与经济行为》出版,标志着现代系统博弈论的初步形成。虽然对游戏性质问题的研究可以追溯到19世纪甚至更早。比如1838的古诺简单双寡头博弈;1883的伯特兰和1925的埃奇沃斯研究了两个寡头的产量和价格垄断;2000多年前,我国著名军事家孙武的后人孙膑用博弈论帮助田忌赢得赛马,等等,都是早期博弈论的萌芽,特点是研究零星分散,偶然性大,无系统。冯·诺依曼和摩根·斯特恩在《博弈论与经济行为》一书中提出的标准、扩展和合作博弈模型解的概念和分析方法奠定了这门学科的理论基础。合作博弈在20世纪50年代达到顶峰。然而,诺依曼博弈论的局限性日益暴露。由于过于抽象,其应用范围受到很大限制。长期以来,人们对博弈论的研究知之甚少,博弈论只是少数数学家的专利,因此其影响力非常有限。正是在这个时候,非合作博弈——“纳什均衡”应运而生,它标志着博弈论新时代的开始!纳什不是一个按部就班的学生。他经常逃学。据他的同学回忆,他们根本不记得什么时候和纳什一起上过完整的必修课,但纳什辩称,他至少上过Steen Rhodes的代数拓扑。Steen Rhodes是这门学科的创始人,但上了几节课之后,Nash认定这门课程不合他的口味。于是他又走了。然而,纳什毕竟是一个具有天赋的非凡人物。他对数学王国的每一个分支都深深着迷,比如拓扑学、代数几何、逻辑学、博弈论等等。纳什经常表现出他与众不同的自信和自负,充满了咄咄逼人的学术野心。1950整个夏天,纳什都在忙于紧张的考试,他的博弈论研究被打断,他觉得这是一种极大的浪费。不知道这种暂时的“放弃”,在潜意识的不断思考下,已经逐渐形成了清晰的脉络,顿时灵感迸发!今年10的月份,他突然感到了一股才华和梦想的涌动。其中最耀眼的亮点就是非合作博弈均衡的概念,这一概念在未来将被称为“纳什均衡”。纳什的主要学术贡献体现在1950和1951的两篇论文(包括一篇博士论文)中。只是到了1950,他才把自己的研究成果写成了一篇题为《非合作博弈》的长篇博士论文,发表在1950+01的《美国科学院月报》上,立刻引起了轰动。说起来,全靠大卫·盖尔修士的作品了。就在被冯·诺依曼降格后没几天,他遇到了盖尔,告诉他,他把冯·诺依曼的“极大极小解”推进到了非合作博弈领域,找到了普适的方法和均衡点。盖尔仔细听着。他终于意识到,纳什的想法,比冯·诺依曼的合作博弈论,更能反映真实情况,其严谨而优美的数学证明给他留下了极其深刻的印象。盖尔建议他整理一下,马上发表,以免别人捷足先登。纳什,一个初出茅庐的男孩,不知道竞争的危险,也从未想过要这样做。于是,盖尔充当了他的“代理人”,代他起草了给科学院的短信。该部门的负责人Lev Shetz亲自将手稿提交给了科学院。纳什写的文章不多,就那么几篇,但也足够了,因为都是名列前茅的。这一点也值得深思。国内一个教授需要在“核心期刊”上发表多少篇文章?按照这个标准,纳什可能不够格。
莫里斯,65438-0996年诺贝尔经济学奖得主,在牛津大学担任埃奇沃思经济学教授时,没有发表过任何文章。特殊人才要有特殊的选拔方式。
纳什大学时就开始研究纯数学的博弈论,65438到0948进入普林斯顿大学后变得更加游刃有余。二十出头的时候,他已经成为世界著名的数学家。特别是在经济博弈论领域,他做出了划时代的贡献,是继冯·诺依曼之后最伟大的博弈论大师之一。他提出的著名的纳什均衡概念在非合作博弈理论中起着核心作用。后来的研究者对博弈论的贡献都是基于这个概念。纳什均衡的提出和不断完善,为博弈论在经济学、管理学、社会学、政治学、军事学等领域的广泛应用奠定了坚实的理论基础。
囚犯的困境
达利理论中的一个小故事
要理解纳什的贡献,首先要知道什么是非合作博弈问题。目前几乎所有的博弈论教材都会讲到“囚徒困境”的例子,每本书里的例子都差不多。
博弈论毕竟是数学,或者说,是运筹学的一个分支。谈论经典和学说,自然少不了数学语言,在外行人看来不过是一大堆数学公式。好在博弈论关注的是日常经济生活,不能不吃烟花。这个理论其实是从象棋、扑克、战争等带有竞争、对抗、决策性质的问题中借用来的术语。听起来有点玄乎,但实际上有着重要的现实意义。博弈论大师看经济社会问题就像下棋一样,往往在博弈中有深刻的道理。所以,从日常生活中的琐事入手,以身边的故事为例进行讲解,并不枯燥。一天,一个富人在家里被杀,他的财产被盗。在这起案件的调查过程中,警方抓获了两名犯罪嫌疑人斯卡菲和纳库尔斯,并从他们的住处找到了被害人家中的失物。但他们否认自己杀了人,辩称是先杀了有钱人,然后他们只是偷了东西。于是民警将两人隔离,分别放在不同的房间审讯。地方检察官会和每个人单独谈话。公诉人说,“因为你有盗窃的确凿证据,可以判你一年有期徒刑。”但是我可以和你做个交易。如果你单独承认谋杀,我只会判你三个月监禁,但你的同伙会判十年监禁。如果你拒绝坦白,被伴侣举报,你会被判十年有期徒刑,他只会被判三个月有期徒刑。但是,如果你们都坦白,那么你们都将被判处五年监禁。“Scalfi和Nacoors应该怎么做?他们面临着一个两难的境地——坦白还是否认。很明显,最好的策略是双方都否认,结果大家都只判一年。但由于两人处于隔离状态,无法表白。所以,根据亚当·斯密的理论,每个人都是从利己的目的出发,他们选择忏悔是最好的策略。因为如果你坦白,你可以期待三个月的短期监禁,但前提是你的伴侣否认,这显然比你自己否认的10年监禁要好。这种策略是损人利己的。不仅如此,表白还有更多好处。如果对方坦白否认,就要坐牢10年。太不划算了!所以,在这种情况下,还是应该选择坦白。就算两个人同时坦白,最多也只判五年,总比判10年强。所以两者合理的选择是坦白,原本对双方都有利的策略(否认)和结局(判1年有期徒刑)都不会出现。这样两个人都选择了弗兰克策略而被判五年的结果叫做“纳什均衡”,也叫非合作均衡。因为,每一方在选择策略时,并不存在“共谋”(勾结),他们只是选择对自己最有利的策略,而不考虑社会福利或任何其他对手的利益。换句话说,这个策略组合是由所有参与人(也叫当事人和参与者)的最佳策略组合组成的。没有人会为了给自己争取更大的利益而主动改变策略。”囚徒困境”具有广泛而深刻的意义。个人理性和集体理性的冲突,每个人对自身利益的追求,导致一个“纳什均衡”,这也是一个对所有人都不利的结局。两人都是在坦白否认的策略中先想到自己,所以必然要服长刑期。只有都先想到对方,或者互相勾结(勾结),才能得到最短监禁的结果。纳什均衡首先挑战亚当·斯密的“看不见的手”原理。根据斯密的理论,在市场经济中,每个人都是从利己的目的出发,最终整个社会达到利他的效果。让我们回顾一下这位经济圣人在《国富论》中的名言:“通过追求(个人)私利,他常常比他实际想做的更有效地促进社会利益。“从‘纳什均衡’引出一个‘看不见的手’原理的悖论:从利己出发,结果不是利己,既不是利己,也不是利己。这是两个囚犯的命运。从这个意义上说,纳什均衡提出的悖论实际上动摇了西方经济学的基石。所以,从纳什均衡中,我们也可以悟出一个道理:合作是有利的“利己策略”。但它必须符合以下黄金律:你希望别人如何对待你,你就如何对待别人,但前提是别人也这样做。那就是中国人说的,“己所不欲,勿施于人”。但前提是你不要对我做你不想让我做的事。其次,“纳什均衡”是非合作博弈均衡。现实中,非合作情况比合作情况更普遍。因此,“纳什均衡”是冯·诺依曼和摩根·斯特恩合作博弈论的重大发展,甚至可以说是一场革命。
从纳什均衡的普遍意义上,我们可以深刻理解经济、社会、政治、国防、管理和日常生活中常见的博弈现象。我们会举很多类似于“囚徒困境”的例子。比如价格战,军事竞争,污染等等。一般的博弈问题由三个要素组成:玩家,也称当事人、参与者、策略等的集合。每个玩家的策略和收益。其中,所谓赢,是指如果选择特定的战略关系,每个博弈中的人得到的效用。所有的游戏问题都会遇到这三个要素。
价格战游戏:
现在我们经常会遇到各种各样的家电价格战,比如彩电战、冰箱战、空调战、微波炉战...这些战争的受益者首先是消费者。每次看到家电价格战,老百姓都会“没什么好偷的。”这里可以说明,厂商价格战的结局也是一个“纳什均衡”,价格战的结果是谁都没钱赚。因为博弈双方的利润正好为零。竞争的结果是稳定的,也就是一个“纳什均衡”。这个结果可能对消费者有利,但对厂商来说是灾难性的。所以,价格战对厂商来说意味着自杀。从这个案例中,我们可以引出两个问题。首先,竞争性降价或“纳什均衡”的结果可能导致有效率的零利润结果。第二,如果不采取价格战,作为敌对博弈会有什么结果?每个企业都会考虑采取正常价格策略或高价策略,形成垄断价格,尽力获取垄断利润。如果能形成垄断,博弈双方的共同利润是最大的。这种情况就是垄断所为,通常会抬高价格。另一个极端,如果厂商使用正常价格,双方都能获利。从这一点出发,我们得出另一条基本规则:“在假设你的对手会以其最大利益行事的基础上构建你自己的战略。”事实上,完全竞争的均衡就是纳什均衡或非合作博弈均衡。在这种状态下,每个制造商或消费者都根据其他人设定的所有价格做出决策。在这个均衡中,每个企业都应该使其利润最大化,消费者也应该使其效用最大化,导致零利润,即价格等于边际成本。在完全竞争的情况下,非合作行为导致社会所期望的经济效率状态。如果制造商采取合作行动,并决定转向垄断价格,社会的经济效率将被摧毁。这就是为什么WTO和各国政府加强反垄断具有重要意义。
污染游戏:
如果市场经济有污染,但政府不治理环境,为了利润最大化,企业宁愿牺牲环境,也绝不会主动增加环保设备投资。根据看不见的手原理,所有企业都会从自利目的出发,采取忽视环境的策略,从而进入“纳什均衡”状态。如果一个企业出于利他目的投资污染治理,而其他企业仍然忽视环境污染,那么这个企业的生产成本就会增加,价格就会提高,其产品就没有竞争力,甚至企业就会破产。这是“看不见的手的有效而完全的竞争机制”失效的一个例子。直到90年代中期,中国乡镇企业的盲目发展造成了严重的污染。只有政府加强污染控制,企业才会采取低污染的策略组合。在这种情况下,企业会获得和高污染一样的利润,但环境会更好。
贸易自由和壁垒:
这个问题对于刚刚加入世贸组织的中国尤为重要。任何国家在国际贸易中都面临着维护贸易自由和实施贸易保护主义的两难选择。贸易自由和壁垒问题也是一个“纳什均衡”,是贸易双方非合作博弈的策略,结果双方都因贸易战受损。如果X国试图对Y国进行进口贸易限制,比如提高关税,那么Y国肯定会反击,提高关税,结果谁也没有受益。另一方面,如果X和Y能够达成一个合作的平衡,即从互惠互利的原则出发,双方都将减少关税限制,结果是每个人都将从贸易自由中获得最大的利益,全球贸易的总收入也将增加。
参考资料:
百度知道