什么是博弈论?
博弈论的英文名字是:game theory。 顾名思义,就是做游戏的理论。这个游戏可以是我们正常理解的棋牌类游戏,也可以是电脑游戏,甚至打篮球踢足球这样的游戏。简单来讲,博弈论就是告诉我们怎么玩赢这些游戏的理论。
(图源:https://baike.baidu.com/item/%E5%8D%9A%E5%BC%88%E8%AE%BA/81545 )
先给出一段简短的历史吧。1928年,冯·诺依曼证明了博弈论的基本原理,宣告了博弈论的正式诞生。1944年,冯·诺依曼和摩根斯坦著成《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统地应用于经济领域,奠定了这一学科的基础和理论体系。1950-1951年,约翰·福布斯·纳什(John Forbes Nash Jr)利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚实的基础。纳什的论文《n人博弈的均衡点》(1950),《非合作博弈》(1951)等等,给出了纳什均衡的概念和均衡存在定理。
冯·诺依曼
约翰·福布斯·纳什
用一个最典型的例子来讲,囚徒困境(prisoner's dilemma):
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年,
若二人都保持沉默(相关术语称互相“合作”),则二人同样判监2年,
若二人都互相认罪(互相“背叛”),则二人同样判监5年。
(图源:https://www.eisland.com.tw/Main.php?stat=a_pggZeHx)
博弈论有三大要素:
参与者,player:参与者需要作出动作,例子中的“甲”和“乙”;
动作空间,action space:参与者可以做的动作,例子中的“合作”和“被判”;
收益矩阵,payoff matrix:对应每一个可能的结果的每个人的收益,例子中矩阵中的值,对应参与者所获得的收益。
博弈论需要解决的问题是:
如果你是“甲”或者“乙”,你需要做什么来最大化自己的收益?
如果你是旁观者,你觉得这个博弈最可能出现的结果是什么?
在给的这个例子中,最可能出现的结果就是:甲和乙都选择背叛。因为如果你是甲,你选择合作,乙会选择背叛;你选择背叛,乙也会选择背叛——那么你肯定选择背叛;而乙也是这么想的。在这个情况下,没有人可以通过改变自己的策略来提高自己的收益,这被称为纳什均衡(Nash equilibrium)。
——所以这两人在牢里度过了两年相亲相爱的日子。
(图源:https://www.youtube.com/watch?v=1cCS8RMtK7g)
上面这只是最简单的一个例子。这个例子中甲和乙是互相竞争的,这被称为“非合作博弈(noncooperative game)”,同时因为他们的收益加起来不得零,所以也叫“非零和博弈(general-sum game)”。但是如果甲和乙在掷骰子,甲赢了5块钱,乙就得输5块钱,这个就被称为“零和博弈(zero-sum game)”。因为这里面只有两个人,所以也叫“两人博弈(two-player game)”,如果被抓的多于两个人,就被成为“多人博弈(multi-player game)”。我们还可以给这个例子加上很多的条件,来变成博弈论的其他变体:
如果甲和乙不是最大化自己的收益,而是最大化总的收益呢?这个对应的是合作博弈(cooperative game)。
如果甲和乙不是同时做出动作,而是甲先做动作,乙看到甲的动作之后再做动作呢?这个对应的是“序贯博弈(sequential game)”。
如果甲和乙不是做一次博弈,而是做好多次呢?这个对应“重复博弈(repeated game)”。
所以还可以有很多的变体,这些都属于博弈论的范畴。
(图源:https://wiki.mbalib.com/wiki/%E5%8D%9A%E5%BC%88%E8%AE%BA)
博弈论现在已经广泛地应用在经济学领域。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。
Copyright © 广州京杭网络科技有限公司 2005-2024 版权所有 粤ICP备16019765号
广州京杭网络科技有限公司 版权所有