千米小说网

千米小说网>选择比努力重要经典语录 > 第三章 洞察充满不确定性的未知世界的决策方法 最大最小准则(第2页)

第三章 洞察充满不确定性的未知世界的决策方法 最大最小准则(第2页)

令人感到困扰的是,这一理论同样适用于其他玩家。其他玩家也要思考自己之外的玩家会采取什么样的行为。这样一来,各位玩家之间就会交织产生“相互依赖”的复杂关系。因此,在这种环境下,想要明确每位玩家应该采取的行为绝非一件易事。博弈论的难度可想而知。

零和博弈[6]的机制

由冯·诺依曼和奥斯卡·摩根斯特恩最先提出的博弈,本质上是指两个人的零和博弈。顾名思义,在这一理论中,两个玩家展开博弈时,无论哪一方取胜,他们的收益总和始终都是零。也就是说,如果一位玩家的收益是x,那么另一位玩家的收益必定是-x。可以说,这是博弈当中最为简单也是最为典型的基本机制。一般来说,两支球队的体育比赛大都是典型的零和博弈。

为了更好地理解零和博弈,下面将举一个具体实例进行说明。

假设有两支队伍参加比赛,分别是队伍1和队伍2。我们将这两支队伍的比赛视为博弈。每支队伍只能从三种策略(上场队员、阵形、防守和进攻战术等综合在一起形成的方案)中选择一种。队伍1从a、b、c中选择一种,队伍2从d、e、f中选择一种,并运用所选策略进行实际比赛。这样一来,共有九种策略与得分组合。把这九种组合以表格的形式列出来,我们可以了解队伍1在各种策略组合下能够得到的分数(或得失分差),如表3-1所示。

比如当队伍1选择策略a、队伍2选择策略d时,如表3-1所示,队伍1可以得到4分,根据零和博弈理论,队伍2的得分自然是-4分。

此外,当队伍1选择策略b、队伍2选择策略d时,如表3-1所示,队伍1的得分是-3分,与之相应,队伍2的得分就是3分。

那么,在上述机制下,两支队伍究竟应该采取怎样的策略呢?下面,我们将根据博弈论理论,分析参赛队伍的心理,并进行论述。

如果静下心来思考一下,就会切实地感受到这是一个非常棘手的问题。如表3-1所示,队伍1肯定希望获得尽可能多的分数,因此拼命想扩大这一数字。与之相对,队伍2则希望这一数字越小越好。然而,由于彼此是竞争对手,要想同时满足双方的愿望,不另辟蹊径,采取特殊的解决方式是根本办不到的。

也就是说,假如队伍1单纯想拿到表中所列举的最大得分4分,那么队伍1应该选择策略a。但是,这种想法的目的性太过明显,很容易被队伍2猜透。如果队伍2提前判断到队伍1会选择策略a,那么队伍2肯定会有针对性地选择策略f。这是因为在队伍1选择策略a的前提下,队伍2选择策略f时可以得到2分(根据表3-1,当队伍1选择策略a而队伍2选择策略f时,队伍1的得分为-2分)。

但是,对于队伍2的这种想法,队伍1肯定也能猜到。如果队伍1提前预测到队伍2可能会做出这样的判断选择策略f,那么队伍1可能就会将计就计选择策略b,拿到3分。虽然这一得分比队伍1能够得到的最高得分4分少1分,但是在这种局面下,也属于上上之选了。

然而,队伍2也可能会猜到队伍1这种“以退为进”的策略,从而有针对性地选择策略d。就这样双方不停地斗智斗勇,最终会陷入无休止博弈的死循环。那么,冯·诺依曼和奥斯卡·摩根斯特恩是如何摆脱这个陷阱束缚的呢?

冯·诺依曼和奥斯卡·摩根斯特恩是这样认为的

为了避免出现上文中提到的陷阱,陷入无休止博弈的死循环,冯·诺依曼和奥斯卡·摩根斯特恩提出了下述思维方式。

由于博弈双方无法确切地掌握对方最终会采用哪种策略,因此应该放弃去猜测对方的选择。在这一前提的基础上,博弈双方决定所选策略的关键在于保底值,即选择某一行为时,最低能保证多少收益。

也就是说,两支队伍应该使用最大最小准则作为选择策略的标准。

下面,我将结合前文中提到的两支队伍的比赛进行具体说明,如表3-2所示。

首先,我们试着从队伍1的立场出发思考问题,探讨队伍1是否应该选择策略a。在这种情况下,队伍1的分数自然会受到队伍2所选策略的影响。队伍2选择策略d、e、f时,队伍1选择策略a的得分分别为4分、-1分和2分,其中最低得分是-2分。因此,-2分就是队伍1选择策略a时的保底值,也就是保底分数。同样,当队伍1选择策略b时,保底值是-3分;选择策略c时,保底值是1分。在三个保底值中,最大的是1分。因此,对于队伍1而言,“选择策略c时,最差也能得1分”。换言之,队伍1“如果想达到1分的保底值,就应该选择策略c”。

其次,我们试着从队伍2的立场出发思考问题。对于队伍2而言,将表中数字的正负号颠倒过来,就是队伍2所得到的分数。因此,队伍2希望表中的数字越小越好。如果队伍2选择了策略d,那么队伍1选择策略a、b、c时,队伍2的得分就分别是4分、-3分和3分的相反值,即-4分、3分和-3分,其中最大失分就是4分。也就是说,不会有比-4分更少的分数。有鉴于此,4分就是队伍2选择策略d时的保底值。同样,在选择策略e、f时,队伍2的保底值分别是1分和3分。

因此,希望从表中选出的数字越小越好的队伍2,肯定会选择策略e。换言之,队伍2将不得不选择1分的失分(也就是-1分的得分)作为保底值,从而选择策略e。

在这种情况下,队伍1的目标是拿到保底值1分,队伍2的目标是拿到最少失分,也就是得-1分。可以说,双方的想法达成了一致。因此,当队伍1选择策略c、队伍2选择策略e时,双方都拿到了自己想要的1分和-1分,这种状况就是冯·诺依曼和奥斯卡·摩根斯特恩所提倡的博弈的结果,也就是所谓的均衡状态。

在这一分析过程中,作为比赛对手的两支队伍并没有只选择对于自己而言最有利的策略,而是将对方的利益得失纳入计算范围,并在此基础上做出了决策。另一方面,如果太在意对方的行为,自己的选择总是随着对方而改变,就会陷入无限循环的陷阱,影响最终的决策。如果两支队伍都能秉承“设想最差局面,并在这一条件下谋求最大利益”的理念,就可以避免出现无限博弈的死循环。

在这种情况下,我们将队伍1的保底值的最大值1称为最大最小值,将队伍2的失分保底值的最小值1称为最小最大值。冯·诺依曼和奥斯卡·摩根斯特恩提倡的博弈结果(均衡)就是这种最大最小值与最小最大值一致的行为组合。

按照混合概率选择行为

如上文所述,在冯·诺依曼和奥斯卡·摩根斯特恩提出的零和博弈的均衡状态下,博弈双方所选行为实现了各自的最大保底值。

但是,这里存在着一个不容忽视的问题——这种均衡并不是一种常态。

比如在“石头剪刀布”的游戏中,假设获胜方得1分,失利方得-1分,不分胜负(打平)时双方各得0分。在这种情况下,玩家A无论出剪刀、布、石头中的哪一个,其保底值都是-1分。因此,保底水平的最大值就是-1分。与之相对,玩家B的保底值就是1分。由此可见,双方的保底值是无法达成一致的(最大最小值=最小最大值)。这是因为一方失利,就意味着另一方取胜。

针对这种情况,冯·诺依曼和奥斯卡·摩根斯特恩提出了“按照混合概率选择行为”的理念。也就是说,玩家在选择时,并不仅限于单纯选择“石头”“剪刀”“布”,而是可以按照不同的概率组合选择出招的策略。比如采用“按照各0。5的概率选择出剪刀和石头”或者“按照0。6、0。3和0。1的概率组合,选择出石头、剪刀和布”等策略出招。在使用这种混合概率出招时,玩家的得分自然也就不同了。

比如玩家A和B都选择“不出布,分别按照0。5的概率出剪刀和石头”的策略时,玩家A得1分、玩家B得-1分的概率为0。25(A出石头的概率×B出剪刀的概率),与之相反,玩家A得-1分、玩家B得1分的概率也是0。25。双方各得0分的概率是0。5(A出石头的概率×B出石头的概率+A出剪刀的概率×B出剪刀的概率)。

在这种情况下,如果不明确规定如何计算玩家的得分,就无法实施具体分析。因此,冯·诺依曼和奥斯卡·摩根斯特恩就决定运用第二章中提到的期望值(概率的平均值)来解决实际问题。比如针对前面的例子,经过计算后,每位玩家的得分都是1×0。25+(-1)×0。25+0×0。5=0。

顺便提一下,在实际运用“不出布,分别按照0。5的概率出剪刀和石头”的策略组合时,其本身是不均衡的。这是因为当玩家A使用这一策略时,如果玩家B选择“只出石头”的策略,那么玩家A面对的结果“除了输就是平”,其得分的期望值就是负数。这样一来,A的保底值就变成了负数,而不是0。

在猜拳游戏中按照固定套路出招是非常不利的

冯·诺依曼和奥斯卡·摩根斯特恩提出这一概率组合行为的理论,证明了无论哪种形式的两人零和博弈,最终都存在一个均衡状态。比如在猜拳游戏中,如果两位玩家都采用“按照各13的概率,选择出石头、剪刀、布”的策略,那么双方就处于均衡状态了。这是因为玩家A选择这种策略后,不管玩家B选择怎样的概率组合,A的期望值始终是0。也就是说,A的保底值是0。此外,在使用其他概率组合的情况下,必然会出现选择“石头”“剪刀”和“布”中某一个选项的概率高于其他选项的情况。比如,如果一方出“石头”的频率较高,那么另一方出“布”的概率就会相应增大,这样一来,其期望值就会变为负数。由此可见,除了“按照各13的概率,选择出石头、剪刀、布”的策略以外,其他概率组合的保底值均为负数。因此,玩家A的最大保底值就是“按照各13的概率,选择出石头、剪刀、布”时的数值。同理,玩家B的情况也是如此。

这一结果与我们日常生活中的直观感受是一致的。众所周知,在玩猜拳游戏时,出拳带有一定倾向性的一方,往往会输掉比赛。这是因为如果出拳的习惯容易被对方猜透,就会陷入不利的局面。有鉴于此,无论是从现实来看还是从理论来看,“按照各13的概率,选择出石头、剪刀、布”的策略都是猜拳游戏中依据最大最小准则制定的策略。这一结果非常有趣,值得大家玩味。

已完结热门小说推荐

最新标签