合作的进化

安全困境：国家往往通过那些威胁到其他国家安全的手段来寻求自身的安全。

事实上，不论一个国家如何做，另一个国家保持它的贸易壁垒总是比较有利的。

胜利者是所有提交策略中最简单的一个策略，它就是＂一报还一报＂。这个策略首先在第一步合作，然后就模仿对方上一步的选择。

我们可以向个体选择提供四个方面的建议：不要妒忌对方的成功，不要首先背叛，要对合作和背叛都作出回报，不要耍小聪明。

善良能得到好处，报复也能得到好处。＂一报还一报＂综合了这些优点，它是善良的、宽容的和具报复性的。它从不首先背叛，它在作一次反击后就原谅一个孤立的背叛。但是不管过去相处的关系如何好，它总能被一个背叛所激怒。

＂一报还一报＂的成功可以说明的是，它是一个很具鲁棒性的规则：即它在很大范围的环境中表现极佳。

＂一报还一报＂的稳定成功的原因是它综合了善良性、报复性、宽容性和淸晰性。它的善良性防止它陷入不必要的麻烦，它的报复性使对方试着背叛一次后就不敢再背叛，它的宽容性有助于重新恢复合作，它的清晰性使它容易被对方理解，从而引出长期的合作。

偶尔，一个政治领导人认为不必追求与另一个大国合作，因为一个更好的计划可以使它垮台。

＂一报还一报＂是用与对方背叛完全等量的背叛来反应。但在许多情况下，如果这个反应稍稍少于挑衅的话，合作的稳定性便可以得到增强。要不然，就很容易陷入彼此无止境地反应对方的上一步背叛。

人们相互作用越频繁，合作的可能性就越大。

人不是天使，他们往往首先关心自己的利益。

安全困境：国家往往通过那些威胁到其他国家安全的手段来寻求自身的安全。

苏联1979年入侵阿富汗给美国出了个难题。如果美国不予反应的话，苏联就可能受到鼓励而尝试其他形式的不合作。另一方面，美国的任何不合作反应都可能引起某种形式的报复，这种报复又会引起反报复，进而发展成难以终止的双方敌对局面

最重要的是回报准则，即帮助同僚解决难题并得到回报。这包括投票交易等许多形式的对双方有利的行为。因此，＂可以毫不夸张地说，相互回报是参议院的生活方式＂（Matthews1960，p.100;Mayhew1975）。

事实上，不论一个国家如何做，另一个国家保持它的贸易壁垒总是比较有利的

在＂囚徒困境＂的游戏中，有两个对策者，他们可以有两个选择：合作或背叛，每个人都必须在不知道对方选择的情况下，作出自己的选择。不论对方选择什么，选择背叛总能比选择合作有较高的收益。所谓的＂困境＂是指，如果双方都背叛，其结果比双方都合作要糟。这个简单的游戏是本书全部分析的基础。

无论对方如何行动，你背叛总是好的。

＂囚徒困境＂是对一些非常普遍而有趣的情形的简单抽象。在这些情形中，从个人的角度考虑，背叛是最好的选择，但双方背叛会导致不甚理想的结果。

，当游戏次数无限时，合作有出现的可能。

有两个原因使得现在比未来更为重要。首先，对策者倾向于认为未来所得的价值随着时间的推移而减少。其次，对策者总会有些机会不再相遇。

下一步对局的收益总是被看作比当前一步的收益少。处理这个问题的一个自然的办法就是在累积收益值时把下一步对局的收益看作当前一步收益的一部分（Shubik1970）。

独立于对方所用策略之外的最好的决策规则是不存在的。

事实上，在＂囚徒困境＂中表现最好的策略直接取决于对方采用的策略，特别是取决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步相对于当前一步的权重足够大，即未来是重要的。

如果你认为今后将难以与对方相遇，如果你不太关心自己未来的利益，那么，你现在最好是背叛，而不用担心未来的后果。

命题1：如果折扣系数w足够大,则不存在独立于对方所采用的策略的最优策略。

如果未来是重要的，就不存在最优策略。

事实上，绝大部分的贿赂就是一个当事人高兴而其他人厌恶的合作的例子。

胜利者是所有提交策略中最简单的一个策略，它就是＂一报还一报＂。这个策略首先在第一步合作，然后就模仿对方上一步的选择。

对策论专家被邀请提送他们所喜爱的策略。每个策略与其他所有策略逐个对局，看看哪个策略的表现从总体来说是最好的。令人惊讶的是：胜利者是所有提交策略中最简单的一个策略，它就是＂一报还一报＂。这个策略首先在第一步合作，然后就模仿对方上一步的选择。第二轮计算机竞赛有更多的参赛程序，它们是由一些业余爱好者和专家们提送的，他们都知道第一轮计算机竞赛的结果。然而，第二轮又是＂一报还一报＂取胜！

一个成功的决策规则所应有的四个特性：只要对方合作你就合作以避免不必要的冲突；面对他人的无理背叛你是可激怒的；在给挑衅以反击之后你是宽容的；行为要简单清晰，使对方能适应你的行为模式。

＂自己活也让别人活＂的系统。它出现在第一次世界大战的堑壕战中。在这次痛苦的冲突中，只要能得到对方士兵的回报，前线的士兵经常忍住不开枪打伤对方。使这个双方自我约束成为可能的是堑壕战的特点，即双方小股单位相互对峙一段相当长的时间。这些对立的士兵们为了保持双方合作的默契，实际上违抗了他们各自上司的命令。

当合作的条件出现时，合作可以在原来毫无希望的情况下出现且保持稳定。特别是这个＂自己活也让别人活＂的系统说明了朋友关系不是合作产生的必要条件。

我们可以向个体选择提供四个方面的建议：不要妒忌对方的成功，不要首先背叛，要对合作和背叛都作出回报，不要耍小聪明。

他们中的许多人都使用了＂一报还一报＂的原则并且试图改进它。令人惊奇的是这些提交的复杂程序没有一个能够表现得像原本的＂一报还一报＂一样好

有一个特性可以把得分相对高的程序和得分相对低的程序区别开来，它就是善良性，即从不首先背叛。

一个善良的规则的定义被放宽到包括那些在最后几步（如199步）之前不背叛的规则。名列前8名的参赛者（或规则）都是善良的，其他则都不是。

善良的规则的竞赛平均得分在472分到504分之间，而不善良的规则平均得分是401分。

不首先背叛或至少在游戏快要结束之前不背叛，是区分这次计算机＂囚徒困境＂竞赛中成功的规则和不成功的规则的唯一特性。

得分大约是600分，这是因为当两个善良规则相遇时，直到游戏结束之前它们都是相互合作的，实际上游戏终了战术的些微不同对得分没有太大的影响。由于所有的善良规则相互之间相遇都得到大约600分，所以区分它们之间的相对名次的是它们与不善良规则相遇时的得分。这是很显然的。不显然的是，这8个名列前茅的规则的相对名次很大程度上只取决于其他7个程序中的2个。这2个规则对谁能得第一是关键因素，因为它们虽然自己表现得不怎么样，但却能决定前几个竞争者的名次。影响排名的最重要的规则是以＂结果最大化＂原则为基础的。这个原则原来是用来解释在＂囚徒困境＂实验中被试验者的行为的（Downing1975）,这个被称为＂唐宁＂（DOWNING）的规则颇具实力，是一个特别有趣的规则。

具体想法是：如果对方似乎不对＂唐宁＂的行为作出反应的话，＂唐宁＂将试着背叛，如果对方反应的话，＂唐宁＂就合作。为了判断对方的反应，＂唐宁＂估计对方在它合作之后合作的概率和在它背叛之后合作的概率。每走一步，它便对这两个条件概率作出新的估计，然后在假设它已经正确估计对方的情况下，作出自己长期支付最大化的选择。如果这两个条件概率具有相似的值，那么＂唐宁＂将决定背叛。

它在实践中却有一个缺陷。由于初始假设对方是不反应的，＂唐宁＂在头两步肯定是背叛的。这头两次背叛遭致许多其他规则的惩罚，因此事情就糟在这个坏的开头上。

所有善良规则中，得分最低的就是最少宽容性的规则，它是＂弗里德曼＂（FRIEDMAN）,—个采用永久报复的完全不宽容的规则。它决不首先背叛，但是一旦对方背叛（即使是一次），＂弗里德曼＂就从此一直背叛下去。

这个简单的程序只有在对方前两步连续背叛后才背叛。它是＂一报还一报＂的更加宽容的版本，它从不惩罚孤立的背叛。这个＂两报还一报＂（TITFORTWOTATS）规则的出色表现揭示了参赛者的一个共同错误，即预期相对于＂一报还一报＂更少点宽容能得到更多的好处，然而，事实上是更多点宽容才能得到更多好处。

许多人在游戏中没有受到挑衅就早早地开始背叛，这个特点从长远来看是要付出大代价的。

最与众不同的规则＂唐宁＂，由于对其他人的反应所作的初始假设太悲观而做了不少蠢事。

任何参赛者所显示出来的宽容性比理想的要小得多（＂唐宁＂可能是例外）。

＂一报还一报＂是第一轮中提交的最简单的程序，但它贏得了竞赛。它也是第二轮中最简单的程序，又赢得了第二轮的竞赛。虽然所有的参赛者都知道＂一报还一报＂贏得第一轮竞赛，但没有人能设计出一个比它更好的程序。

第二轮比赛是在与第一轮比赛相同的方式下进行的，只是游戏最后一步的影响被消除了。正如在比赛规则中说明的，每一步结束游戏的概率为0.00346，这相当于设定w=0.99654。

在第二轮中，一个规则的表现和它是否善良之间同样有很大的相关性。在前15名的规则中，只有一个不是善良的（它名列第八）。在最后15名规则中只有一个是善良的程序。

除非一个策略能迅速对来自对方的挑战作出反应，否则，对方将简单地从这样一个好说话的策略身上获得越来越多的好处。

在第二轮比赛中，有好几个规则故意使用若干次背叛试试看它们能否讨到便宜。因此，在很大程度上，决定善良规则的最后名次的是它们能否很好地应付这些挑战。

挑战者中有两个是特别重要的，我把它们称为＂检验者＂（TESTER）和＂镇定者＂（TRQUILIZER）。

＂检验者＂是由戴维·格拉德斯坦（DavidGladstein）提交的，在竞赛中名列46名。它被设计成专门欺负软骨头。但是一旦对方表示出不可欺负性，它就罢手。这个规则的不寻常之处是为了检验对方的反应，它在第一步就背叛，如果对方背叛，它就赶快抱歉，回之以合作。然后在其余的步中采用＂一报还一报＂。

两报还一报＂总是宽宏大量地与＂检验者＂合作，而被占了不少便宜。

两报还一报＂总是宽宏大量地与＂检验者＂合作，而被占了不少便宜。虽然＂检验者＂自己在竞赛中总的表现并不佳，但是它让那些＂好说话＂的规则吃了大亏。

镇定者＂采用更加＂聪明＂的方式来占人家的便宜。因此更难对付。＂镇定者＂首先争取与对方建立双方合作的关系，然后才偶尔试探看看是否有便宜可占。

对付像＂检验者＂和＂镇定者＂这类挑战性规则的最好办法是时刻准备报复来自对方的＂无缘无故＂的背叛。因此，善良能得到好处，报复也能得到好处。＂一报还一报＂综合了这些优点，它是善良的、宽容的和具报复性的。

对付像＂检验者＂和＂镇定者＂这类挑战性规则的最好办法是时刻准备报复来自对方的＂无缘无故＂的背叛。因此，善良能得到好处，报复也能得到好处。＂一报还一报＂综合了这些优点，它是善良的、宽容的和具报复性的。它从不首先背叛，它在作一次反击后就原谅一个孤立的背叛。但是不管过去相处的关系如何好，它总能被一个背叛所激怒。

在第二轮的竞赛中

＂两报还一报＂由英国的进化生物学家约翰·梅纳德·史密斯（JohnMaynardSmith）提交，但它只名列24。如前所述有两个人提交＂改进的唐宁＂，但它在第二轮比赛中名次落在了后边。

附录A中介绍了构造这些迥然不同的竞赛的方法。结果是＂一报还一报＂贏了这6个变形竞赛中的5个，在第6个中它名列第二。这些结果有力地证明了＂一报还一报＂的成功具有很高的鲁棒性。

构造一系列假想的竞赛，这些竞赛分别具有完全不同类型的参赛规则。附录A中介绍了构造这些迥然不同的竞赛的方法。结果是＂一报还一报＂贏了这6个变形竞赛中的5个，在第6个中它名列第二。这些结果有力地证明了＂一报还一报＂的成功具有很高的鲁棒性。

一个在当前规则分布中平均来说是成功的规则将在下一代的规则分布中占更大的比例。

＂哈林顿＂（HARRINGTON）,这个在第二轮竞赛的前15名中唯一的非善良规则，提供了生态消亡的一个绝好的例子。在生态竞赛的头200代左右，和＂一报还一报＂及其他成功的善良程序一样，＂哈林顿＂的百分比也在增长，这是因为＂哈林顿＂是一个占便宜的策略。但是到了第200代，情况就发生了转折性的变化。不太成功的程序已经基本消失，这意味着能被＂哈林顿＂占便宜的傻大头越来越少。不久＂哈林顿＂就赶不上那些成功的善良的规则，到第1000代，＂哈林顿＂就像被它占便宜的傻大头一样消失了。

在最初的竞赛中＂一报还一报＂领先一点点，而且在整个生态模拟过程中一直保持领先。到了第1000代，它是最成功的规则，并且比任何一个其他规则都增长得快。

＂一报还一报＂的成功可以说明的是，它是一个很具鲁棒性的规则：即它在很大范围的环境中表现极佳。

如果一个规则用背叛试探是否可以占便宜，它就得冒被那些可激怒的规则报复的风险。

双方的反击一旦开始，就很难自己解脱。

既能占便宜又不会付出太大的代价是第二轮竞赛中任何一个参赛程序都没有实现的。

＂一报还一报＂的稳定成功的原因是它综合了善良性、报复性、宽容性和淸晰性。

＂一报还一报＂的稳定成功的原因是它综合了善良性、报复性、宽容性和淸晰性。它的善良性防止它陷入不必要的麻烦，它的报复性使对方试着背叛一次后就不敢再背叛，它的宽容性有助于重新恢复合作，它的清晰性使它容易被对方理解，从而引出长期的合作。

在全部采用＂一报还一报＂的群体中，每一个人都与其他人合作。只要未来对现在有足够大的影响，那么没有人能够通过采用其他策略而干得更好。

一旦一个制造商开始走下坡路，即使是他最好的客户也开始以抱怨质量问题、不符合规格要求、到货迟缓或各种各样的原因而要求拒付货款。商业中最有力的道德执法者是持续的关系，即人们相信你能与客户或供应商继续做生意。当一个失败的公司失去这个自动的执法者，任何手段都将无法代替（Mayer1974,p.280）。

一个濒于破产的公司要把应收账款卖给清算代理商。这个买卖将打很大的折扣。

一个被认为在下次选举中将落选的国会议员就很难在原有的信任和声誉的基础上和同僚们做立法交易。

在一个稳定的小镇或同一种族的邻里之间就容易建立互惠的规范。相反，一个访问教授就很可能受到其他教工的冷落，而他们对待固定同事并不这样。

人们会因为彼此之间存在持续的相互关系而合作。

自己活也让别人活＂的系统。如果接到命令的话，部队就相互攻击。但是在大战役的空隙间，每一方都尽量避免太多地伤害对方，如果对方也是这样回报的话。这个策略并不一定是＂一报还一报＂，有时是＂一报还两报＂。

一个英国官员描述从法国手中接管一个新防区的回忆录中写的：法国人实行的是在安静防区中不主动骚扰和只有受到挑战才给予强有力反击的策略。当我们从他们手中接管一个防区时，他们向我解释，他们所实行的被敌人所理解的准则是对方开一枪我们反击两枪，但从不首先开枪。

如果对方一定背叛，你合作便毫无意义。在一个大家都采用＂总是背叛＂策略的群体中，每人每步得到P。如果没有其他人愿意合作的话，任何人没有办法做得比这更好。况且，任何合作的选择将得到＂给笨蛋的报酬＂S，而且将来没有任何机会补偿。

在条件具备时，没有友谊和预见，合作也可以产生。

一位巡视前方堑壕的英军参谋官员说道：惊奇地发现对方德军士兵在来福枪射程以内走动着。

＂自己活也让别人活＂的系统是堑壕战的特产。尽管高级军官尽力想阻止它，尽管有战斗激起的义愤和杀人或者被杀的军事逻辑，尽管上级的命令能够容易地制止任何下属试图直接停战的努力，但这个系统仍然存在和发展着。

早在1914年11月，一位随部队在堑壕驻扎几天的军士观察到：每到天黑之后，军需官带着食品上来了，食品摆开后由从前线下来的小组取走。我想敌人大概也是这么做的。这样的事悄悄地做了几天之后，这些取食品的小组变得不在乎了，在回去的路上还有说有笑的。

一个目击者这样写道：在一个防区中早上8点到9点被认为是神圣不可侵犯的＂个人时间＂。一些插上旗作为标志的地方，被认为是双方狙击手不能打扰的范围。

到了圣诞节，引起司令部不满的友善行为更加扩大了。在之后的几个月，不时有人用叫喊或信号来安排直接休战。

在1915年的夏天，一个士兵看到，为了得到新鲜食物，敌人是愿意回报合作的：敌人堑壕后面的道路上挤满了运送食品和水的车辆，把它炸成一片血迹是很容易的事……但是总的说来这里是平静的。如果你不让你的敌人得到他的食物，他的补救办法很简单：他将也不让你得到你的食物（Hay1916,pp.224—225）。

使得合作能够持续的条件与启动合作同样重要。

能够维持双方合作的策略是那些可激怒的策略。在双方克制期间，敌人的士兵都努力向对方证明如果必要的话他们是会报复的。例如，德国士兵通过射击一些小屋墙上的黑点直到把它们打成一个洞来向英军士兵显示自己的威力（TheWartheInfantryKnew1938，p.98）。同样，炮兵也经常以少量准确的射击来说明如果他们愿意的话，他们是能够造成更大的伤亡的。

一旦背叛真正发生，报复经常比＂一报还一报＂更多，一报还两报或者一报还三报通常是对一个超出可接受范围的行为的反应。

正如一位德军炮兵所记述的：＂每当步兵有任何好吃的，他们就送一些给我们当礼物，这当然是由于他们觉得我们在保护他们。＂

一个新到的炮兵前线观察员经常受到步兵的欢迎，并要求他＂不要惹麻烦＂。最好的回答是＂不会的，除非你们要求＂（Ashworth1980,p.169）。

在绝大多数情况下，司令部可以强制推行他们直接下达的命令。因此，司令部能够实施大战役，命令士兵们冲出他们的堑壕，冒着生命危险去占领敌人的阵地。但在大战役的间隙中，他们就不可能监督命令的实施并继续施加压力。

在绝大多数情况下，司令部可以强制推行他们直接下达的命令。因此，司令部能够实施大战役，命令士兵们冲出他们的堑壕，冒着生命危险去占领敌人的阵地。但在大战役的间隙中，他们就不可能监督命令的实施并继续施加压力。毕竟，高级官员是很难判断谁开枪打中了敌人，谁睁一只眼闭一只眼以避免受报复。士兵们变成了应付这种监视的专家，每当被问及是否在前线无人区巡逻时，士兵就把他们保存的敌人的电话线剪一段送去应付了事。

最终破坏＂自己活也让别人活＂系统的是一种司令部能够监视检查的一系列不停顿的进攻，这就是突然袭击——由10到200人精心准备的对敌人堑壕进行袭击。

一位英军官员这样回忆他面对德国撒克逊部队时的经历：当我在A连队喝茶时听到一串射击声，我们就走出来观看出了什么事，我们发现战士们和德国人都正站在自己的堑壕外的土墙上。突然一阵炮火打来，但没有造成伤亡。这时双方跳下土墙，我们的士兵开始骂德国人。这时立即有一个大胆的德国人跳上土墙大声喊道我们很抱歉，但愿没有人受伤，这不是我们的错，这是该死的普鲁士炮兵干的。（Rutter1934，p.29）

德国人在一个地点＂用老练的不变的炮火和差劲的射击实行他们的攻击行动，以满足普鲁士人的要求，而同时又不给托马斯·阿特金斯的部队造成严重伤害＂。（Hay1916，p.206）

由于他们[德国人]在选择目标、发射时间和轰炸次数上如此有规律，来到前线一两天后，琼斯上校已经发现他们的规律，并且知道一分钟后什么地方将落下炮弹。他的计算相当准确，他就像老练的参谋官员一样，知道当他到达那个被射击的地方之前炮火就会停止。（Hills1919,p.96）

就像德军士兵写下的关于英军＂夜间射击＂的评论：射击在七点发生——如此地有规律以至于你可以用它来对你的表，……它总有一个相同的目标，它的范围是很精确的，它从不打偏，也不打在目标的后面或前面。……甚至有些好奇的家伙在七点前一点点，爬出来看这突然的射击。（Koppen1931，p.135）

在持续的＂重复囚徒困境＂中应如何表现，下面是四个简单的建议: 1.不要嫉妒； 2.不要首先背叛； 3.对合作与背叛都要给以回报； 4.不要耍小聪明。

迟早，一个学生为了领先或为了看看会发生什么而背叛，另一个学生也不甘落后而背叛。因此，情况由于双方的相互报复而恶化了。不久双方便会认识到他们做得不够好，其中一人试图恢复双方的合作，但另一个人不能肯定这是否是对方的一个花招，担心一旦合作开始后又要被占便宜。

人们倾向于采用相对的标准，这个标准经常把对方的成功与自己的成功联系起来。这种标准导致了嫉妒，嫉妒又导致企图抵消对方已经得到的优势。在＂囚徒困境＂的形式下，抵消对方的优势只能通过背叛来实现。但是背叛导致更多的背叛和对双方的惩罚。因此嫉妒是自我毁灭

要求自己比对方做得好不是一个很好的标准，除非你的目的是消灭对方。在大多数情况下，这个目的是不可能实现的，或者追求这个目的有可能导致危险的冲突。

＂一报还一报＂由于与其他多种多样策略相处得很好而贏得了竞赛。平均来说，它比竞赛中的其他任何策略都做得更好。但是＂一报还一报＂从来没有一次在游戏中比对方得更多的分！事实上，它不可能比对方多得分。它总是让对方先背叛，并且它的背叛次数决不比对方的多。因此＂一报还一报＂不是得到和对方一样多的分，就是比对方略少。

一报还一报＂贏得竞赛不是靠打击对方，而是靠从对方引出使双方有好处的行为。

一个非零和的世界里，为了你自己做得好，你没有必要非得比对方做得更好。

一个非零和的世界里，为了你自己做得好，你没有必要非得比对方做得更好。特别当你要和许多不同的对手打交道时更是这样。

在加利福尼亚社区，时有发现吉普赛人不付医生账单，但是市政罚款却都是马上就付（Sutherland1975，p.70）。这些罚款大都是由于违反垃圾管理。这些吉普赛人每年冬天都回到同一城市。可以推测这些吉普赛人知道他们必须继续与这个城市的垃圾站打交道而不能换另一个。相反，在这个地区有足够的医生，得罪一个医生，在需要时可以再找另—个。

虽然不善良在最初看来似乎是很有希望的，但长期下去它将毁坏使自己成功所必需的环境。

＂两报还一报＂是一个只有当对方在前两步连续背叛时，它才背叛的规则。因此它是一对二回报。这个相对宽容的规则如果被提送就会嬴得第一轮竞赛。它能做得如此好是因为它能避免与某些甚至引起＂一报还一报＂麻烦的其他规则陷入双方报复的境地，但是当它真的被送交参加第二轮竞赛时，它甚至没有进入前1/3名次。原因是在第二轮竞赛中有些规则利用它对单一背叛的宽恕而占它的便宜。

最优的宽恕水平与环境有关。特别是如果主要的危险是来自那些善于占＂好说话＂规则便宜的策略，那么，太多的宽恕就要付出代价。

在＂囚徒困境＂的情况下人们容易耍小聪明，然而复杂的规则并不比简单的规则做得更好。

所谓最大化规则表现很差就是因为它们经常陷入双方背叛。这些规则的共同问题是，使用一些复杂的方法来推断对方。而这些推断常常是错误的。

问题的关键是这些最大化规则没有考虑到它自己的行为会引起对方的变化。

＂永久报复＂看起来似乎很聪明，因为它为避免背叛提供了最大的激励，但是它为了自己的利益显得太严厉了。

＂一报还一报＂在竞赛中得到巨大成功的原因之一是它具有很大的清晰性，即它非常容易被对方理解。

增大未来的影响

如果未來相对于现在是足够重要的话，双方的合作就会是稳定的。

大未来的影响。有两个基本的方法来做到这一点：使相互作用

增大未来的影响。有两个基本的方法来做到这一点：使相互作用更持久和使相互作用更频繁。

改变收益值

法律使人们交税，不偷盗，忠实履行与陌生人的合同。这每一件事都可以看作是有许多人参加的大＂囚徒困境＂。没有人愿意纳税。因为它的好处很难看到而代价是直接的。

政府所做的正是改变有效的收益值。如果你逃避交税，你就可能被抓并被送进监狱。这种前景使得背叛的选择不那么吸引入了。

半官方也能通过改变对策者的收益值而实施他们的规矩。例如，在＂囚徒困境＂的原始故事中，两个同案犯被逮捕并被分别审讯。如果他们同属一个帮派组织，那么他们知道告密是要受到惩罚的。这将降低背叛同伙的收益值，使得他们都不坦白并由于他们双方保持沉默的合作而得到较轻的徙刑。

如果对背叛的惩罚是如此之大以至于不管对方如何选择，从短期来说合作都是最好的选择的话，那么就不再有困境。

处于社会结构底层的人是陷入困境的。他或她做得很差，但试图要反抗这个系统则会更糟。

双方都试图建立自己的信誉以便用来对付未来对策中的其他人时，他们就很容易卷入一连串的相互惩罚之中。

双方都有意假装没有注意到对方在试图干什么。双方都想显得是不可训练的以便使对方自愿停止欺负自己。

当双方都试图建立自己的信誉以便用来对付未来对策中的其他人时，他们就很容易卷入一连串的相互惩罚之中。

美国恐吓苏联不要夺走西柏林并扬言要发动一场战争来对付这种掠夺行为。为了使这个威胁可信，美国就得建立不管短期的代价有多大它都要能确实履行这个保证的信誉。

当1965年美国政府作出许诺要以发动一场战争来对苏联的决定作出反应时，越南就是美国政府要建立这个信誉的手段。

美国在越南的目标定义为：美国的目标： 70%:避免美国因失败而丢脸（即保持一个保证人的信誉）。 20%:防止南越及邻近领土不落入中国人之手。 10%:使南越的人民可以享受一个更好的更自由的生活。

通过获得一个强硬的信誉来保持威慑，不仅在国际政治上是重要的，在许多政府的国内事务上也是重要的。

通过获得一个强硬的信誉来保持威慑，不仅在国际政治上是重要的，在许多政府的国内事务上也是重要的。虽然本书主要涉及没有中央权威的情形，但这个框架确实可以用于有权威存在的许多情况

政府必须阻止它的公民触犯法律

为了有效地收税，政府必须保持对逃税者进行起诉的信誉。通常，政府用于调查和起诉逃税者的钱比从逃税者那里得到的罚款要多得多。当然政府的目的是要保持抓获和起诉逃税者的信誉以防止任何人在将来想逃税

关键是要通过保持强硬的信誉来防止挑战。为了保持这个信誉，就要求用超出某个具体事件所需要的强硬手段来对付这个特殊的挑战。

离婚案是一个很好的例子，法院把孩子的监护权判给一方而要求另一方支付孩子的抚养费。由于抚养费的提供不可靠而使得这种判决名声不好。

进化的方法基于一个简单的原则：成功的东西更有可能在将来经常出现。

当一个包装材料制造商检查订货记录时，他会发现顾客订单的2/3是没有法律约束力的合同（Macaulay1963）。交易的公平不是靠法律诉讼的威慑来保证，而是由双方未来交易的好处的预期来保证的。

偶尔，一个政治领导人认为不必追求与另一个大国合作，因为一个更好的计划可以使它垮台。

日本在珍珠港的孤注一掷，就是对美国旨在使它停止在中国的侵略所采用的经济制裁的反应（Ike1967，Hosoya1968）。日本决定在它变得更加虚弱之前进攻美国而不是放弃它所谓的生死攸关的地区。日本知道美国比自己强大得多，但是制裁的累积影响使得它认定攻击比等待局势变得更危急会更好些。

迫使某人垮台是通过使未来的相互作用变得更加有疑问而改变参与者的时间期望。没有未来的影响，合作变得很难维持。

在大的组织中，如商业公司和政府官僚机构，行政官员经常每两年从一个位置调到另一个相近的位置。这就给官员一个很强的短期行为激励而不顾组织的长期利益。他们知道不久就要被调到另一个位置去，他们在前一个位置上的选择的后果在离开这个位置之后就可能不算他们的责任了。这就给两个任期快结束的官员一个相互背叛的激励。

当一个政治领导人再当选的机会看起来很小时，同样的问题也会出现。在即将届满的官员身上这个问题就更尖锐。从公众的立场看，一个面临事业终点的政治家会是危险的，因为追求个人利益的诱惑增加了。

在水门事件之后选民对共和党的惩罚说明，政党确实要为其领导人的背叛负责。

＂一报还一报＂是用与对方背叛完全等量的背叛来反应。但在许多情况下，如果这个反应稍稍少于挑衅的话，合作的稳定性便可以得到增强。要不然，就很容易陷入彼此无止境地反应对方的上一步背叛。

友谊不是合作进化所必要的。正如堑壕战的例子说明的，即使是敌人也可以学到在回报的基础上发展合作。

一些中国出口企业在激烈的国际市场竞争中，缺乏自律，竞相低价出口以争夺市场，最终授人以柄而导致反倾销。

人们相互作用越频繁，合作的可能性就越大。

安全困境：国家往往通过那些威胁到其他国家安全的手段来寻求自身的安全。这个问题体现在区域冲突和军备竞赛上。

Written on April 24, 2023