合作是如何产生的

最近在准备一次分享,题目早就想好了,有点大:我准备起名为“Theory of Everything and Beyond”。起这个名,一个是因为我很喜欢《Theory of Everything》这本电影,另一个是我很喜欢调皮,在我分享任何东西的时候,都喜欢在标题和内容里嵌一点“彩蛋”。

============

在做这次分享的时候,我先准备了一个大概50页的PPT,乱七八糟、能想到的东西就都塞了进去。我把这个草稿发给了几个老朋友。他们给了很多反馈,大致可以归纳为:

主题不够简单。信息过于巨量。过程太过跳跃。无法变成养分。

于是,我决定向GPT请教:

GPT的搜索能力很强大,根据只言片语就完成了一个最终证明很有用的预测。

于是就有了我看这本书。

========================

1. 囚徒困境

要充分理解这本书以及诸多分析,先要理解囚徒困境。所谓囚徒困境,可以简单描述如下。

囚徒困境(prisoner’s dilemma)是指两个被捕的囚徒之间的一种特殊博弈,说明即使合作对双方都有利时,保持合作也是困难的。囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护、人际关系等方面,也会频繁出现类似情况。

用一句话来说,我总结为:三个诸葛亮比不上一个臭皮匠

作为囚徒困境的标准例子,其描述是这样的:

两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。

用一张表格来表示就是:

甲\乙 坦白 抵赖
坦白 8/8 0/10
抵赖 10/0 1/1

这是一个典型的非零和博弈。在只进行一次博弈的时候,两个嫌犯都会选择坦白,于是双双被判8年;他们不会都选择抵赖,也因此“最好”的结果(各判1年)不会出现。

这也是我说的:三个诸葛亮比不上一个臭皮匠的原因。换个文绉绉的说法是:每个人都会做出“理性”的行动,却导致双方得到的比可能得到的少,这就是“困境”。

如果这本书只是讲到这里,那么这本书不会成为经典。

作者因此做了一个很重要的假设:在日常中,这样的囚徒困境会在相同的两个人(团体、阶级、乃至国家)之间多次出现。

因此,“在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为平衡的结果出现。欺骗的动机这时可能被惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。反复的、接近无限的重复次数时,纳什均衡趋向于帕累托最优,从互相背叛趋向于互相忠诚。”

阿克塞尔罗德在下一步做了一个很有趣的动作:他邀请不同领域的博弈论专家、经济学家、政治学家以及其他专业人士加入一次计算机模拟比赛,验证在重复博弈中,不同策略的表现以及哪些策略在长期互动中能够取得成功。

第一次比赛有14种不同的策略,比较重要的有:

  • 以牙还牙(TIT FOR TAT):从合作开始,如果对方背叛,则下一回合报复,否则继续合作。
  • 总是合作(Always Cooperate):无论对方怎么做,始终选择合作。
  • 总是背叛(Always Defect):无论对方怎么做,始终选择背叛。
  • 随机(Random):每回合随机选择合作或背叛。
  • 永不宽恕(GRIM):开始时合作,一旦对方背叛,则永远选择背叛。

第二次比赛时,所有参赛者都知道了第一次比赛的结果。比赛收到了63个策略,包括所有第一次比赛中的策略以及更多具有复杂结构和“向前看”机制的策略。

比赛的结果非常有趣也令人惊讶:

两次比赛的胜出策略都是同一个,而且是最简单的那个:一报还一报

由此出发,作者进行了进一步的分析。为什么这么一个简单的策略会在与众多其他策略进行博弈的时候,表现如此优异?

首先,这个策略鼓励的是长久稳定的合作。其次,它对背叛(以及合作)基于即时的反应(因为它在某一轮的动作是永远简单重复对方上一轮的动作)——也因此很简单。

以上,是作为个体的策略的一种分析。

阿克塞尔罗德进而分析这种策略在社会生活中的生存和进化。

在这里,一个根本而且基础的出发点是:无需假设所有人都是“利他”、“合作”的,更无需像霍布斯认为的那样,需要一个集权的中央来enforce这样的行为。这是我很喜欢的出发点:简单、自洽、符合奥卡姆剃刀原则,符合GEB和混沌的基础(“自组织”)。这里只需要一个出发点:每个人都是“利己”和“自私”的。

从利己自私出发,最终推广到利他合作,这才是我喜欢的人类社会发展的途径。这里不需要“大设计”。

阿克塞尔罗德这方面的分析也很精准,他指出了“一报还一报”策略的健壮性、排他性、传递性。简单说,哪怕一个非常巨大的群体,只要存在近乎无数次的非零和博弈,那么哪怕只要有一小群人(能互相接触到)持有“一报还一报”策略,那么他们才是最终能获得最大发展的群体,也因此,持这个策略的人从数量上会增加并最终成为这个群体中dorminant的群体。到了这个地步,这个社会也许就是比较发达的社会了。

最后我引用两句原文作为本书评的结尾:

生态分析表明,与那些本身得分并不佳的程序相遇时干得不错,只不过是在经历一个自我毁灭的过程。

从小,长辈都会告诉我们:要“轧好道”(和好人相处)。上述论断就是“轧好道”的理论出发点。

像在生态仿真中一样,更成功的增长是由于较好的存活和复制,或者是由于有较大的机会被其他人模仿。

这不就是“普世价值”的出发点?

(明天开始就是国庆长假。祝大家节日快乐,吃好玩好!)

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *