编辑
2022-04-23
课程学习
00
请注意,本文编写于 946 天前,最后修改于 36 天前,其中某些信息可能已经过时。

目录

选题
模型
思路与假设
说明
代码
结果与分析
初始参数与结果
得益矩阵对结果的影响
博弈次数对结果的影响
错误率对结果的影响
总结
参考文献

为了分析社会中人与人之间的合作关系,根据博弈论的基础概念与理论,通过 NetLogo 软件构建合作关系模型,研究不同的社会奖惩倾向、参与者的类型、互动频率,以及互动中信息误传递等因素,对整个社会风气的影响。结果表明,惩恶扬善的社会体制,能约束坏的风气;社会中互动次数的增加,有利于构建良好的合作环境;错误会导致合作的崩解,适当的宽容有利于合作的维系。

NetLogo具体使用方法参见官方用户手册

注意

中文用户手册已经过时,有很多语法是不支持的了,仅供参考使用

选题

选题灵感来自博弈论游戏——《信任的进化》,以及罗伯特·阿克塞尔罗德的《合作的进化》

博弈论,作为数学学科的一个重要分支,是研究人们在不同的信息条件下如何进行互动决策的理论。它在经济学、生物学、政治学、军事战略,以及国际关系等学科中都有着广泛的应用。而“囚徒困境”,则是博弈论中研究最为广泛的模型之一,它揭示了在一次博弈过程中追求个人利益与公共利益之间存在的矛盾。

但是,在社会中合作行为时刻都在发生,而且人与人之间的合作基本不止一次,因此“囚徒困境”将从单次博弈变为重复博弈,对局双方的选择也会更多,不再是简单地选择欺骗策略。

罗伯特·阿克塞尔罗德所著的《合作的进化》一书,记述了作者组织的两次计算机程序重复博弈比赛。在这两场比赛中,采用“一报还一报”简单策略的程序都获得了第一名[1]。这个程序具有的一些特点,放在社会合作关系中也同样适用。

模型

思路与假设

在这个模型中,博弈方通过合作或是欺骗行为,获取尽可能高的分数。每种类型的人会采取不同的策略:

  • 老好人(G):永远选择合作
  • 大恶人(B):永远选择欺骗
  • 复读机(TFT):第一次选择合作,之后会重复对方上一次的选择

根据社会中的合作关系,提出以下假设:

  • 人的社交范围是有限的:考虑瓦片的邻域作为进行比拼的范围;

  • 人与人的接触是频繁的:考虑每局比拼中两个瓦片之间会进行多轮“比拼”;更重要的是,多次合作的具体次数是不可知的(即不知道最后一次合作是何时)

  • 人会被淘汰:得分最低的瓦片会被清除;

  • 人会繁衍:“无生命”的瓦片会变成有“生命”的瓦片;

  • 人会受到周围人的影响:根据周围的“有生命”的瓦片类型的占比,决定繁殖出的瓦片的类型;

  • 人还会受整体社会风气的影响:根据所有瓦片的占比,也会影响到繁殖出的的瓦片的类型。

  • 人会犯错:人在“比拼”中可能会不小心做出相反的选择,在本模型中只讨论复读机之间、老好人与复读机之间的犯错可能性。

注意:这里的淘汰与繁衍不一定指的是生物进化论中的淘汰,也可能是个体由于看到其他人的策略更成功,而转变了自己的策略,因而原来的那个类型的人被“淘汰”了。

说明

整个社会各种类型的个体可以按比例随机生成或是人工设置,其中粉色代表老好人,紫色代表大恶人,青色代表复读机。博弈的得益矩阵、博弈次数可以进行修改,并可以调节淘汰百分比(末位淘汰)、繁殖概率、繁殖时受邻域的影响权重,以及犯错的概率。运行后,每个个体都与八邻域内的个体按设定的规则和自身的策略进行多轮博弈,总得分最低的一些个体被淘汰,随后整个社会的个体进行繁殖并开始下一轮的博弈,如此循环。可以观察社会中各种类型的分布变化,以及坐标图中各类型的比例变化,界面如图1所示。

图1 模型界面

代码

工程文件请见:地理建模方法

其中最为麻烦的就是选出得分最低的若干瓦片并淘汰的过程。一开始看的是中文文档,里面的语法已经过时,无法支持sort-by的操作。正确的语法如下:

NetLogo

上述代码的意思是将patchesscore从小到大排序,得到一个列表score-list。然后根据设定的百分比,将排名靠后的瓦片清理。

结果与分析

初始参数与结果

初始参数设置如下:

G、B、TFT比例为0.85、0.10、0.05,每轮博弈重复次数为20次,得益矩阵如下表所示。淘汰率为0.1,繁殖概率为0.5,繁殖的邻域影响权重为0.8,犯错概率为0

合作 欺骗
合作 (1,1) (-2,2)
欺骗 (2,-2) (0,0)

在模型的二维网格上,粉色代表合作者G,紫色代表欺骗者B,青色代表一报还一报者 TFT。

在模型的曲线图上,黑色曲线代表个体占整个社会的比例,粉色曲线代表G在个体中的比例,紫色曲线代表B在个体中的比例,青色曲线代表TFT在个体中的比例。

当参数为初始参数时,博弈结果如图2所示,个体类型比例的变化曲线如图3所示。

可以看到,第一阶段,G占多数而B和TFT只占少数。由于G的策略是永远合作,B的策略是永远欺骗,导致开始阶段B可以一直欺骗G保持快速的增长速度,而G相应地被大量淘汰了。

第二阶段,在B占多数的情况下,可供B压榨的G的数量不足,B之间只能互相欺骗,无利可得,得分最低。而TFT通过其策略,能与TFT和G进行良好的合作,获取分数。TFT而对B也能在第一次被欺骗之后不再与B合作。因此,这一阶段中,处于TFT内部的G被保护得很好;而B则在内斗之中慢慢被TFT渗透。

第三阶段,当B的内部渗透了足够多的TFT时,由于邻域对繁殖个体类型的影响,导致TFT迅速地将B消灭殆尽。少数存活的G与能与TFT和谐地相处下去。

t=0t=38t=82t=111
图 2 ticks=0时的社会情况图 2 ticks=38时的社会情况图 2 ticks=82时的社会情况图 2 ticks=111时的社会情况

图 3 个体类型的比例变化曲线

得益矩阵对结果的影响

默认参数下的合作的胜利,这一切都基于一个重要的前提——合作双方要有利可图。如果将得益矩阵修改为如下表所示。那么任何合作都将失去意义,TFT与G也无法通过合作抵抗B的欺骗行为,结果将是毫无悬念的B大获全胜(如图4)。

合作 欺骗
合作 (0,0) (-2,2)
欺骗 (2,-2) (0,0)

图 4 个体类型的比例变化曲线

相反,如果削减B欺骗的得益,补偿G和TFT被欺骗的损失(如下表),则破坏合作环境的B将无处容身(如图5)。

合作 欺骗
合作 (1,1) (-1,1)
欺骗 (1,-1) (0,0)

图 5 个体类型的比例变化曲线

这就说明,社会中对合作的奖罚倾向会很大程度上影响社会中个体的策略。如果社会不能够有效地鼓励合作,反而是欺骗他人能获得更多的回报,那么就没有人愿意合作了。反之,如果能够鼓励合作,惩治破坏合作秩序的人,那么合作的好风气就可以扩散开。

博弈次数对结果的影响

此外,一轮的博弈次数也将对结果产生很大影响。当一局的博弈次数由20次减少到10次时,虽然演化过程依然为相似的三个阶段,但TFT对B的第二阶段侵入速度将大幅度下降(如图6),用时约为2800ticks,远比初始参数下的100ticks要长(如图3)。

图 6 个体类型的比例变化曲线

当一轮的博弈次数减少到4-6次时,TFT对B的侵入能力将消失,演化也将停留在第二阶段(如图7,图8)。

图 7 演化停留在第二阶段

图 8 个体类型的比例变化曲线

而当一轮的博弈次数减少到3次以下时,B将直接把TFT与G全部淘汰(如图9)。

图 9 个体类型的比例变化曲线

结果表明,博弈次数对整个社会演化结果有很大的影响。对TFT来说,只要有足够的博弈次数,就能与其他的TFT和G建立良好的合作关系,累积足够的分数来抵消第一次博弈中被B欺骗的损失。因而,在一小群TFT侵入B之后,TFT能稳定地在B中存在,最终淘汰掉B群体。但是,当合作的次数减少时,TFT合作的收益将逐渐无法抵消B的第一次欺骗的损失,因而无法在B的群体中立足,演化将停滞在第二阶段。而当博弈次数继续减少到3以下时,TFT合作总收益进一步减少,甚至比互相欺骗的B的得分还要低,因此无法抵挡B的侵入。

这也说明了,社会中足够多次的互动,才能够促进信任与合作的传播;若互动次数不足,则未来合作的可能总得益还不及一次欺骗的得益高,也就不会有人愿意再合作了。

错误率对结果的影响

社会中的互动可能会存在信息误传递,导致错误的出现。这里仅考虑TFT之间,TFT与G之间的第一次博弈的错误可能性。将错误概率设为0.3时,可以发现演化情况的前一部分依然是以前述的三个阶段为主(如图10)

t=0t=127t=4405t=5497
图 10 ticks=0时的社会情况图 10 ticks=127时的社会情况图 10 ticks=4405时的社会情况图 10 ticks=5497时的社会情况

但是由于犯错的可能,使TFT的合作收益降低,因此TFT对B的侵入速度也有降低的现象出现。而演化的后一部分则出现了有趣的现象,在TFT消除了大量的B之后,G又迅速地消除了大量的TFT,相应的B的数量也有所恢复(如图11)。

t = 5566t=5968
图 11 ticks=5566时的社会情况图 11 ticks=5968时的社会情况

整个演化的过程如图12所示。

图 12 ticks=5497时的社会情况

后一部分现象的出现,其原因在于TFT具有的可激怒性。当TFT与TFT进行博弈时,由于第一次博弈双方存在犯错的可能性,一旦一方犯错,双方就会陷入彼此欺骗的循环中。而如果双方在第一次博弈中同时犯错,双方则会一直欺骗对方,这就使得益更少。相比TFT,G就非常宽容,无论对方做了什么,G都会选择继续合作。所以G不会因为对方犯了错,就选择报复,因而能和TFT合作得很好,这也是为什么之后G能消除大部分TFT。这也证明了,在社会合作中,犯错可能会破坏合作的建立;适当的宽容,反而能促进合作的进行。

总结

通过前述的结果与分析,可以看出,社会中的合作关系同时受到社会奖惩倾向、社会中合作互动的次数,社会中犯错概率,合作双方宽容度等诸多因素的影响。一个奖善惩恶的社会,是推动合作、减少欺骗的关键。人与人之间足够多的互动,能促进合作与信任的加深。而适当的宽容,能保持合作的稳定进行。

在本文的实验中,每个个体的博弈对象是固定的,而实际中个体可能会迁移,个体之间的关系也不是简单的邻接关系。因此,后续的研究可以考虑个体根据各自的倾向迁移,或基于小世界网络确定博弈对象,以得到更贴近社会情况的模型。

参考文献

  • 罗伯特·阿克塞尔罗德.合作的进化[M].上海:上海人民出版社,2022:19-37

  • Axelrod, Robert. The Complexity of Cooperation: Agent-Based Models of Competition and Collaboration. Princeton University Press, 1997, http://www.jstor.org/stable/j.ctt7s951. Accessed 6 May 2022.

  • Wilensky, U. 1999. NetLogo. http://ccl.northwestern.edu/netlogo/. Center for Connected Learning and Computer-Based Modeling, Northwestern University. Evanston, IL.

  • 宋明鑫. 计算机技术在“囚徒困境”博弈中的应用研究[D]. 天津:天津大学,2006. DOI:10.7666/d.y1047770.

本文作者:Zerol Acqua

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!