Talking about 合作的进化:艾克斯罗德(Robert Axelrod)对“囚徒困境”的乐观见解

abloz 2005-12-22
2005-12-22

 非合作的博弈预示了道德的滑坡可能是没法挽救的,直到人们道德的最底线。使社会上的任何人都成为受害者。
在古代的时候,良好的道德会得到很高的回报。孔子在礼崩乐坏的时候重建礼仪,中国经过几千年的发展,使道德的力量得到空前加强。中国人在宗族,国家的框架下,到达一种稳定的合作性的道德约束。古代没有很严密的法律,也没有现在这样强大到管理人们日常生活方方面面的政府。那时很多时候靠家长制的言传身教,道德约束来规范社会行为。所以虽然古代生产力不发达,但邻里关系应该是更加和谐,也造就了稳定发达的中国古代的农业文明。
五四运动和新中国成立后的文化大革命,对古代文化的精髓和精神信仰的摧毁是史无前例的。因此在高压和强权下,人们基本没有独立决策的权利,这不会有多大的问题,除了决策者的道德滑坡外,下层的破坏没有显示出来。而一旦到市场经济下,人的决策独立起来,非合作和无道德责任感的恶果开始显示出来。上层都是贪官污吏,下层坑蒙拐骗,制假贩假,环境污染,资源浪费,都不再是约束,丧失道德底线的人们只要对自己有利,就会不惜一切代价去做。
因此,重建社会道德,将是一件任重道远的事情。否则严刑峻法不足以挽回以前的和谐。社会发展的整体成本在巨大的内耗中居高不下。
郎咸平提到的信托责任,是社会信任的一个方面。如果每个人都有这种责任,那么就会达到一种合作博弈的均衡,这是社会整体利益最大的。但是,一党独大的政治体制,以及利益集团对话语权的把持,使社会信任的重建变得遥遥无期。

Quote

[合作的进化:艾克斯罗德(Robert Axelrod)对“囚徒困境”的乐观见解](http://spaces.msn.com/members/airlinkmatrix/blog/cns!1pyjhyo6r6FXsyO0GKWiSqRw!399.entry)  



[这篇文章](http://www.chedong.com/blog/archives/000728.html)来自[车东](http://www.chedong.com/blog)大侠的blog, 思路非常清晰,阅读起来如饮甘露,畅快,畅快!(补充:后来车东在后面评论补充,该文内容是转载,可能是[这篇](http://www.unirule.org.cn/symposium/c139.html))




 




check了一下license,(cc) ok, 就cc过来与大家分享一下:) 




 




“以德报德,以直报怨”, 直小于怨,遂文明得以进步。 这的确符合社会进化的事实。




 




感觉博弈论在大量消费者参与的web服务中非常有用,有可能解释或预见博弈的演化方向。




在另一篇[相关文章](http://www.beiwang.com/a/Article.asp?ArtID=949)中提到博弈论的三本经典著作,应当研读一下:




“第一本是冯.诺依曼和摩根斯坦著的《博弈论与经济行为》,第二本是谢林的《冲突的策略》,第三本就是艾克斯罗德的《合作的演化》 ”  
 




同时,我觉得经济学的前提往往过于理想,而且对于行为的“噪音”未能充分的考虑,所以还是不能教条的相信他的结论。




 




 







* * *







 




 


### 搜索:博弈论与纳什平衡




[_博弈论(game theory)_](http://zh.wikipedia.org/wiki/%E5%8D%9A%E5%BC%88%E8%AE%BA)对人的基本假定是:人是理性的(rational,或者说自私的),理性的人是指他在具体策略选择时的目的是使自己的利益最大化,博弈论研究的是理性的人之间如何进行策略选择的。




纳什(John Nash)编制的博弈论经典故事[_"囚徒的困境"_](http://zh.wikipedia.org/wiki/%E5%9B%9A%E5%BE%92%E5%9B%B0%E5%A2%83%E6%82%96%E8%AE%BA),说明了非合作博弈及其均衡解的成立,故称[_"纳什平衡"。_](http://zh.wikipedia.org/wiki/%E7%BA%B3%E4%BB%80%E5%9D%87%E8%A1%A1)




所有的博弈问题都会遇到三个要素。在囚徒的故事中,两个囚徒是当事人(players)又称参与者;当事人所做的选择策略 (strategies)是承认了杀人事实,最后两个人均赢得(payoffs)了中间的宣判结果。如果两个囚徒之中有一个承认杀人,另外一个抵赖,不承认杀人,那么承认者将会得到减刑处理,而抵赖者将会得到最严厉的死刑判决,在纳什故事中两个人都承认了犯罪事实,所以两个囚徒得到的是中间的结果。




类似的: 我们也能从“[_自私的基因_](http://www.simonyi.ox.ac.uk/dawkins/WorldOfDawkins-archive/Dawkins/Work/Books/selfish.shtml)”等理论中看到“纳什平衡”的体现。




* * *











在互联网这个原始丛林中:[_最优策略是如何产生_](http://www.unirule.org.cn/symposium/c139.html)的呢?




一、 博弈中最优策略的产生 




艾克斯罗德(Robert Axelrod)在开始研究合作之前,设定了两个前提:一、每个人都是自私的;二、没有权威干预个人决策。也就是说,个人可以完全按照自己利益最大化的企图进行决策。在此前提下,合作要研究的问题是:第一、人为什么要合作;第二、人什么时候是合作的,什么时候又是不合作的;第三、如何使别人与你合作。




社会实践中有很多合作的问题。比如国家之间的关税报复,对他国产品提高关税有利于保护本国的经济,但是国家之间互提关税,产品价格就提高了,丧失了竞争力,损害了国际贸易的互补优势。在对策中,由于双方各自追求自己利益的最大化,导致了群体利益的损害。对策论以著名的囚犯困境来描述这个问题。




A和B各表示一个人,他们的选择是完全无差异的。选择C代表合作,选择D代表不合作。如果AB都选择C合作,则两人各得3分;如果一方选C,一方选D,则选C的得零分,选D的得5分;如果AB都选D,双方各得1分。




显然,对群体来说最好的结果是双方都选C,各得3分,共得6分。如果一方选C,一方选D,总体得5分。如果两人都选D,总体得2分。 




对策学界用这个矩阵来描述个体理性与群体理性的冲突:每个人在追求个体利益最大化时,就使群体利益受损,这就是囚徒困境。在矩阵中,对于A来说,当对方选 C,他选D得5分,选C只得3分;当对方选D,他选D得1分,选C得零分。因此,无论对方选C或D,对A来说,选D都得分最多。这是A单方面的优超策略。而当两个优超策略相遇,即A,B都选D时,结果是各得1分。这个结果在矩阵中并非最优。困境就在于,每个人采取各自的优超策略时,得出的解是稳定的,但不是帕累托最优的,这个结果体现了个体理性与群体理性的矛盾。在数学上,这个一次性决策的矩阵没有最优解。




如果博弈进行多次,只要对策者知道博弈次数,他们在最后一次肯定采取互相背叛的策略。既然如此,前面的每一次也就没有合作的必要,因此,在次数已知的多次博弈中,对策者没有一次会合作。




如果博弈在多人间进行,而且次数未知,对策者就会意识到,当持续地采取合作并达成默契时,对策者就能持续地各得3分,但如果持续地不合作的话,每个人就永远得1分。这样,合作的动机就显现出来。多次对局下,未来的收益应比现在的收益多一个折现率W,W越大,表示未来的收益越重要。在多人对策持续进行下去,且W比较大,即未来充分重要时,最优的策略是与别人采取的策略有关的。假设某人的策略是,第一次合作,以后只要对方不合作一次,他就永不合作。对这种对策者,当然合作下去是上策。假如有的人不管对方采取什么策略,他总是合作,那么总是对他采取不合作的策略得分最多。对于总是不合作的人,也只能采取不合作的策略。




艾克斯罗德做了一个实验,邀请多人来参加游戏,得分规则与前面的矩阵相同,什么时候结束游戏是未知的。他要求每个参赛者把追求得分最多的策略写成计算机程序,然后用单循环赛的方式将参赛程序两两博弈,以找出什么样的策略得分最高。




第一轮游戏有14个程序参加,再加上艾克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作),运转了300次。结果得分最高的程序是加拿大学者罗伯布写的"一报还一报"(tit for tat)。这个程序的特点是,第一次对局采用合作的策略,以后每一步都跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。艾克斯罗德还发现,得分排在前面的程序有三个特点:第一,从不首先背叛,即"善良的";第二,对于对方的背叛行为一定要报复,不能总是合作,即&



如非注明转载, 均为原创. 本站遵循知识共享CC协议,转载请注明来源