还剩7页未读,继续阅读
文本内容:
博奕论读后感博弈论
(一)博弈小术语收益矩阵、均衡、纳什均衡、零和博弈论,也称互动的决策论它的基本假设之一是人是理性的但现实并非如此,人不可能具有完备的知识也不可能时时理性尽管如此,人们仍然乐意用博弈论的方法来解释和分析现实社会现象每一次的人际交往都可以简化成两个基本选择合作或者背叛比如在前面的日志里提到的囚徒困境,在人际交往中普遍存在囚徒困境双方明知合作能带来双赢,却因为理性的自私和信任的缺乏而导致合作难以形成当一次性博弈浮现时,人们往往会选择背叛这在现实生活中也有不少例子,比如飞机场,为什么食品价格敢定那末高呢?因为它知道候机的乘客不会是它的长期客户而当博弈的终点不可知时,就又是另一回事了在多次博弈中,背叛仍不可避免,但合作的几率会相比一次博弈有提高至于如何更加有效地减少背叛,一种办法是引入惩罚机制,可以是带剑的法律或者温和些的道德约束现实中的集体活动等候上车问题就是个例子,让那些迟到的人自己负责任就是一种惩罚措施固然,如果在开头就有一些善意的人出来表明合作态度对提高合作机会也是有匡助的,不管这些善意的人是出于何种目的一旦合作开始,人们就能体验到合作的好处,并乐于一段时间至于时间的长短,关键是看博弈的终点是否明确这在上面也提到了,如果终点明确,人们就会倾向于在最后一次背叛而当大家都知道对方会这样想时,倒数第二次就会成为新的终点,新的背叛如此反复推演,合作从一开始就很难形成注意上面的论述是基于没有惩罚机制的基础有一个很故意思的实验,是由爱克斯罗德完成的这是一个计算机摹拟竞赛,参赛的位科学家递交了自己写的关于博弈策略的代码,同时62加之爱克斯罗德本人写的一个随即策略代码,共个结果表明,前6315名中惟独第名是非善意的程序,最后名惟独一个善意的,夺魁的是一815报还一报策略这个实力不凡的一报还一报策略就是对方选择什么我就回应什么,你合作我就合作,你背叛我也背叛这种策略体现的是善良、可激怒、宽容、简单等好品质虽然该策略在每次对局中分数都不能超过对手,但它的总分却是最高的它赖以生存的基础很坚固而那个非善意程序的是建立在别人的失败之上可以想像,如果赋予这些程序以进化的基因,长此以往,非善意程序的存活率将下降博弈论读后感
(二)我阅读的书是《博弈论教程》,王则柯、李杰编着,中国人民大学出版社此书一共分为九章,我自学了前七章,总结了一下心得博弈大致有以下两种分类按照博弈各方是否同时决策可以分为同时决策博弈(静态博弈)、序贯决策博弈(动态博弈)、同时决策博弈与序贯决策博弈的混合博弈按照大家是否清晰各种对局情况下每一个人的得益分为彻底信息博弈和不彻底信息博弈自由组一下啊,就会发现博弈的四大部份彻底信息的静态博弈、不彻底信息的静态博弈、彻底信息的动态博弈、不彻底信息的动态博弈同时决策博弈纳什均衡局中人单独改变策稍不会得到好处的对局即策略组合,就是纳什均衡设是人博弈的一个策略组合如果对于每一个局中人,,对于所有的都成立,则我们称策略组合是该博弈的一个纳什均衡优势策略有严格优势策略和弱优势策略之分,可以用严格劣势策略逐次消去法寻觅纳什均衡相对优势策略可以利用相对优势策略划线法或者箭头指向法寻觅纳什均衡混合策略纳什均衡对于有时候纳什均衡不是惟一的,有时候纳什均衡是不存在的,按照上述方法寻觅博弈的结果有时候不能实现,所以需要展开纳什均衡混合策略与纯策略的区别在于,混合策略是局中人可以按照一定的概率,随机的从策略组合中选择一种纯策略作为实际的行动混合策略有一个有个局中人参预的策略式博弈中,假定局中人有N个纯策略,即则概率分布,其中,,称为局中人的一个混合策略,这里表示局中人选择纯策略的概率混合策略纳什均衡是指给定对方选择该相对最优混合策略的条件下,能使局中人自身的期望支付达到最大的混合策略,必须满足的条件如下利用反应函数法和直线交叉法,寻觅同时决策有限博弈的混合策略纳什均衡当存在多重纳什均衡时,需要用帕累托优势标准或者风险优势标准来筛选帕累托效率标准经济的效率体现在配置社会资源以及改善人们的情况,主要看资源是否被充分利用,要想再改善某个人的利益,就必须伤害其他局中人的利益,这时候就说一个经济已经实现了帕累托效率,相反,如果还可以在不伤害别人的情况下改善任何人,就认为经济资源尚未被充分利用,就不能说经济已达到帕累托最优序贯决策博弈序贯决策博弈的一个重要特征是总有一个局中人率先采取行动,因此衍生出先动优势和后动优势先动优势虽然双方都得到好处,但是先决策先行动的一方得益多一些(比如情侣博弈)后动优势虽然双方都得到好处,但是后决策后行动的一方得益多一些(比如分蛋糕、产品定价)在这一节中,要准确把握了先动优势和后动优势的概念,摒弃先动者得益大于后动者得益即为先动优势和后动者得益大于先动者得益即为后动优势的观念利用倒推法寻觅序贯决策博弈的纳什均衡同时博弈与序贯博弈子博弈在一个人展开型博弈中,满足如下个条件的一个博弈,称3为的一个子博弈()的博弈树是的博弈树的一支;()博弈不能分割12博弈的信息集,具体来说,只要博弈的某个信息集的任何一个决策节点是博弈的一个决策节点,那末博弈的这个信息集的每一个决策节点都必须是博弈的决策节点;()博弈的末端节点处的3支付向量,与博弈在这些末端节点上的支付向量的有关部分重合重复博弈和策略性行动子博弈精练纳什均衡令表示阶段博弈,是重复次的重复博弈,,如果有惟一的纳什均衡,那末重复博弈的惟一的子博弈精练纳什均衡结果,是阶段博弈的纳什均衡重复次,即在每一个阶段博弈浮现的都是一次性博弈的那个均衡结果对于无限次重复的囚徒困境博弈,存在触发策略,两个着名的触发策略分别是冷酷策略和礼尚往来策略冷酷策略指双方一开始的时候选择合作,然后继续选择合作,直到有一方选择背叛,从此永远选择背叛,这个策略之所以冷酷,是因为任何局中人的一次性背叛将触犯永远的不合作礼尚往来策略开始的时候和冷酷策略一样,即双方都选择合作,在以后的每一个阶段,如果你的对手在最近的一次博弈采取合作策略或者在最近联系次策略中都选择合作策略,则你继续合作,如果你的对手在上一个k阶段的博弈中采取背叛策略,则你在下一阶段博弈中采取背叛策略报复,或者在以后次策略中选择背叛进行报复k对手是否采取背叛策略,取决于有效收益率零和博弈零和博弈又称零和游戏,与非零和博弈相对,属非合作博弈,指参预博弈的各方,在严格竞争下,一方的收益必然意味着另一方的损失,博弈各方的收益和损失相加总和永远为零双方不存在合作的可寻求二人零和博弈的纯策略纳什均衡,可以采用相对优势策略划线法,也可以采用最小最大法,最小最大法依托的思想是局中人在进行零和博弈时对他们自己去得好结果的机会报悲观的态度,行局中人采用maximin的决策原则,列局中人采用的决策原则此方法只是用于零和博minimax弈的纯策略纳什均衡博弈论读后感
(三)博弈论是一门很深的学问,主要研究个体如何在错综复杂的相互影响中得出最合理的策略,其应用的领域也非常广,最通常的应用该是经济学吧这本书中的理论很深奥,其数学模型的推导更是复杂,然而书中的案例却既浅显又生动,很值得一看现在拿出一个例子来,和大家一起分析其中的道理、分享其中的趣味这个例子是智猪博弈的故事,讲的是猪圈里有两头猪,一头大猪,一头小猪猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹那末,两只猪各会采取什么策略?答案是小猪将选择搭便车策略,也就是舒舒畅服地等在食槽边;而大猪则为一点残羹不知疲惫地奔忙于踏板和食槽之间原因何在?因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了小猪躺着大猪跑的现象是由于故事中的游戏规则所导致的规则的核心指标是每次落下的食物数量和踏板与投食口之间的距离如果改变一下核心指标,猪圈里还会浮现同样的小猪躺着大猪跑的景象吗?试试看改变方案一减量方案投食仅原来的一半分量结果是小猪大猪都不去踩踏板了小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完谁去踩踏板,就意味着为对方贡献食物,所以谁也不会有踩踏板的动力了改变方案二增量方案投食为原来的一倍分量结果是小猪、大猪都会去踩踏板谁想吃,谁就会去踩踏板反正对方不会一次把食物吃完小猪和大猪相当于生活在物质相对丰富的共产主义社会,所以竞争意识却不会很强改变方案三减量加移位方案投食仅原来的一半分量,但同时将投食口移到踏板附近结果呢,小猪和大猪都在拼命地抢着踩踏板等待者不得食,而多劳者多得每次的收获刚好消费完这个故事给了竞争中的弱者(小猪)以等待为最佳策略的启示但是对于社会而言,因为小猪未能参预竞争,小猪搭便车时的社会资源配置的并非最佳状态为使资源最有效配置,规则的设计者是不愿看见有人搭便车的,政府如此,公司的老板也是如此而能否彻底杜绝搭便车现象,就要看游戏规则的核心指标设置是否合适了书中还有不少例子,并进行了分析,我们都能悟出些道理所以读的时候会有一个感觉,那就是先有事实,后由理论也就是我们常说的理论来源于实践感觉就像是先有这个社会现象,然后才有这个理论去分析,这个理论套在这个社会现象上恰好合适。
个人认证
优秀文档
获得点赞 0