6.1 几个概念
参与人 参与人的行动 参与人的信息 参与人的策略 参与人的支付 结果 均衡 博弈论
6.2.1
基本理论
同时博弈
si,i1,,N Si,i1,,N
s(s1,,sN) SS1SN
ui(s)ui(s1,,uN),
(u1(s),,uN(s))
严格占优策略
严格占劣策略
删除严格占劣策略
6.2 同时博弈:纯策略均衡
局中人i(i1,,N)的策略 局中人i(i1,,N)的策略集
所有局中人的策略组合
所有局中人的策略组合集 i1,,N 局中人i(i1,,N)的支付;
该支付取决于所有局中人的策略组合
所有局中人的支付向量
如果ui(si,si)ui(si,si), (si,si)S,s i,则sisi是局中人i的严格占优策略。
如果ui(si,si)ui(si,si), siSi,则局中人i的策略si严格占优于他的另外一个策略si。在这种情况下,我们也可以说,局中人i的策略si在S中是严格占劣的。
从局中人i的策略集Si中删除一个严格占劣策略之后得到的结果记为S1i;重复进行n轮这样的删除得到的结果记为Sni(注意:删除严格占劣策略不影响最后的均衡)
1
重复删除后的严格不占劣策略
如果siSin,对于一切的n1,则si为重复删除后的严格不占劣策略。
如果ui(si,sSi)ui(si,si), si,且至少有一i个严格不等式成立,则局中人i的策略si弱占优于他的另外一个策略si。在这种情况下,我们也可以说,局中人i的策略si在S中是弱占劣的。 从局中人i的策略集Si中删除一个弱占劣策略之后得到的结果记为Wi1;重复进行n轮这样的删除得到的结果记为Win(注意:删除弱占劣策略也不影响最后的均衡)
如果siWin,对于一切的n1,则si为重复删除后的弱不占劣策略。
弱占劣策略
删除弱占劣策略
重复删除后的弱不占劣策略
纳什均衡
si), siSi, i1如果ui(s)ui(si,一个纯策略纳什均衡。
条件策略下划线法
,N,则s是
寻找纳什均衡的方法 纳什均衡的存在性 纳什均衡的唯一性 纳什均衡的最优性 6.2.2
二人同时博弈的一般理论
二个同时博弈的一般模型
二人同时博弈的一般模型
参与人B的策略 策略1 策略1 参与人A的策略 策略2
A与B的支付矩阵
策略2 a11,b11 a21,b21 a12,b12 a22,b22 a11A的支付矩阵a21a12b11b12、B的支付矩阵 bba222122 2
A的带下划线的支付矩阵:
a11①a21a11④a21a12a11、②a21a22a12a11、⑤a21a22a12a11、③a21a22a12a11、⑥aa2221a12a11、⑨a21a22a12 a22a12 a22a12 a22a11a11a12⑦、⑧a21a22a21B的带下划线的支付矩阵
b11b12b11b12b11b12①′、②′、③′
b21b22b21b22b21b22b11b12b11b12b11b12④′、⑤′、⑥′
b21b22b21b22b21b22b11b12b11b12b11b12⑦′、⑧′、⑨′
b21b22b21b22b21b22纳什均衡
可分为如下的五种类型。第一种是四个均衡。包括1种情况,即①+①′——它表示,A的带下划线的支付矩阵为①、B的带下划线的支付矩阵为①′。此时,总的支付矩阵中所有四个单元格的两个数字均有下划线,因而,总共有四个纳什均衡。第二种是三个均衡。包括12种情况。如①+②′、①+③′等等。第三种是两个均衡。包括38种情况。如①+⑥′、①+⑦′等等。第四种是一个均衡。包括28种情况。如②+⑦′、②+⑧′等等。第五种是零个均衡。包括2种情况,即⑧+⑨′和⑨+⑧′。
6.3 同时博弈:混合策略均衡
6.3.1
基本理论
mi(si),i1,Mi,i1,
,N 局中人i(i1,,N)的混合策略;其中,si是局,N)的混合策略集
中人i的纯策略;mi(si)是指派给si的概率。
,N 局中人i(i1,3
m(m1(s1),MM1
,mN(sN)) MN
所有局中人的混合策略组合 所有局中人的混合策略组合集
ui(m)ui(m1(s1),,mN(sN)), i1,
,N
局中人i(i1,,N)的支付;
该支付取决于所有局中人的混合策略组合
ui(m)ui(m1(s1),(u1(m),,uN(m))
,mN(sN))m1(s1)m2(s2)sSmN(sN)ui(s)
所有局中人的支付向量
如果ui(m)ui(mi,mi), miMi, i1是一个(混合)策略纳什均衡。
则m,N,
纳什均衡
纳什均衡定理(定理7.1) 纳什均衡的存在性(定理7.2) 6.3.2
混合策略博弈的一般理论
混合策略博弈的一般模型
混合策略博弈的一般模型
参与人B的策略 q1 策略1 q2 策略2 p1 参与人A的策略 策略1 策略2 a11,b11 a21,b21 a12,b12 p2
混合策略和混合策略组合
a22,b22 A的全部混合策略可表示为:(p1,p2),0p1,p21,p1p21,它包括了两个纯策略在内。
B的全部混合策略可表示为:(q1,q2),0q1,q21,q1q21,它也包括了两个纯策略在内。
A与B的全部的混合策略组合可以表示为:
((p1,p2),(q1,q2)),0p1,p21、p1p21,0q1,q21、q1q21
4
期望支付
A的期望支付可以表示为:
22Eap1q1a11p1q2a12p2q1a21p2q2a22piqjaij
i1j1将p21p1代入上式并整理得:
Eap1q1a11p1(1q1)a12(1p1)q1a21(1p1)(1q1)a22 p1(q1(a11a21)(1q1)(a12a22))q1(a21a22)a22
p1aq1(a21a22)a22这里,
aq1(a11a21)(1q1)(a12a22)
是参与人A的判别式。
B的期望支付可表示为:
22Ebp1q1b11p1q2b12p2q1b21p2q2b22piqjbij
i1j1将q21q1代入上式并整理得:
Ebp1q1b11p1(1q1)b12(1p1)q1b21(1p1)(1q1)b22 q1(p1(b11b12)(1p1)(b21b22))p1(b12b22)b22
q1bp1(b12b22)b22这里,
bp1(b11b12)(1p1)(b21b22)
是参与人B的判别式。
A的条件混合策略
A的条件混合策略可以表示为:
0a0p1[0,1] a0
1a0由此可见,A的条件混合策略完全取决于其判别式的符号,具体分为9种情况。① a11a21、a12a22。此时,A的条件混合策略可表示为:
p1[0,1] 0q11
⑸
⑹
⑺
⑻
5
② a11a21、a12a22。此时,A的条件混合策略可以表示为:
p10q111[0,1] q 11③ a11a21、a12a22。此时,A的条件混合策略可以表示为:
p00q111[0,1] q11 ④ a11a21、a12a22。此时,A的条件混合策略可以表示为:
p[0,1]q011 10q 11⑤ a11a21、a12a22。此时,A的条件混合策略可以表示为:
p[0,1]q010 10q 11⑥ a11a21、a12a22。此时,A的条件混合策略可表示为:
p11 0q11
⑦ a11a21、a12a22。此时,A的条件混合策略可表示为:
p10 0q11
⑧ a11a21、a12a22。此时,A的条件混合策略可表示为:
0q1qp1[0,1] q1q
1q1q⑨ a11a21、a12a22。此时,A的条件混合策略可表示为:
1q1qp1[0,1] q1q
0q1qB的条件混合策略
B的条件混合策略与其判别式之间的关系可表示为:
0b0q1[0,1] b0
1b0 6
具体情况如下。
①′b11b12、b21b22。此时,条件混合策略可表示为:
q1[0,1] 0p11
②′b11b12、b21b22。此时,条件混合策略可表示为:
q10p111[0,1] p 11③′b11b12、b21b22。此时,条件混合策略可表示为:
q00p111[0,1] p11 ④′b11b12、b21b22。此时,条件混合策略可表示为:
q[0,1]p011 10p 11⑤′b11b12、b21b22。此时,条件混合策略可表示为:
q[0,1]p010 10p 11⑥′b11b12、b21b22。此时,条件混合策略可表示为:
q11 0p11
⑦′b11b12、b21b22。此时,条件混合策略可表示为:
q10 0p11
⑧′b11b12、b21b22。此时,B的条件混合策略可表示为:
0p1pq1[0,1] p1p
1p1p⑨′b11b12、b21b22。此时,B的条件混合策略可表示为:
1p1pq1[0,1] p1p
0p1p 7
纳什均衡
A的条件混合策略曲线有9种情况,B的条件混合策略曲线也有9种情况,因此,A与B的条件混合策略曲线之间的两两“搭配”总共就有9981种可能。在这81种可能中,最终形成的混合策略纳什均衡的“集合”可分为7种类型,即“单位平面”、三条线段、两条线段、一条线段、三个点、两个点和一个点。
6.4 序贯博弈
6.4.1
基本理论
局中人 i1,,N
局中人的行动 历史或结
aiA x(a1,
,ak);xX
⑴ 初始结 ⑵ 终点结
x0(空历史)
e;xE{xX(x,a)X,aA}
(x,a)X意味着,在x之后没有其他结。换句话说,x是终点结。
⑶ 决策结 结处的行动者 结后的行动
xX\\(E{x0})
(x);:X\\(E{x0})N
A(x){aA(x,a)X}
(x,a)X意味着,在x之后还有其他结。换句话说,x不是终点结。
⑴ A(x0)
初始结x0之后的行动是自然的选择。如果A(x0){a},
即A(x0)为单点集,则这意味着,自然以概率1选择行动a。实际上,这意味着,自然的选择在这里不起作用,因而可以省略。如果A(x0)不只一个元素,则自然在
A(x0)上有一个概率分布——自然按照概率分布随机地在A(x0)中选择行动。
⑵ A(e)
终点结e之后的行动集是空集,即没有行动可以选择。 决策结x之后局中人(x)的所有行动。
⑶ A(x),xx0,e 信息集 支付 6.4.2
I、I(x)、Ii
ui:E
纳什均衡
纳什均衡是否存在 纳什均衡是否唯一 6.4.3
纳什均衡的精炼:逆向归纳法
如何从多个纳什均衡中,排除掉那些不合理的纳什均衡,或者,如何在所有的纳什均衡中,找到最有可能实现的纳什均衡?这就是所谓对纳什均衡的“精炼”,即要从众
8
多的纳什均衡中进一步确定“更好”的纳什均衡。
为了解决这个问题,我们使用所谓的“逆向归纳法”。逆向归纳法包括两个步骤。第一步,先从博弈的最后阶段的每一个决策点开始,确定相应参与人此时所选择的策略,并把参与人所放弃的其他策略删除,从而得到原博弈的一个简化博弈;第二步,再对简化博弈重复步骤一的程序,直到最后,得到原博弈的一个最简博弈。这个最简博弈,就是原博弈的解。
9
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- efsc.cn 版权所有 赣ICP备2024042792号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务