跳转至

博弈论 | GameTheory

2819 个字 预计阅读时间 11 分钟

分类

  • 局中人是否允许合作:非合作博弈、合作博弈
  • 策略的数目:有限策略博弈 - 无限策略博弈
  • 策略选择是否具有概率随机性:纯策略博弈、混合策略博弈
  • 策略与时间的关系:静态博弈、动态博弈
  • 参与人对问题信息结构的了解程度:完全信息博弈、不完全信息博弈
  • 数学模型:矩阵博弈、连续博弈、微分博弈、阵地博弈、凸博弈、随机博弈

问题与基本概念

局中人 (Players)

策略集(Strategies): 完整性、多样性、不可观察性

赢得函数 / 支付函数 (Payoff function)

信息 (infomation)

action:variable

outcome equilibrium: 均衡 , 所有参与者最优策略组合 rules:players,action&outcome

  • 矩阵博弈:研究有限零和博弈的最优策略。
  • 理性博弈原则:决策主体追求自身利益最大化。
  • 最优策略对极大极小值和极小极大值:通过求解极大极小值和极小极大值来找到最优策略。
  • 纳什均衡解的意义:研究解的可能性,包括单个解、多个解或无纯策略解等情况

在众多对策模型中,占有重要地位的是二人有限零和对策,即在对策只有两个局中人,各自的策略集只含有限个策略,每局中两个局中人的得失总和为零(即一个局中人的赢得恰为另一个局中人所输掉的值,这类对策又称为矩阵对策

矩阵——纯策略博弈

博弈模型 G={I,II,S1,S2,A}

  • 局中人 III
  • 策略集 S1={a1,a2,,am} S2={b1,b2,,bn}
  • 局中人 I 的赢得矩阵:A
A=[a11a12a1na21a22a2nam1am2amn]
  • 局中人 II 的赢得矩阵:AT

共许原则

双方均无改变策略的意愿

自身利益最大化原则

自身的赢得值尽可能大

  • 问题:不确定对方决策情况下的最优决策
  • 准则:从最坏的预期中选则最好的(悲观准则)一种保守而贪心的准则 “做最坏的打算,争取最好的结果”

局中人 I​ 最大预期赢得(赢得指自身最小收益)

极大极小值:maximinjaij

局中人 II​ 最小预期损失(损失指对手最大收益)

极小极大值:minjmaxiaij

极大极小值与极小极大值

maximinjaijminjmaxiaij
证明:对于 j,有

minjaijaij
maximinjaijimaxiaijj

maximinjaijminjmaxiaij

均衡解

矩阵鞍点

鞍点指的是矩阵中的一个元素,它是所在行的最大值,并且是所在列的最小值
判断鞍点的一个充分条件是:函数在一阶导数为零处(驻点)的黑塞矩阵为不定矩阵。

如果存在

maximinjaij=minjmaxiaij=aijVG

(ai,bj) 为矩阵博弈的最优纯策略对,也称为最优局势。VG 称为博弈值。

矩阵博弈最优纯策略对存在的充要条件是存在鞍点

非常强的条件 证明:

1、必要性

maximinjaij=minjmaxiaiji,j,minjaij=maximinjaij=minjmaxiaij=maxiaijaijminjaij=maximinjaij=minjmaxiaij=maxiaijmaxiaij=aij=minjaijaijaijaij

2、充分性

maxiaijaijminjaijminjmaxiaijaijmaximinjaijmaximinjaijminjmaxiaijmaximinjaij=minjmaxiaij

鞍点解的博弈解释:没有一方愿意单方面改变策略,因为单方面改变策略均无法改善自身的赢得值,更多情况下反有损害(共许原则)

性质

1、无差别性

(a1i,bj1) (a2i,bj2) 是对策的两个解,

a1ij=a2ij
A=[a11a12a1na21a22a2nam1am2amn]

2、可交换性

(a1i,bj1) (a1i,bj2) 是对策的两个解,则 (a1i,bj2) (a2i,bj1) 也是对策的解。

A=[a11a12a1na21a22a2nam1am2amn]

矩阵——混合策略博弈

模型

G={S1,S2;E}

混合策略集

S1={xRmxi0,i=1,2,,m;i=1mxi=1}

xi 为局中人 I 执行纯策略 ai​ 的概率

S2={yRnyj0,j=1,2,,n;i=1nyj=1}

yj 为居中人 II 执行纯策略 bj 的概率

局中人 I 的赢得函数:E(x,y)=xTAy=i=1mj=1naijxiyj

局中人 II 的赢得函数:E(x,y)

  • 混合策略的取值在多次博弈中可看作概率,一次博弈中可看作偏好。
  • 混合策略集是无穷集合,纯策略是混合策略的特例。
  • 分析问题时,首先考虑纯策略博弈,当纯策略解不存在时,就考虑混合策略博弈。因此混合策略博弈也可以用 G={S1,S2;A}​​ 表示。

理性决策

  • 局中人 I 的最大预期赢得:maxxS1minyS2E(x,y)
  • 局中人 II 的最小预期损失:minyS2maxxS1E(x,y)

两者关系:maxxS1minyS2E(x,y)minyS2maxxS1E(x,y)

  • 混合策略 x=[x1,x2,,xm]Ty=[y1,y2,,yn]T
  • 混合局势 (x,y)

均衡解

  • 最优混合策略对
maxxS1minyS2E(x,y)=minyS2maxxS1E(x,y)=E(x,y)VG
  • 最优混合策略存在的充要条件:存在鞍点
E(x,y)E(x,y)E(x,y)
  • 平衡局势 (x,y)

定理:一定存在混合策略意义下的矩阵博弈均衡解

证明思路:鞍点条件一定有解。

image-20240606084717435

image-20240606084737444

均衡解的性质

对称博弈性质

如果博弈问题具有如下对称性:

A=AT 自身角度的赢得矩阵相同 
T1(G)=TΠ(G)aij={aijij0i=j
VG=E(x,y)=j=1ni=1maijxiyj=VG=0 最优策略时无赢家 

石头剪刀布问题

解集不变性

  • 赢得矩阵严格单调变换下的解集不变性

博弈 : G1={S1,S2;A1}G2={S1,S2;A2}

A2=A1+L1m×nT(G1)=T(G2)VG1=VG2+L
A2=aA1,a>0T(G1)=T(G2)VG1=aVG2
  • 解集 T(G) : 博弈 G 的均衡解集合。

证明:上述变换只改变了赢得矩阵元素的数值,不改变相对大小关系。

互补松弛性

xi>0j=1naijyj=v=E(x,y)yj>0i=1maijxi=w=E(x,y)

如果某条纯策略可能被选择,则该纯策略下对手的最优混合策略下的赢得值必为 VG

i=1naijyj<v=E(x,y)xi=0i=1maijxi>w=E(x,y)yj=0

如果某条纯策略下对手的最优混合策略的赢得值比 VG 更好,则该纯策略无被选择可能。

矩阵——均衡解的求解

互补松弛性定理

对偶理论

线性规划解

双矩阵

(二人有限非零和博弈)

模型

G={S1,S2;A,B}
  • 局中人 I、II
  • 策略集
S1={α1,α2,,αm}
S2={β1,β2,,βn}
  • 局中人 I 的赢得矩阵 A
  • 局中人 II 的赢得矩阵 B

纯策略 Nash 均衡

满足以下条件的策略对 (αi,βj)

ai,jai,ji=1,2,,mbi,jbi,jj=1,2,,n

没有一个局中人愿意单方面改变策略

A=[90151]B=[91501]

例子:囚徒困境——占优策略 Nash 均衡

混合策略 Nash 均衡

  • 赢得函数
E1(x,y)=xTAy=i=1mj=1naijxiyjE2(x,y)=xTBy=i=1mj=1nbijxiyj
  • Nash 混合策略均衡点

满足以下条件的策略对 (x,y)

E1(x,y)E1(x,y)xS1E2(x,y)E2(x,y)yS2

如果纯策略均衡解存在,也是混合策略的均衡解。

n 人有限策略博弈至少存在一个 Nash 均衡点(包括纯策略和混合策略(Nash, 1950)

Pareto 最优

允许合作下的博弈问题为多目标优化问题 :

  • 目标 1: maxxiS1,yjS2E1(x,y)
  • 目标 2: maxxiS1,yjS2E2(x,y)
  • Pareto 最优解 (x,y) : 不存在超优 (x,y) 的策略对。

(x1,y1) 超优 (dominate)(x2,y2) :

E1(x1,y1)E1(x2,y2)E2(x1,y1)E2(x2,y2)

且至少有一个不等式严格成立。

纯策略 Nash 均衡解

III 坦白 抗拒
坦白 (-9,-9) Nash 均衡 (0,-15)
抗拒 (-15,0) (-1,-1)Pareto 最优解

严格意义下的解:满足可交换性和无差别性的 Pareto 最优均衡解

Nash 均衡解的充要条件

  • 定理 : (x,y) G={S1,S2;A,B} Nash 均衡解的充要条件为 :
j=1naijyjE1(x,y)i=1,2,,mAyE1(x,y)1mi=1mbijxiE2(x,y)j=1,2,,nBTxE2(x,y)1nxS1yS2

image-20240606093544168

Was this note helpful?