Various clarifications / improvements on normal form games.

author: David A. Madore <david+git@madore.org> 2017-02-21 15:01:03 +0100
committer: David A. Madore <david+git@madore.org> 2017-02-21 15:01:03 +0100
commit: 6adeb9190e730a5ae8ba39675306031619c648fe (patch)
tree: 3b502639fee4e6df0c6d35318f037f57dbb9ea0b
parent: 1746e31ac915adc95380da758c32aae53901e6c0 (diff)
download: mitro206-6adeb9190e730a5ae8ba39675306031619c648fe.tar.gz
mitro206-6adeb9190e730a5ae8ba39675306031619c648fe.tar.bz2
mitro206-6adeb9190e730a5ae8ba39675306031619c648fe.zip
1 files changed, 102 insertions, 32 deletions
diff --git a/notes-mitro206.tex b/notes-mitro206.tex
index d648151..96dfe79 100644
--- a/notes-mitro206.tex
+++ b/notes-mitro206.tex
@@ -1145,6 +1145,18 @@ qu'on vient de décrire (ce n'est pas un problème car $s_i$ se déduit
 de $s$ : précisément, $s_i(b) = \sum_{a: a_i = b} s(a)$ où la somme
 est prise sur les $a \in A$ tels que $a_i = b$).
 
+\danger (Il faudra prendre garde au fait qu'on peut voir $S$ soit
+comme une partie $S_1\times\cdots\times S_N$ de
+$\mathbb{R}^{A_1}\times\cdots\times \mathbb{R}^{A_N}$ formé des
+$N$-uplets $(s_1,\ldots,s_N)$, soit comme la partie de $\mathbb{R}^A =
+\mathbb{R}^{A_1\times\cdots\times A_N}$ formé des fonctions de la
+forme $s\colon (a_1,\ldots,a_N) = s_1(a_1)\cdots s_N(a_N)$ comme on
+l'a expliqué au paragraphe précédent.  Ces deux points de vue ont un
+sens et ont parfois un intérêt, mais ils ne partagent pas les mêmes
+propriétés.  Par exemple, $S$ est convexe en tant que partie
+$S_1\times\cdots\times S_N$ de $\mathbb{R}^{A_1}\times\cdots\times
+\mathbb{R}^{A_N}$, mais pas en tant que partie de $\mathbb{R}^A$.)
+
 Ceci conduit à faire la définition suivante :
 
 \begin{defn}
@@ -1177,12 +1189,13 @@ $s_? := (s_1,\ldots,s_{i-1},s_{i+1},\ldots,s_N) \in S_1 \times \cdots
 \times S_{i-1} \times S_{i+1} \times \cdots \times S_N$ est un profil
 de stratégies mixtes pour tous les joueurs autres que le joueur $i$,
 on dit que la stratégie mixte $s_! \in S_i$ est une \defin{meilleure
-  réponse} (resp. la meilleure réponse stricte) contre $s_?$ lorsque
-pour tout $t \in S_i$ on a $u_i(s_?,s_!) \geq u_i(s_?,t)$
+  réponse} (resp. la meilleure réponse \textbf{stricte}) contre $s_?$
+lorsque pour tout $t \in S_i$ on a $u_i(s_?,s_!) \geq u_i(s_?,t)$
 (resp. lorsque pour tout $t \in S_i$ différent de $s_!$ on a
 $u_i(s_?,s_!) > u_i(s_?,t)$), où $(s_?,t)$ désigne l'élément de
 $S_1\times \cdots \times S_N$ obtenu en insérant $t \in S_i$ comme
-$i$-ième composante entre $s_{i-1}$ et $s_{i+1}$.
+$i$-ième composante entre $s_{i-1}$ et $s_{i+1}$, c'est-à-dire le gain
+[espéré] obtenu en jouant $t$ contre $s_?$.
 
 Un profil de stratégies mixtes $s = (s_1,\ldots,s_N)$ (pour l'ensemble
 des joueurs) est dit être un \index{Nash (équilibre de)}\defin{équilibre de Nash} (resp., un
@@ -1197,24 +1210,36 @@ Donné un jeu en forme normale comme
 en \ref{definition-game-in-normal-form}, si $1 \leq i \leq N$ et si
 $s_?$ est un profil de stratégies mixtes pour tous les joueurs autres
 que le joueur $i$, il existe une meilleure réponse pour le joueur $i$
-qui est une stratégie pure.  Et même, si $s_!$ (stratégie mixte) est
-une meilleure réponse, alors il existe une meilleure réponse qui est
-une stratégie pure appartenant au support de $s_!$.
+qui est une stratégie pure.  De plus, si $s_!$ (stratégie mixte) est
+une meilleure réponse contre $s_?$ si et seulement si \emph{chaque}
+stratégie pure appartenant au support de $s_!$ est une meilleure
+réponse possible contre $s_?$ (et elles apportent toutes le même
+gain).
 
 En particulier, une meilleure réponse stricte est nécessairement une
 stratégie pure.
 \end{prop}
 \begin{proof}
-Il suffit de se rappeler que $u_i(s_?,t)$ est une fonction affine
-de $t \in S_i$, c'est-à-dire que sa valeur est combinaison convexe, à
-coefficients les $t(a)$ pour $a\in S_i$, des $u_i(s_?,a)$.  Comme une
-combinaison convexe est majorée par la plus grande des valeurs
-combinée (ici, des $u_i(s_?,a)$), il est clair que le maximum des
-$u_i(s_?,t)$ existe et est égal au maximum des $u_i(s_?,a)$ ; les
-autres affirmations sont tout aussi faciles.
-
-(Si on préfère : une fonction affine sur un simplexe prend son maximum
-— ou son minimum — sur un des sommets de ce simplexe.)
+Tout ceci résulte du fait que le gain espéré $u_i(s_?,t)$ est une
+fonction affine de $t \in S_i$ (et une fonction affine sur un simplexe
+prend son maximum — ou son minimum — sur un des sommets de ce
+simplexe, et ne peut le prendre à l'intérieur que si elle prend aussi
+cette valeur sur les sommets).
+
+Plus précisément : $u_i(s_?,t)$ (pour $t \in S_i$) est combinaison
+convexe avec pour coefficients $t(a)$ pour $a\in A_i$, des
+$u_i(s_?,a)$.  Si $v$ est le maximum des $u_i(s_?,a)$ (qui sont en
+nombre fini donc ce maximum existe), alors $v$ est aussi le maximum de
+toute combinaison convexe $u_i(s_?,t)$ des $u_i(s_?,a)$ : c'est-à-dire
+que $t\in S_i$ est une meilleure réponse possible contre $s_?$ si et
+seulement si $u_i(s_?,t) = v$.  En particulier, tout $a \in A_i$ qui
+réalise ce maximum $v$ est une meilleure réponse possible
+(contre $s_?$) qui est une stratégie pure.  D'autre part, une
+combinaison convexe $u_i(s_?,t)$ de valeurs $\leq v$ ne peut être
+égale à $v$ que si toutes les valeurs $u_i(s_?,a)$ entrant
+effectivement (c'est-à-dire avec un coefficient $>0$) dans la
+combinaison sont égales à $v$ (s'il y en avait une $<v$, elle
+entraînerait forcément une moyenne pondérée $<v$), et réciproquement.
 \end{proof}
 
 \begin{thm}[John Nash, 1951]\label{theorem-nash-equilibria}
@@ -1277,8 +1302,10 @@ mais elle peut donner l'impression qu'on commet une « erreur
 D'après la première expression donnée, il est clair qu'on a bien
 $s^\sharp_i \in S_i$, et qu'on a donc bien défini une fonction
 $T\colon S\to S$.  Cette fonction est continue, donc admet un point
-fixe $s$ d'après \ref{brouwer-fixed-point-theorem}.  On va montrer que
-$s$ est un équilibre de Nash.
+fixe $s$ d'après \ref{brouwer-fixed-point-theorem} (notons qu'ici, $S$
+est vu comme le convexe $S_1\times\cdots\times S_N$ dans
+$\mathbb{R}^{A_1}\times\cdots\times \mathbb{R}^{A_N}$).  On va montrer
+que $s$ est un équilibre de Nash.
 
 Si $1\leq i\leq N$, il existe $a \in A_i$ tel que $u_i(s_{?i},a) \leq
 u_i(s)$ (car, comme dans la preuve
@@ -1294,7 +1321,41 @@ tout $b$, et on a expliqué que ceci signifie que $s$ est un équilibre
 de Nash.
 \end{proof}
 
-%% \textcolor{red}{Dire quelque chose sur l'algorithme de Lemke-Howson ?}
+\thingy La question du calcul \emph{algorithmique} des équilibres de
+Nash, ou simplement d'\emph{un} équilibre de Nash, est délicate en
+général, ou même si on se restreint à $N=2$ joueurs (on verra
+en \ref{zero-sum-games-by-linear-programming-algorithm} ci-dessous que
+dans le cas particulier des jeux à somme nulle elle se simplifie
+considérablement).  Il existe un algorithme pour $N=2$, appelé
+\index{Lemke-Howson (algorithme de)}algorithme de Lemke-Howson, qui
+généralise l'algorithme du simplexe pour la programmation linéaire
+pour trouver un équilibre de Nash d'un jeu en forme normale : comme
+l'algorithme du simplexe, il est exponentiel dans le pire cas, mais se
+comporte souvent bien « en pratique ».
+
+Pour $N=2$, une méthode qui peut fonctionner dans des cas suffisamment
+petits consiste à énumérer tous les supports
+(cf. \ref{definition-mixed-strategy-abst}) possibles des stratégies
+mixtes des joueurs dans un équilibre de Nash, c'est-à-dire toutes les
+$(2^{\#A_1}-1)\times(2^{\#A_2}-1)$ données de parties non vides de
+$A_1$ et $A_2$, et, pour chacune, appliquer le raisonnement suivant :
+si $s_i$ est une meilleure réponse possible pour le joueur $i$ (contre
+la stratégie $s_{?i}$ de l'autre joueur) alors \emph{toutes les
+  options du support de $s_i$ ont la même espérance de gain}
+(contre $s_{?i}$ ; cf. \ref{stupid-remark-best-mixed-strategies}), ce
+qui fournit un jeu d'égalités linéaires sur les valeurs de $s_{?i}$.
+En rassemblant ces inégalités (ainsi que celles qui affirment que la
+somme des valeurs de $s_i$ et de $s_{?i}$ valent $1$), on arrive
+« normalement » à trouver tous les équilibres de Nash possibles : voir
+les exercices
+\ref{normal-form-game-exercise-two-by-two} et \ref{normal-form-game-exercise-three-by-three}
+(dernières questions) pour des exemples.
+
+(Pour $N\geq 3$, on sera amené en général à résoudre des systèmes
+d'équations algébriques pour chaque combinaison de supports : ceci est
+algorithmiquement possible en théorie en vertu d'un théorème de Tarski
+et Seidenberg sur la décidabilité des systèmes d'équations algébriques
+réels, mais possiblement inextricable dans la pratique.)
 
 
 
@@ -1425,13 +1486,19 @@ minimiser $u$).  Comme on l'a expliqué dans la preuve, on a
 donc en fait il y a égalité partout : tout équilibre de Nash réalise
 la même valeur $u(x_0,y_0) = \max_{x\in S_1} \min_{y\in S_2} u(x,y) =
 \min_{y\in S_2} \max_{x\in S_1} u(x,y)$, qu'on appelle la
-\defin[valeur (d'un jeu à somme nulle)]{valeur} du jeu à somme nulle.  On peut donc parler de
-\index{optimale (stratégie)}\defin{stratégie optimale} pour le joueur $1$, resp. $2$ pour
-désigner une composante $x_0$, resp. $y_0$, d'un équilibre de Nash,
-i.e., vérifiant $\min_{y\in S_2} u(x_0,y) = \max_{x\in S_1} \min_{y\in
-  S_2} u(x,y)$, resp. $\max_{x\in S_1} u(x,y_0) = \min_{y\in S_2}
-\max_{x\in S_1} u(x,y)$, ces deux quantités étant égales à la valeur
-du jeu.
+\defin[valeur (d'un jeu à somme nulle)]{valeur} du jeu à somme nulle.
+
+On peut donc parler de \index{optimale (stratégie)}\defin{stratégie
+  optimale} pour le joueur $1$, resp. $2$ pour désigner une composante
+$x_0$, resp. $y_0$, d'un équilibre de Nash, i.e., vérifiant
+$\min_{y\in S_2} u(x_0,y) = \max_{x\in S_1} \min_{y\in S_2} u(x,y)$,
+resp. $\max_{x\in S_1} u(x,y_0) = \min_{y\in S_2} \max_{x\in S_1}
+u(x,y)$, ces deux quantités étant égales à la valeur du jeu.
+
+Moralité : \emph{dans un jeu à somme nulle, un profil de stratégies
+  est un équilibre de Nash si et seulement si chaque joueur joue une
+  stratégie optimale} (l'ensemble des stratégies optimales étant
+défini pour chaque joueur indépendamment).
 
 Le corollaire \ref{symmetric-zero-sum-game} nous apprend (de façon peu
 surprenante) que si le jeu à somme nulle est \emph{symétrique} (ce qui
@@ -1461,9 +1528,12 @@ des $x$ tels que $u(x,b) \geq v$ pour tout $b\in A_2$.  En
 particulier, c'est un convexe compact dans $S_1$ (puisque chaque
 inégalité $u(x,b) \geq v$ définit un convexe compact dans $S_1$ vu que
 $x \mapsto u(x,b)$ est affine) : \emph{en moyennant deux stratégies
-  optimales pour un joueur on obtient encore une telle stratégie}, ce
-qui n'est pas le cas en général pour des jeux qui ne sont pas à somme
-nulle.
+  optimales pour un joueur on obtient encore une telle stratégie}
+(notamment, l'ensemble des équilibres de Nash est un convexe de
+$S_1\times S_2$ — puisque c'est le produit du convexe des stratégies
+optimales pour le premier joueur par celui des stratégies optimales
+pour le second — affirmation qui n'est pas vraie en général pour des
+jeux qui ne sont pas à somme nulle).
 
 \begin{algo}\label{zero-sum-games-by-linear-programming-algorithm}
 Donnée une fonction $u\colon A_1 \times A_2 \to \mathbb{R}$ (avec
@@ -1507,7 +1577,7 @@ on a égalité des optima).
 
 Comme l'algorithme du simplexe résout simultanément le problème primal
 et le problème dual, l'algorithme ci-dessus (exécuté avec l'algorithme
-du simplexe) trouve simultanément la stratégie optimale pour les deux
+du simplexe) trouve simultanément une stratégie optimale pour les deux
 joueurs.
 
 
@@ -5842,7 +5912,7 @@ les parties de l'ensemble, et font appel aux notions correspondantes.)
 
 \subsection{Jeux en forme normale}
 
-\exercice
+\exercice\label{normal-form-game-exercise-two-by-two}
 
 Alice joue contre Bob un jeu dans lequel elle choisit une option parmi
 deux possibles appelées U et V, et Bob choisit une option parmi deux
@@ -6011,7 +6081,7 @@ et on a prouvé que c'étaient bien les seuls.
 %
 %
 
-\exercice
+\exercice\label{normal-form-game-exercise-three-by-three}
 
 Alice joue contre Bob un jeu dans lequel elle choisit une option parmi
 trois possibles appelées U, V et W, et Bob choisit une option parmi
author	David A. Madore <david+git@madore.org>	2017-02-21 15:01:03 +0100
committer	David A. Madore <david+git@madore.org>	2017-02-21 15:01:03 +0100
commit	6adeb9190e730a5ae8ba39675306031619c648fe (patch)
tree	3b502639fee4e6df0c6d35318f037f57dbb9ea0b
parent	1746e31ac915adc95380da758c32aae53901e6c0 (diff)
download	mitro206-6adeb9190e730a5ae8ba39675306031619c648fe.tar.gz mitro206-6adeb9190e730a5ae8ba39675306031619c648fe.tar.bz2 mitro206-6adeb9190e730a5ae8ba39675306031619c648fe.zip