diff options
| author | David A. Madore <david+git@madore.org> | 2017-02-21 15:01:03 +0100 | 
|---|---|---|
| committer | David A. Madore <david+git@madore.org> | 2017-02-21 15:01:03 +0100 | 
| commit | 6adeb9190e730a5ae8ba39675306031619c648fe (patch) | |
| tree | 3b502639fee4e6df0c6d35318f037f57dbb9ea0b | |
| parent | 1746e31ac915adc95380da758c32aae53901e6c0 (diff) | |
| download | mitro206-6adeb9190e730a5ae8ba39675306031619c648fe.tar.gz mitro206-6adeb9190e730a5ae8ba39675306031619c648fe.tar.bz2 mitro206-6adeb9190e730a5ae8ba39675306031619c648fe.zip | |
Various clarifications / improvements on normal form games.
| -rw-r--r-- | notes-mitro206.tex | 134 | 
1 files changed, 102 insertions, 32 deletions
| diff --git a/notes-mitro206.tex b/notes-mitro206.tex index d648151..96dfe79 100644 --- a/notes-mitro206.tex +++ b/notes-mitro206.tex @@ -1145,6 +1145,18 @@ qu'on vient de décrire (ce n'est pas un problème car $s_i$ se déduit  de $s$ : précisément, $s_i(b) = \sum_{a: a_i = b} s(a)$ où la somme  est prise sur les $a \in A$ tels que $a_i = b$). +\danger (Il faudra prendre garde au fait qu'on peut voir $S$ soit +comme une partie $S_1\times\cdots\times S_N$ de +$\mathbb{R}^{A_1}\times\cdots\times \mathbb{R}^{A_N}$ formé des +$N$-uplets $(s_1,\ldots,s_N)$, soit comme la partie de $\mathbb{R}^A = +\mathbb{R}^{A_1\times\cdots\times A_N}$ formé des fonctions de la +forme $s\colon (a_1,\ldots,a_N) = s_1(a_1)\cdots s_N(a_N)$ comme on +l'a expliqué au paragraphe précédent.  Ces deux points de vue ont un +sens et ont parfois un intérêt, mais ils ne partagent pas les mêmes +propriétés.  Par exemple, $S$ est convexe en tant que partie +$S_1\times\cdots\times S_N$ de $\mathbb{R}^{A_1}\times\cdots\times +\mathbb{R}^{A_N}$, mais pas en tant que partie de $\mathbb{R}^A$.) +  Ceci conduit à faire la définition suivante :  \begin{defn} @@ -1177,12 +1189,13 @@ $s_? := (s_1,\ldots,s_{i-1},s_{i+1},\ldots,s_N) \in S_1 \times \cdots  \times S_{i-1} \times S_{i+1} \times \cdots \times S_N$ est un profil  de stratégies mixtes pour tous les joueurs autres que le joueur $i$,  on dit que la stratégie mixte $s_! \in S_i$ est une \defin{meilleure -  réponse} (resp. la meilleure réponse stricte) contre $s_?$ lorsque -pour tout $t \in S_i$ on a $u_i(s_?,s_!) \geq u_i(s_?,t)$ +  réponse} (resp. la meilleure réponse \textbf{stricte}) contre $s_?$ +lorsque pour tout $t \in S_i$ on a $u_i(s_?,s_!) \geq u_i(s_?,t)$  (resp. lorsque pour tout $t \in S_i$ différent de $s_!$ on a  $u_i(s_?,s_!) > u_i(s_?,t)$), où $(s_?,t)$ désigne l'élément de  $S_1\times \cdots \times S_N$ obtenu en insérant $t \in S_i$ comme -$i$-ième composante entre $s_{i-1}$ et $s_{i+1}$. +$i$-ième composante entre $s_{i-1}$ et $s_{i+1}$, c'est-à-dire le gain +[espéré] obtenu en jouant $t$ contre $s_?$.  Un profil de stratégies mixtes $s = (s_1,\ldots,s_N)$ (pour l'ensemble  des joueurs) est dit être un \index{Nash (équilibre de)}\defin{équilibre de Nash} (resp., un @@ -1197,24 +1210,36 @@ Donné un jeu en forme normale comme  en \ref{definition-game-in-normal-form}, si $1 \leq i \leq N$ et si  $s_?$ est un profil de stratégies mixtes pour tous les joueurs autres  que le joueur $i$, il existe une meilleure réponse pour le joueur $i$ -qui est une stratégie pure.  Et même, si $s_!$ (stratégie mixte) est -une meilleure réponse, alors il existe une meilleure réponse qui est -une stratégie pure appartenant au support de $s_!$. +qui est une stratégie pure.  De plus, si $s_!$ (stratégie mixte) est +une meilleure réponse contre $s_?$ si et seulement si \emph{chaque} +stratégie pure appartenant au support de $s_!$ est une meilleure +réponse possible contre $s_?$ (et elles apportent toutes le même +gain).  En particulier, une meilleure réponse stricte est nécessairement une  stratégie pure.  \end{prop}  \begin{proof} -Il suffit de se rappeler que $u_i(s_?,t)$ est une fonction affine -de $t \in S_i$, c'est-à-dire que sa valeur est combinaison convexe, à -coefficients les $t(a)$ pour $a\in S_i$, des $u_i(s_?,a)$.  Comme une -combinaison convexe est majorée par la plus grande des valeurs -combinée (ici, des $u_i(s_?,a)$), il est clair que le maximum des -$u_i(s_?,t)$ existe et est égal au maximum des $u_i(s_?,a)$ ; les -autres affirmations sont tout aussi faciles. - -(Si on préfère : une fonction affine sur un simplexe prend son maximum -— ou son minimum — sur un des sommets de ce simplexe.) +Tout ceci résulte du fait que le gain espéré $u_i(s_?,t)$ est une +fonction affine de $t \in S_i$ (et une fonction affine sur un simplexe +prend son maximum — ou son minimum — sur un des sommets de ce +simplexe, et ne peut le prendre à l'intérieur que si elle prend aussi +cette valeur sur les sommets). + +Plus précisément : $u_i(s_?,t)$ (pour $t \in S_i$) est combinaison +convexe avec pour coefficients $t(a)$ pour $a\in A_i$, des +$u_i(s_?,a)$.  Si $v$ est le maximum des $u_i(s_?,a)$ (qui sont en +nombre fini donc ce maximum existe), alors $v$ est aussi le maximum de +toute combinaison convexe $u_i(s_?,t)$ des $u_i(s_?,a)$ : c'est-à-dire +que $t\in S_i$ est une meilleure réponse possible contre $s_?$ si et +seulement si $u_i(s_?,t) = v$.  En particulier, tout $a \in A_i$ qui +réalise ce maximum $v$ est une meilleure réponse possible +(contre $s_?$) qui est une stratégie pure.  D'autre part, une +combinaison convexe $u_i(s_?,t)$ de valeurs $\leq v$ ne peut être +égale à $v$ que si toutes les valeurs $u_i(s_?,a)$ entrant +effectivement (c'est-à-dire avec un coefficient $>0$) dans la +combinaison sont égales à $v$ (s'il y en avait une $<v$, elle +entraînerait forcément une moyenne pondérée $<v$), et réciproquement.  \end{proof}  \begin{thm}[John Nash, 1951]\label{theorem-nash-equilibria} @@ -1277,8 +1302,10 @@ mais elle peut donner l'impression qu'on commet une « erreur  D'après la première expression donnée, il est clair qu'on a bien  $s^\sharp_i \in S_i$, et qu'on a donc bien défini une fonction  $T\colon S\to S$.  Cette fonction est continue, donc admet un point -fixe $s$ d'après \ref{brouwer-fixed-point-theorem}.  On va montrer que -$s$ est un équilibre de Nash. +fixe $s$ d'après \ref{brouwer-fixed-point-theorem} (notons qu'ici, $S$ +est vu comme le convexe $S_1\times\cdots\times S_N$ dans +$\mathbb{R}^{A_1}\times\cdots\times \mathbb{R}^{A_N}$).  On va montrer +que $s$ est un équilibre de Nash.  Si $1\leq i\leq N$, il existe $a \in A_i$ tel que $u_i(s_{?i},a) \leq  u_i(s)$ (car, comme dans la preuve @@ -1294,7 +1321,41 @@ tout $b$, et on a expliqué que ceci signifie que $s$ est un équilibre  de Nash.  \end{proof} -%% \textcolor{red}{Dire quelque chose sur l'algorithme de Lemke-Howson ?} +\thingy La question du calcul \emph{algorithmique} des équilibres de +Nash, ou simplement d'\emph{un} équilibre de Nash, est délicate en +général, ou même si on se restreint à $N=2$ joueurs (on verra +en \ref{zero-sum-games-by-linear-programming-algorithm} ci-dessous que +dans le cas particulier des jeux à somme nulle elle se simplifie +considérablement).  Il existe un algorithme pour $N=2$, appelé +\index{Lemke-Howson (algorithme de)}algorithme de Lemke-Howson, qui +généralise l'algorithme du simplexe pour la programmation linéaire +pour trouver un équilibre de Nash d'un jeu en forme normale : comme +l'algorithme du simplexe, il est exponentiel dans le pire cas, mais se +comporte souvent bien « en pratique ». + +Pour $N=2$, une méthode qui peut fonctionner dans des cas suffisamment +petits consiste à énumérer tous les supports +(cf. \ref{definition-mixed-strategy-abst}) possibles des stratégies +mixtes des joueurs dans un équilibre de Nash, c'est-à-dire toutes les +$(2^{\#A_1}-1)\times(2^{\#A_2}-1)$ données de parties non vides de +$A_1$ et $A_2$, et, pour chacune, appliquer le raisonnement suivant : +si $s_i$ est une meilleure réponse possible pour le joueur $i$ (contre +la stratégie $s_{?i}$ de l'autre joueur) alors \emph{toutes les +  options du support de $s_i$ ont la même espérance de gain} +(contre $s_{?i}$ ; cf. \ref{stupid-remark-best-mixed-strategies}), ce +qui fournit un jeu d'égalités linéaires sur les valeurs de $s_{?i}$. +En rassemblant ces inégalités (ainsi que celles qui affirment que la +somme des valeurs de $s_i$ et de $s_{?i}$ valent $1$), on arrive +« normalement » à trouver tous les équilibres de Nash possibles : voir +les exercices +\ref{normal-form-game-exercise-two-by-two} et \ref{normal-form-game-exercise-three-by-three} +(dernières questions) pour des exemples. + +(Pour $N\geq 3$, on sera amené en général à résoudre des systèmes +d'équations algébriques pour chaque combinaison de supports : ceci est +algorithmiquement possible en théorie en vertu d'un théorème de Tarski +et Seidenberg sur la décidabilité des systèmes d'équations algébriques +réels, mais possiblement inextricable dans la pratique.) @@ -1425,13 +1486,19 @@ minimiser $u$).  Comme on l'a expliqué dans la preuve, on a  donc en fait il y a égalité partout : tout équilibre de Nash réalise  la même valeur $u(x_0,y_0) = \max_{x\in S_1} \min_{y\in S_2} u(x,y) =  \min_{y\in S_2} \max_{x\in S_1} u(x,y)$, qu'on appelle la -\defin[valeur (d'un jeu à somme nulle)]{valeur} du jeu à somme nulle.  On peut donc parler de -\index{optimale (stratégie)}\defin{stratégie optimale} pour le joueur $1$, resp. $2$ pour -désigner une composante $x_0$, resp. $y_0$, d'un équilibre de Nash, -i.e., vérifiant $\min_{y\in S_2} u(x_0,y) = \max_{x\in S_1} \min_{y\in -  S_2} u(x,y)$, resp. $\max_{x\in S_1} u(x,y_0) = \min_{y\in S_2} -\max_{x\in S_1} u(x,y)$, ces deux quantités étant égales à la valeur -du jeu. +\defin[valeur (d'un jeu à somme nulle)]{valeur} du jeu à somme nulle. + +On peut donc parler de \index{optimale (stratégie)}\defin{stratégie +  optimale} pour le joueur $1$, resp. $2$ pour désigner une composante +$x_0$, resp. $y_0$, d'un équilibre de Nash, i.e., vérifiant +$\min_{y\in S_2} u(x_0,y) = \max_{x\in S_1} \min_{y\in S_2} u(x,y)$, +resp. $\max_{x\in S_1} u(x,y_0) = \min_{y\in S_2} \max_{x\in S_1} +u(x,y)$, ces deux quantités étant égales à la valeur du jeu. + +Moralité : \emph{dans un jeu à somme nulle, un profil de stratégies +  est un équilibre de Nash si et seulement si chaque joueur joue une +  stratégie optimale} (l'ensemble des stratégies optimales étant +défini pour chaque joueur indépendamment).  Le corollaire \ref{symmetric-zero-sum-game} nous apprend (de façon peu  surprenante) que si le jeu à somme nulle est \emph{symétrique} (ce qui @@ -1461,9 +1528,12 @@ des $x$ tels que $u(x,b) \geq v$ pour tout $b\in A_2$.  En  particulier, c'est un convexe compact dans $S_1$ (puisque chaque  inégalité $u(x,b) \geq v$ définit un convexe compact dans $S_1$ vu que  $x \mapsto u(x,b)$ est affine) : \emph{en moyennant deux stratégies -  optimales pour un joueur on obtient encore une telle stratégie}, ce -qui n'est pas le cas en général pour des jeux qui ne sont pas à somme -nulle. +  optimales pour un joueur on obtient encore une telle stratégie} +(notamment, l'ensemble des équilibres de Nash est un convexe de +$S_1\times S_2$ — puisque c'est le produit du convexe des stratégies +optimales pour le premier joueur par celui des stratégies optimales +pour le second — affirmation qui n'est pas vraie en général pour des +jeux qui ne sont pas à somme nulle).  \begin{algo}\label{zero-sum-games-by-linear-programming-algorithm}  Donnée une fonction $u\colon A_1 \times A_2 \to \mathbb{R}$ (avec @@ -1507,7 +1577,7 @@ on a égalité des optima).  Comme l'algorithme du simplexe résout simultanément le problème primal  et le problème dual, l'algorithme ci-dessus (exécuté avec l'algorithme -du simplexe) trouve simultanément la stratégie optimale pour les deux +du simplexe) trouve simultanément une stratégie optimale pour les deux  joueurs. @@ -5842,7 +5912,7 @@ les parties de l'ensemble, et font appel aux notions correspondantes.)  \subsection{Jeux en forme normale} -\exercice +\exercice\label{normal-form-game-exercise-two-by-two}  Alice joue contre Bob un jeu dans lequel elle choisit une option parmi  deux possibles appelées U et V, et Bob choisit une option parmi deux @@ -6011,7 +6081,7 @@ et on a prouvé que c'étaient bien les seuls.  %  % -\exercice +\exercice\label{normal-form-game-exercise-three-by-three}  Alice joue contre Bob un jeu dans lequel elle choisit une option parmi  trois possibles appelées U, V et W, et Bob choisit une option parmi | 
