summaryrefslogtreecommitdiffstats
path: root/notes-mitro206.tex
blob: 132c4769c09a3cab09d94e8f7af5283b94f316d2 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
%% This is a LaTeX document.  Hey, Emacs, -*- latex -*- , get it?
\documentclass[12pt,a4paper]{article}
\usepackage[francais]{babel}
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
%\usepackage{ucs}
\usepackage{times}
% A tribute to the worthy AMS:
\usepackage{amsmath}
\usepackage{amsfonts}
\usepackage{amssymb}
\usepackage{amsthm}
%
\usepackage{mathrsfs}
\usepackage{wasysym}
\usepackage{url}
%
\usepackage{graphics}
\usepackage[usenames,dvipsnames]{xcolor}
\usepackage{tikz}
\usetikzlibrary{matrix}
%
\theoremstyle{definition}
\newtheorem{comcnt}{Tout}[subsection]
\newcommand\thingy{%
\refstepcounter{comcnt}\smallbreak\noindent\textbf{\thecomcnt.} }
\newtheorem{defn}[comcnt]{Définition}
\newtheorem{prop}[comcnt]{Proposition}
\newtheorem{lem}[comcnt]{Lemme}
\newtheorem{thm}[comcnt]{Théorème}
\newtheorem{cor}[comcnt]{Corollaire}
\renewcommand{\qedsymbol}{\smiley}
%
\DeclareUnicodeCharacter{00A0}{~}
%
\DeclareMathSymbol{\tiret}{\mathord}{operators}{"7C}
\DeclareMathSymbol{\traitdunion}{\mathord}{operators}{"2D}
%
\DeclareFontFamily{U}{manual}{} 
\DeclareFontShape{U}{manual}{m}{n}{ <->  manfnt }{}
\newcommand{\manfntsymbol}[1]{%
    {\fontencoding{U}\fontfamily{manual}\selectfont\symbol{#1}}}
\newcommand{\dbend}{\manfntsymbol{127}}% Z-shaped
\newcommand{\danger}{\noindent\hangindent\parindent\hangafter=-2%
  \hbox to0pt{\hskip-\hangindent\dbend\hfill}}
%
%
%
\begin{document}
\title{Théorie(s) des jeux\\(notes provisoires)}
\author{David A. Madore}
\maketitle

\centerline{\textbf{MITRO206}}


%
%
%

\section{Introduction et typologie}

\subsection{La notion de jeu mathématique : généralités}

\thingy Il n'est pas possible de donner une définition générale
précise de la notion de « jeu mathématique ».  On verra plus loin des
définitions précises de certains types de jeux (p. ex., les jeux
impartiaux à information parfaite), mais il n'existe pas de définition
générale utile qui s'applique à tous ces types, et à partir de
laquelle on pourrait développer une théorie intéressante.

Pire, différentes disciplines se sont développées sous le nom de
« théorie des jeux », chacune donnant une définition différente de ce
qu'est un « jeu ».  Par exemple, l'étude des jeux « en forme normale »
(=jeux définis par des matrices de gains), la théorie combinatoire des
jeux (jeux à information parfaite), la théorie des jeux logiques, la
théorie des jeux différentiels, etc.  Il n'existe donc pas une mais
plusieurs théories des jeux.

Ces différentes théories des jeux intersectent différentes branches
des mathématiques ou d'autres sciences : probabilités,
optimisation/contrôle, combinatoire, logique, calculabilité,
complexité, analyse/EDP ou encore (en-dehors ou en marge des
mathématiques), économie, cryptographie, physique quantique,
cybernétique, biologie, sociologie, linguistique, philosophie.

Il va de soi qu'on ne pourra dans ce cours donner qu'un aperçu de
quelques unes de ces théories des jeux.


\thingy Une tentative pour approcher la notion de jeu mathématique :
le jeu possède un \textbf{état}, qui évolue dans un ensemble (fini ou
infini) d'états possibles ; un certain nombre de \textbf{joueurs}
choisissent, simultanément ou consécutivement, un \textbf{coup} à
jouer parmi différentes \textbf{options}, en fonction de l'état
courant, ou peut-être seulement d'une fonction de l'état courant ; ce
coup peut éventuellement faire intervenir un aléa (hasard voulu par le
joueur) ; l'état du jeu évolue en fonction des coups des joueurs et
éventuellement d'un autre aléa (hasard intrinsèque au jeu) ; au bout
d'un certain nombre de coups (fini ou infini), la règle du jeu
attribue, en fonction de l'état final, ou de son évolution complète,
un \textbf{gain} à chaque joueur, ce gain pouvant être un réel (gain
numérique), l'étiquette « gagné » / « perdu », ou encore autre chose,
et chaque joueur cherche en priorité à maximiser son gain (i.e., à
gagner le plus possible, ou à gagner tout court), ou dans le cas
probabiliste, son espérance de gain.

Mais même cette définition très vague est incomplète !, par exemple
dans le cas des jeux différentiels, les coups n'ont pas lieu tour à
tour mais continûment.

Une \textbf{stratégie} d'un joueur est la fonction par laquelle il
choisit son coup à jouer en fonction de l'état du jeu (ou de la
fonction de l'état qui lui est présentée), et d'aléa éventuel.  On
peut ainsi résumer le jeu en : chaque joueur choisit une stratégie, et
la règle du jeu définit alors un gain pour chaque joueur.  Les
stratégies peuvent être contraintes de différentes manières (par
exemple : être calculables par une machine de Turing).  Une stratégie
est dite \textbf{gagnante} si le joueur qui l'utilise gagne le jeu
(supposé avoir une notion de « joueur gagnant ») quels que soient les
coups choisis par l'autre joueur.

Il faut aussi se poser la question de si les joueurs peuvent
communiquer entre eux (et si oui, s'ils peuvent prouver leur honnêteté
ou s'engager irrévocablement quant au coup qu'ils vont jouer, etc.).
Dans certains cas, on peut aussi être amené à supposer que les joueurs
ne connaissent pas toute la règle du jeu (voir « information
  complète » ci-dessous).


\subsection{Quelques types de jeux}

\thingy Le \textbf{nombre de joueurs} est généralement $2$.  On peut
néanmoins étudier des jeux multi-joueurs, ce qui pose des questions
d'alliances et compliquer la question des buts (un joueur peut être
incapable de gagner lui-même mais être en position de décider quel
autre joueur gagnera : on parle de « kingmaker »).  On peut aussi
étudier des jeux à un seul joueur (jouant contre le hasard), voire à
zéro joueurs (systèmes dynamiques), mais ceux-ci relèvent plutôt
d'autres domaines.  Dans ce cours, on s'intéressera (presque
uniquement) aux jeux à deux joueurs.

\thingy Les joueurs peuvent avoir \textbf{des intérêts communs,
  opposés, ou toute situation intermédiaire}.

Le cas d'intérêts communs est celui où tous les joueurs ont le même
gain.  Si les joueurs peuvent parfaitement communiquer, on est alors
essentiellement ramené à un jeu à un seul joueur : on s'intéresse donc
ici surtout aux situations où la communication est imparfaite.

Le cas de deux joueurs d'intérêts opposés est le plus courant : dans
le cas de gains numériques, on le modélise en faisant des gains d'un
joueur l'opposé des gains de l'autre — on parle alors de \textbf{jeu à
  somme nulle} ; ou bien la règle fera qu'un et un seul joueur aura
gagné et l'autre perdu (mais parfois, elle peut aussi admettre le
match nul).

Toute autre situation intermédiaire est possible.  Mais on conviendra
bien que le but de chaque joueur est de maximiser son propre gain,
sans considération des gains des autres joueurs.

\thingy Le jeu peut être \textbf{partial/partisan ou impartial}.  Un
jeu impartial est un jeu où tous les joueurs sont traités de façon
équivalente par la règle (le sens de « équivalent » étant à définir
plus précisément selon le type de jeu).

\thingy\label{intro-simultaneous-or-sequential} Les coups des joueurs
peuvent avoir lieu \textbf{simultanément ou séquentiellement}.

Formellement, il s'agit seulement d'une différence de présentation.
On peut toujours ramener des coups séquentiels à plusieurs coups
simultanés en n'offrant qu'une seule option à tous les joueurs sauf
l'un, et réciproquement, on peut ramener des coups simultanés à des
coups séquentiels en cachant à chaque joueur l'information de ce que
l'autre a joué.  La question \ref{question-preposing-moves} est
cependant plus intéressante.

\thingy Le jeu peut être à \textbf{information parfaite} ou non.  Un
jeu à information parfaite est un jeu dont la règle ne fait pas
intervenir le hasard et où chaque joueur joue séquentiellement en
ayant la connaissance complète de l'état du jeu et de tous les coups
effectués antérieurement par tous les autres joueurs.

(Cette notion est parfois distinguée de la notion plus faible
d'\textbf{information complète}, qui souligne que les joueurs ont
connaissance complète de la \emph{règle} du jeu, i.e., des gains
finaux et des options disponibles à chaque joueur.  Néanmoins, on peut
formellement ramener un jeu à information incomplète en jeu à
information complète en regroupant toute l'inconnue sur les règles du
jeu dans des coups d'un joueur appelé « la nature ».  Dans ce cours,
on ne considérera que des jeux à information complète [et toute
  occurrence des mots « information complète » sera probablement un
  lapsus pour « information parfaite »].)

\thingy Le nombre de positions, comme le nombre d'options dans une
position donnée, ou comme le nombre de coups, peut être \textbf{fini
  ou infini}.  Même si l'étude des jeux finis (de différentes
manières) est la plus intéressante pour des raisons pratiques, toutes
sortes de jeux infinis peuvent être considérés, par exemple en logique
(voir plus loin sur l'axiome de détermination).  Pour un jeu à durée
infinie, le gagnant pourra être déterminé, par exemple, par toute la
suite des coups effectués par les deux joueurs ; on peut même
introduire des coups après un nombre infini de coups, etc.

De même, l'ensemble des positions, des options ou des temps peut être
\textbf{discret ou continu}.  Dans ce cours, on s'intéressera presque
exclusivement au cas discret (on écartera, par exemple, la théorie des
jeux différentiels).


\subsection{Quelques exemples en vrac}

\thingy Le jeu de \textbf{pile ou face} entre Pauline et Florian.  On
tire une pièce non-truquée : si elle tombe sur pile, Pauline gagne, si
c'est face, c'est Florian.  Aucun des joueurs n'a de choix à faire.
Chacun a une probabilité $\frac{1}{2}$ de gagner, ou une espérance de
$0$ si les gains sont $+1$ au gagnant et $-1$ au perdant (il s'agit
donc d'un jeu à somme nulle).

Variante entre Alice et Bob : maintenant, Alice choisit « pile » ou
« face » avant qu'on (Bob) tire la pièce.  Si Alice a bien prévu, elle
gagne, sinon c'est Bob.  Ici, seule Alice a un choix à faire.
Néanmoins, il n'y a pas de stratégie intéressante : la stratégie
consistant à choisir « pile » offre la même espérance que celle
consistant à choisir « face », et il n'existe pas de stratégie
(c'est-à-dire, de stratégie mesurable par rapport à l'information dont
dispose Alice) offrant une meilleure espérance.

\thingy Variante : Alice choisit « pile » ou « face », l'écrit dans
une enveloppe scellée sans la montrer à Bob (elle s'\emph{engage} sur
son choix), et Bob, plutôt que tirer une pièce, choisit le côté qu'il
montre.  Si Alice a bien deviné le choix de Bob, Alice gagne, sinon
c'est Bob.  Variante : Bob choisit une carte dans un jeu de 52 cartes
sans la montrer à Bob, et Alice doit deviner si la carte est noire ou
rouge.

Variante équivalente : Alice choisit « Alice » ou « Bob » et Bob
choisit simultanément « gagne » ou « perd ».  Si la phrase obtenue en
combinant ces deux mots est « Alice gagne » ou « Bob perd », alors
Alice gagne, si c'est « Alice perd » ou « Bob gagne », alors Bob
gagne.  Encore une variante : Alice et Bob choisissent simultanément
un bit (élément de $\{0,1\}$), si le XOR de ces deux bits vaut $0$
alors Alice gagne, s'il vaut $1$ c'est Bob.  Ce jeu est impartial
(même s'il n'est pas parfaitement symétrique entre les joueurs) :
Alice n'a pas d'avantage particulier sur Bob (ce qui est assez évident
sur ces dernières variantes).

La notion de coups simultanés peut se convertir en coups engagés dans
une enveloppe scellée (cf. \ref{intro-simultaneous-or-sequential}).

On verra, et il est assez facile de comprendre intuitivement, que la
meilleure stratégie possible pour un joueur comme pour l'autre,
consiste à choisir l'une ou l'autre des deux options offertes avec
probabilité $\frac{1}{2}$ (ceci assure une espérance de gain nul quoi
que fasse l'autre joueur).

(En pratique, si on joue de façon répétée à ce jeu, il peut être
intéressant d'essayer d'exploiter le fait que les humains ont des
générateurs aléatoires assez mauvais, et d'arriver à prédire leurs
coups pour gagner.  Ceci est particulièrement amusant avec des petits
enfants.  Voir aussi le film \textit{Princess Bride} à ce sujet.)

\thingy Le jeu de \textbf{pierre-papier-ciseaux} : Alice et Bob
choisissent simultanément un élément de l'ensemble
$\{\textrm{pierre},\penalty0 \textrm{papier},\penalty0
\textrm{ciseaux}\}$.  S'ils ont choisi le même élément, le jeu est
nul ; sinon, papier gagne sur pierre, ciseaux gagne sur papier et
pierre gagne sur ciseaux (l'intérêt étant qu'il s'agit d'un « ordre »
cyclique, totalement symétrique entre les options).  Il s'agit
toujours d'un jeu à somme nulle (disons que gagner vaut $+1$ et perdre
vaut $-1$), et cette fois les deux joueurs sont en position
complètement symétrique.  On verra que la meilleure stratégie possible
consiste à choisir chacune des options avec probabilité $\frac{1}{3}$
(ceci assure une espérance de gain nul quoi que fasse l'autre joueur).

Ce jeu s'appelle aussi papier-ciseaux-puits, qui est exactement le
même si ce n'est que « pierre » s'appelle maintenant « puits » (donc
ciseaux gagne sur papier, puits gagne sur ciseaux et papier gagne sur
puits) : la stratégie optimale est évidemment la même.  Certains
enfants, embrouillés par l'existence des deux variantes, jouent à
pierre-papier-ciseaux-puits, qui permet les quatre options, et où on
convient que la pierre tombe dans le puits : quelle est alors la
stratégie optimale ? il est facile de se convaincre qu'elle consiste à
ne jamais jouer pierre (qui est strictement « dominée » par puits), et
jouer papier, ciseaux ou puits avec probabilité $\frac{1}{3}$ chacun
(cette stratégie garantit un gain au moins nul quoi que fasse l'autre
adversaire, et même strictement positif s'il joue pierre avec
probabilité strictement positive).

\thingy Le \textbf{jeu du partage} ou \textbf{de l'ultimatum} : Alice
et Bob ont $10$ points à se partager : Alice choisit un $k$ entre $0$
et $10$ entier (disons), la partie qu'elle se propose de garder pour
elle, \emph{puis} Bob choisit, en fonction du $k$ proposé par Alice,
d'accepter ou de refuser le partage : s'il accepte, Alice reçoit le
gain $k$ et Bob reçoit le gain $10-k$, tandis que si Bob refuse, les
deux reçoivent $0$.  Cette fois, il ne s'agit pas d'un jeu à somme
nulle !

Variante : Alice choisit $k$ et \emph{simultanément} Bob choisit
$\varphi \colon \{0,\ldots,10\} \to \{\textrm{accepte},\penalty0
\textrm{refuse}\}$.  Si $\varphi(k) = \textrm{accepte}$ alors Alice
reçoit $k$ et Bob reçoit $10-k$, tandis que si $\varphi(k) =
\textrm{refuse}$ alors Alice et Bob reçoivent tous les deux $0$.  Ceci
revient (cf. \ref{question-preposing-moves}) à demander à Bob de
préparer sa réponse $\varphi(k)$ à tous les coups possibles d'Alice
(notons qu'Alice n'a pas connaissance de $\varphi$ quand elle
choisit $k$, les deux sont choisis simultanément).  On se convainc
facilement que si Bob accepte $k$, il devrait aussi accepter tous
les $k'\leq k$, d'où la nouvelle :

Variante : Alice choisit $k$ entre $0$ et $10$ (la somme qu'elle
propose de se garder) et \emph{simultanément} Bob choisit $\ell$ entre
$0$ et $10$ (le maximum qu'il accepte qu'Alice garde pour elle) : si
$k\leq \ell$ alors Alice reçoit $k$ et Bob reçoit $10-k$, tandis que
si $k>\ell$ alors Alice et Bob reçoivent tous les deux $0$.

Ce jeu peut sembler paradoxal pour la raison suivante : dans la
première forme proposée, une fois $k$ choisi, on il semble que Bob ait
toujours intérêt à accepter le partage dès que $k<10$ (il gagnera
quelque chose, alors que s'il refuse il ne gagne rien) ; pourtant, on
a aussi l'impression que refuser un partage pour $k>5$ correspond à
refuser un chantage (Alice dit en quelque sorte à Bob « si tu
n'acceptes pas la petite part que je te laisse, tu n'auras rien du
tout »).

Dans la troisième forme, qui est censée être équivalente, on verra
qu'il existe plusieurs équilibres de Nash, ceux où $\ell=k$ (les deux
joueurs sont d'accord sur le partage) et celui où $k=10$ et $\ell=0$
(les deux joueurs demandent tous les deux la totalité du butin, et
n'obtiennent rien).  Un « équilibre de Nash » signifie que dans cette
situation, aucun des joueurs n'améliorerait son gain en changeant
unilatéralement le coup qu'il joue.

\thingy Le \textbf{dilemme du prisonnier} : Alice et Bob choisissent
simultanément une option parmi « coopérer » ou « faire défaut ».
\textcolor{red}{À finir.}

\thingy Un jeu idiot : Alice et Bob choisissent simultanément chacun
un entier naturel.  Celui qui a choisi le plus grand gagne (en cas
d'égalité, on peut déclarer le nul, ou décider arbitrairement qu'Alice
gagne — ceci ne changera rien au problème).  Ce jeu résiste à toute
forme d'analyse intelligente, il n'existe pas de stratégie gagnante
(ni d'équilibre de Nash, cf. plus haut), on ne peut rien en dire
d'utile.

Cet exemple sert à illustrer le fait que dans l'étude des jeux sous
forme normale, l'hypothèse de finitude des choix sera généralement
essentielle.

\thingy Le \textbf{jeu topologique de Choquet} : soit $X$ un espace
métrique (ou topologique) fixé à l'avance.  Uriel et Vania choisissent
tour à tour un ouvert non vide de ($X$ contenu dans) l'ouvert
précédemment choisi : i.e., Uriel choisit $\varnothing \neq U_0
\subseteq X$, puis Vania choisit $\varnothing \neq V_0 \subseteq U_0$,
puis Uriel choisit $\varnothing \neq U_1 \subseteq V_0$ et ainsi de
suite.  Le jeu continue pendant un nombre infini de tours indicés par
les entiers naturels.  À la fin, on a bien sûr $\bigcap_{n=0}^{\infty}
U_n = \bigcap_{n=0}^{\infty} V_n$ : on dit qu'Uriel gagne le jeu si
cette intersection est vide, Vania le gagne si elle est non-vide.  On
peut se convaincre que si $X = \mathbb{Q}$, alors Uriel possède une
stratégie gagnante, tandis que si $X = \mathbb{R}$ c'est Vivien qui en
a une.

\thingy Le \textbf{jeu de Nim} : un certain nombre d'allumettes sont
arrangées en plusieurs lignes ; chacun leur tour, Alice et Bob
retirent des alumettes, au moins une à chaque fois, et autant qu'ils
veulent, mais \emph{d'une ligne seulement} ; le gagnant est celui qui
retire la dernière allumette (de façon équivalente, le perdant est
celui qui ne peut pas jouer).  Il s'agit ici d'un jeu à deux joueurs
impartial à connaissance parfaite : on verra que la théorie de Grundy
permet de décrire exactement la stratégie gagnante (et pour qui).


\subsection{Remarques}

\thingy\label{question-preposing-moves} La question suivante mérite
l'attention : supposons que, dans un jeu, deux joueurs aient à jouer
deux coups successifs, disons que le joueur $A$ choisit une option $x$
parmi un certain ensemble $E$ (typiquement fini), \emph{puis} le
joueur $B$ choisit, en connaissant le $x$ choisi par $A$, une option
$y$ parmi un certain ensemble $F$ (typiquement fini).  Revient-il au
même de demander de choisir \emph{simultanément} pour $A$ un élément
de $E$ et pour $B$ un élément de l'ensemble $F^E$ des fonctions de $E$
dans $F$ ?  L'idée étant que $B$ choisit la fonction $\varphi$ qui,
selon le coup $x \in E$ joué par $A$, déterminera le coup $y :=
\varphi(x) \in F$ qu'il joue en réponse.  Au moins si $E$ est fini, on
peut imaginer que $B$ considère mentalement tous les coups que $A$
pourra jouer et choisit la réponse qu'il y apporterait, déterminant
ainsi la fonction $\varphi$ (si on préfère, $\varphi$ est une
stratégie locale pour le prochain coup de $B$).

En principe, les jeux ainsi considérés (le jeu initial, et celui où on
a demandé à $B$ d'anticiper son choix en le remplaçant par une
fonction du choix de $A$) devraient être équivalents.  En pratique, il
se peut qu'on les analyse différemment pour différentes raisons.

Notons que si on permet ou oblige $B$ à communiquer à $A$ la fonction
$\varphi$ qu'il a choisie, i.e., à s'\emph{engager} irrévocablement
sur le coup $y$ qu'il jouerait selon le coup $x$ de $A$, on peut
véritablement changer le jeu.


%
%
%

\section{Jeux en forme normale}

\subsection{Généralités}

\begin{defn}\label{definition-game-in-normal-form}
Un \textbf{jeu en forme normale} à $N$ joueurs est la donnée de $N$
ensembles finis $A_1,\ldots,A_N$ et de $N$ fonctions
$u_1,\ldots,u_N\colon A \to \mathbb{R}$ où $A := A_1 \times \cdots
\times A_N$.

Un élément de $A_i$ s'appelle une \textbf{option} ou \textbf{stratégie
  pure} pour le joueur $i$.  Un élément de $A := A_1 \times \cdots
\times A_N$ s'appelle un \textbf{profil de stratégies pures}.  La
valeur $u_i(a)$ de la fonction $u_i$ sur un $a\in A$ s'appelle le
\textbf{gain} du joueur $i$ selon le profil $a$.
\end{defn}

Le jeu doit se comprendre de la manière suivante : chaque joueur
choisit une option $a_i \in A_i$ indépendamment des autres, et chaque
joueur reçoit un gain égal à la valeur $u_i(a_1,\ldots,a_n)$ définie
par le profil $(a_1,\ldots,a_n)$ des choix effectués par tous les
joueurs.  Le but de chaque joueur est de maximiser son propre gain.

On utilisera le terme « option » ou « stratégie pure » selon qu'on
veut souligner que le joueur $i$ choisit effectivement $a_i$ ou décide
a priori de faire forcément ce choix-là.  Cette différence vient du
fait que les joueurs peuvent également jouer de façon probabiliste, ce
qui amène à introduire la notion de stratégie mixte :

\begin{defn}\label{definition-mixed-strategy-abst}
Donné un ensemble $B$ fini d'« options », on appelle \textbf{stratégie
  mixte} sur $B$ une fonction $s\colon B\to\mathbb{R}$ telle que
$s(b)\geq 0$ pour tout $b\in B$ et $\sum_{b\in B} s(b) = 1$ :
autrement dit, il s'agit d'une distribution de probabilités sur $B$.

Le \textbf{support} de $s$ est l'ensemble des options $b\in B$ pour
lesquelles $s(b) > 0$.

Parfois, on préférera considérer la stratégie comme la combinaison
formelle $\sum_{b\in B} s(b)\cdot b$ (« formelle » signifiant que le
produit $t\cdot b$ utilisé ici n'a pas de sens intrinsèque : il est
défini par son écriture ; l'écriture $\sum_{b\in B} s(b)\cdot b$ est
donc une simple notation pour $s$).  Autrement dit, ceci correspond à
voir une stratégie mixte comme une combinaison convexe d'éléments
de $B$, i.e., un point du simplexe affine dont les sommets sont les
éléments de $B$.  En particulier, un élément $b$ de $B$ (stratégie
pure) sera identifié à l'élément de $S_B$ qui affecte le poids $1$
à $b$ et $0$ à tout autre élément.

En tout état de cause, l'ensemble $S_B$ des stratégies mixtes sur $B$
sera vu (notamment comme espace topologique) comme le fermé de
$\mathbb{R}^B$ défini par l'intersection des demi-espaces de
coordonnées positives et de l'hyperplan défini par la somme des
coordonnées égale à $1$.
\end{defn}

\begin{defn}\label{definition-mixed-strategy-game}
Pour un jeu comme défini en \ref{definition-game-in-normal-form}, une
stratégie mixte pour le joueur $i$ est donc une fonction $s\colon A_i
\to\mathbb{R}$ comme on vient de le dire.  On notera parfois $S_i$
l'ensemble des stratégies mixtes du joueur $i$.  Un \textbf{profil de
  stratégies mixtes} est un élément du produit cartésien $S := S_1
\times \cdots \times S_N$.

Plus généralement, si $I \subseteq \{1,\ldots,N\}$ est un ensemble de
joueurs, un élément du produit $S_I := \prod_{j\in I} S_j$ s'appellera
un profil de stratégies mixtes pour l'ensemble $I$ de joueurs ; ceci
sera notamment utilisé si $I = \{1,\ldots,N\}\setminus\{i\}$ est
l'ensemble de tous les joueurs sauf le joueur $i$, auquel cas on
notera $S_{?i} := \prod_{j\neq i} S_j$ l'ensemble des profils.
Naturellement, si chaque composante est une stratégie pure, on pourra
parler de profil de stratégies pures.
\end{defn}

\thingy Il va de soi qu'un profil de stratégies mixtes, i.e., un
élément de $S := S_1 \times \cdots \times S_N$, i.e., la donnée d'une
distribution de probabilité sur chaque $A_i$, n'est pas la même chose
qu'une distribution de probabilités sur $A := A_1 \times \cdots \times
A_N$.  Néanmoins, on peut voir les profils de stratégies mixtes comme
des distributions particulières sur $A$, à savoir celles pour
lesquelles les marginales (i.e., les projections sur un des $A_i$)
sont indépendantes.  Concrètement, ceci signifie que donné
$(s_1,\ldots,s_N) \in S$, on en déduit un $s\colon A\to\mathbb{R}$,
aussi une distribution de probabilité, par la définition suivante :
$s(a_1,\ldots,a_N) = s_1(a_1)\cdots s_N(a_N)$ (produit des
$s_i(a_i)$).  On identifiera parfois abusivement l'élément
$(s_1,\ldots,s_N) \in S$ à la distribution $s\colon A\to\mathbb{R}$
qu'on vient de décrire (ce n'est pas un problème car $s_i$ se déduit
de $s$ : précisément, $s_i(b) = \sum_{a: a_i = b} s(a)$ où la somme
est prise sur les $a \in A$ tels que $a_i = b$).

Ceci conduit à faire la définition suivante :

\begin{defn}
Donné un jeu en forme normale comme
en \ref{definition-game-in-normal-form}, si $s := (s_1,\ldots,s_N) \in
S_1 \times \cdots \times S_N$ est un profil de stratégies mixtes, on
appelle \textbf{gain [espéré]} du joueur $i$ selon ce profil la
quantité
\[
u_i(s) := \sum_{a\in A} s_1(a_1)\cdots s_N(a_N)\,u_i(a)
\]
(ceci définit $u_i$ comme fonction de $S_1\times\cdots \times S_N$
vers $\mathbb{R}$).
\end{defn}

Selon l'approche qu'on veut avoir, on peut dire qu'on a défini
$u_i(s)$ comme l'espérance de $u_i(a)$ si chaque $a_j$ est tiré selon
la distribution de probabilité $s_i$ ; ou bien qu'on a utilisé
l'unique prolongement de $u_i$ au produit des simplexes $S_i$ qui soit
affine en chaque variable $s_i$.

\begin{defn}\label{definition-best-response-and-nash-equilibrium}
Donné un jeu en forme normale comme
en \ref{definition-game-in-normal-form}, si $1 \ldots i \leq N$ et si
$s_? := (s_1,\ldots,s_{i-1},s_{i+1},\ldots,s_N) \in S_1 \times \cdots
\times S_{i-1} \times S_{i+1} \times \cdots \times S_N$ est un profil
de stratégies mixtes pour tous les joueurs autres que le joueur $i$,
on dit que la stratégie mixte $s_! \in S_i$ est une \textbf{meilleure
  réponse} (resp. la meilleure réponse stricte) contre $s_?$ lorsque
pour tout $t \in S_i$ on a $u_i(s_?,s_!) \geq u_i(s_?,t)$
(resp. lorsque pour tout $t \in S_i$ différent de $s_!$ on a
$u_i(s_?,s_!) > u_i(s_?,t)$), où $(s_?,t)$ désigne l'élément de
$S_1\times \cdots \times S_N$ obtenu en insérant $t \in S_i$ comme
$i$-ième composante entre $s_{i-1}$ et $s_{i+1}$.

Un profil de stratégies mixtes $s = (s_1,\ldots,s_N)$ (pour l'ensemble
des joueurs) est dit être un \textbf{équilibre de Nash} (resp., un
équilibre de Nash \emph{strict}) lorsque pour tout $1\leq i \leq N$,
la stratégie $s_i$ pour le joueur $i$ est une meilleure réponse
(resp. la meilleure réponse stricte) contre le profil $s_{?i}$ pour
les autres joueurs obtenu en supprimant la composante $s_i$ de $s$.
\end{defn}

\begin{prop}\label{stupid-remark-best-mixed-strategies}
Donné un jeu en forme normale comme
en \ref{definition-game-in-normal-form}, si $1 \ldots i \leq N$ et si
$s_?$ est un profil de stratégies mixtes pour tous les joueurs autres
que le joueur $i$, il existe une meilleure réponse pour le joueur $i$
qui est une stratégie pure.  Et même, si $s_!$ (stratégie mixte) est
une meilleure réponse, alors il existe une meilleure réponse qui est
une stratégie pure appartenant au support de $s_!$.

En particulier, une meilleure réponse stricte est nécessairement une
stratégie pure.
\end{prop}
\begin{proof}
Il suffit de se rappeler que $u_i(s_?,t)$ est une fonction affine
de $t \in S_i$, c'est-à-dire que sa valeur est combinaison convexe, à
coefficients les $t(a)$ pour $a\in S_i$, des $u_i(s_?,a)$.  Comme une
combinaison convexe est majorée par la plus grande des valeurs
combinée (ici, des $u_i(s_?,a)$), il est clair que le maximum des
$u_i(s_?,t)$ existe et est égal au maximum des $u_i(s_?,a)$ ; les
autres affirmations sont tout aussi faciles.
\end{proof}

\begin{thm}[John Nash, 1951]\label{theorem-nash-equilibria}
Pour un jeu en forme normale comme
en \ref{definition-game-in-normal-form}, il existe un équilibre de
Nash.
\end{thm}

Pour démontrer le théorème en question, on utilise (et on admet) le
théorème du point fixe de Brouwer, qui affirme que si $K$ est un
convexe compact de $\mathbb{R}^m$, et que $f \colon K \to K$ est
continue, alors il existe $x\in K$ tel que $f(x) = x$ (un \emph{point
  fixe} de $f$, donc).

L'idée intuitive de la démonstration suivante est : partant d'un
profil $s$ de stratégies, on peut définir continûment un nouveau
profil $s'$ en donnant plus de poids aux options qui donnent un
meilleur gain au joueur correspondant — si bien que $s'$ sera
différent de $s$ dès que $s'$ n'est pas un équilibre de Nash.  Comme
la fonction $f \colon s \to s'$ doit avoir un point fixe, ce point
fixe sera un équilibre de Nash.

\begin{proof}[Démonstration de \ref{theorem-nash-equilibria}]
Si $s \in S$ et $1\leq i\leq N$, convenons de noter $s_{?i}$
l'effacement de la composante $s_i$ (c'est-à-dire le profil pour les
joueurs autres que $i$).  Si de plus $b \in A_i$, notons
$\varphi_{i,b}(s) = \max\{0, u_i(s_{?i},b) - u_i(s)\}$ l'augmentation
du gain du joueur $i$ si on remplace sa stratégie $s_i$ par la
stratégie pure $b$ en laissant le profil $s_{?i}$ des autres joueurs
inchangé (ou bien $0$ s'il n'y a pas d'augmentation).  On remarquera
que $s$ est un équilibre de Nash si et seulement si les
$\varphi_{i,b}(s)$ sont nuls pour tout $1\leq i\leq N$ et tout $b\in
A_i$ (faire appel à la proposition précédente pour le « si »).  On
remarquera aussi que chaque $\varphi_{i,b}$ est une fonction continue
sur $S$.

Définissons maintenant $f\colon S\to S$ de la façon suivante : si $s
\in S$, on pose $f(s) = s'$, où $s' = (s'_1,\ldots,s'_N)$ avec
\[
\begin{aligned}
s'_i(a) &= \frac{s_i(a) + \varphi_{i,a}(s)}{\sum_{b\in A_i}(s_i(b) + \varphi_{i,b}(s))}\\
&= \frac{s_i(a) + \varphi_{i,a}(s)}{1 + \sum_{b\in A_i}\varphi_{i,b}(s)}
\end{aligned}
\]
(L'important est que $s'_i$ augmente strictement le poids des options
$a\in A_i$ telles que $u_i(s_{?i},a) > u_i(s)$ ; en fait, on pourrait
composer $\varphi$ à gauche par n'importe quelle fonction $\mathbb{R}
\to \mathbb{R}$ croissante, continue, nulle sur les négatifs et
strictement positive sur les réels strictement positifs, on a choisi
l'identité ci-dessus pour rendre l'expression plus simple à écrire,
mais elle peut donner l'impression qu'on commet une « erreur
  d'homogénéité » en ajoutant un gain à une probabilité.)

D'après la première expression donnée, il est clair qu'on a bien $s'_i
\in S_i$, et qu'on a donc bien défini une fonction $f\colon S\to S$.
Cette fonction est continue, donc admet un point fixe $s$.  On va
montrer que $s$ est un équilibre de Nash.

Si $1\leq i\leq N$, il existe $a \in A_i$ tel que $u_i(s_{?i},a) \leq
u_i(s)$ (car, comme dans la preuve
de \ref{stupid-remark-best-mixed-strategies}, $u_i(s)$ est combinaison
convexe des $u_i(s_{?i},a)$ dont est supérieur au plus petit d'entre
eux) : c'est-à-dire $\varphi_{i,a}(s) = 0$.  Pour un tel $a$, la
seconde expression $s'_i(a) = s_i(a) / \big(1 + \sum_{b\in
  A_i}\varphi_{i,b}(s)\big)$ montre, en tenant compte du fait que
$s'_i = s_i$ puisque $s$ est un point fixe, que $\sum_{b\in A_i}
\varphi_{i,b}(s) = 0$, donc $\varphi_{i,b}(s) = 0$ pour tout $b$.  On
vient de voir que les $\varphi_{i,b}(s)$ sont nuls pour tout $i$ et
tout $b$, et on a expliqué que ceci signifie que $s$ est un équilibre
de Nash.
\end{proof}

%
%
%
\end{document}