Title: Apprentissage par renforcement Antoine Cornu
1 Apprentissage par renforcementAntoine
Cornuéjols(antoine_at_lri.fr)I.I.E.L.R.I.,
Université dOrsay
2Plan du cours
- 1- Introduction motivation, problèmes,
notions et principes - 2- La notion d'utilité
- 3- Apprentissage des fonctions d'utilité en
environnement connu - 4- Univers inconnu méthodes de différences
temporelles - Principes
- Méthode du Q-Learning
- Extension à plusieurs pas le TD-Learning
- 5- La généralisation dans l'apprentissage par
renforcement - 7- Exemples dapplications
- 8- Bilan et perspectives
31.1 Introduction schéma général
Environnement
Action
Perception
Récompense
41.2 Introduction Les notations de base
- Temps discret t
- États st ?? S
- Actions at ?? A(st)
- Récompenses rt ?? R(st)
- Lagent st ? at
- Lenvironnement (st,at) ? st1, rt1
- Politique ?t S ? A
- Avec ?t(s,a ) Prob que at a si st s
- Les transitions et récompenses ne dépendent que
de létat et de laction précédents processus
Markovien
?, R
51.2 Introduction Eléments de base
- Politique
- ensemble dassociations situation ? action (une
application) - Une simple table ... un algorithme de
recherche intensive - Eventuellement stochastique
- Fonction de renforcement
- Définit implicitement le but poursuivi
- Une fonction (état, action) ?? récompense
???? - Fonction dévaluation V(s) ou Q(s,a)
- Récompense accumulée sur le long-terme
- Modèle de lenvironnement
- Fonctions T et R (état(t), action)
??(état(t1), récompense)
62- La notion d'utilité
- Principe
- Choisir une action sans avoir besoin de faire une
exploration (simulée) en avant - Il faut donc disposer dune fonction dévaluation
locale résumant une espérance de gain si lon
choisit cette action fonction dutilité - Il faut apprendre cette fonction dutilité
apprentissage par renforcement
72- Notion dutilité. Exemple Tic-Tac-Toe
X
X
X
X
X
X
X
X
O
O
X
X
X
X
X
O
O
O
O
X
X
O
O
O
O
O
X
O
xs coup
...
V(s1)
V(s3)
x
x
V(s2)
x
os coup
...
...
...
x
o
o
x
o
x
xs coup
x
...
...
...
...
...
os coup
La fonction dutilité une fois apprise permet de
jouer sans exploration de larbre de jeu
xs coup
x
o
x
x
o
82- Fonctions d'utilité V(s) et Q(s,a)
- La valeur dun état est lespérance de gain en
partant de cet état. Elle dépend de la politique
de lagent - La valeur dune action dans un état sous la
politique p est lespérance de gain en partant
de cet état, en choisissant cette action et en
suivant ensuite la politique p
92- Fonctions d'utilité Vp(s) et Qp (s,a)
102- Ordre sur les politiques et politique optimale
- Pour les MDPs finis, ! relation dordre partiel
sur les politiques - Il existe toujours au moins une politique (et
peut-être plusieurs) meilleure ou égale à toute
autre politique. Une telle politique est optimale
et notée p . - Les politiques optimales partagent la même
fonction dutilité optimale sur les états - Les politiques optimales partagent aussi la même
fonction dutilité optimale sur les (état-action)
112. Utilisation avec la fonction dutilité V(s)
- Une politique est une application ? S ?
A - Valeur optimale dun état
- La fonction de valeur optimale V est unique
- Une politique stationnaire optimale existe
122. Utilisation avec la fonction dutilité
Q(s,a)
- Fonction dévaluation daction Q?(s,a)
- Valeur optimale dune action (dans un état)
Théorème
est une politique optimale
133-1. Programmation dynamique Évaluation de
politique
Évaluation de politique Pour une politique
donnée p, calculer la fonction dutilité détat
Vp(s)
Rappel
143-1. PD Évaluation itérative dune politique
Principe léquation de point fixe de Bellman
peut fournir en une procédure itérative
dapproximation successive de la fonction
dutilité V p.
une propagation
153-1. PD Algorithme dévaluation itérative dune
politique
164. Environnement inconnu Différences
temporelles
Soit la méthode destimation par moyennage
La moyenne des premiers k renforcements est (en
ignorant la dépendance sur )
Peut-on faire le même calcul incrémentalement ?
Oui
Règle classique damélioration
NouvelleEstimation AncienneEstimation
PasCible AncienneEstimation
174-1. TD learning évaluation par méthode des
différences temporelles
Évaluation de politique pour une
politique donnée p, calculer la fonction
dutilité
cible le vrai gain sur une durée t
cible une estimation du gain
184-1. TD learning Simple Monte Carlo
194-1. TD learning Simplest TD Method
On met à jour incrémentalement par
ré-estimations successives et locales
204-1. TD learning cf. Dynamic Programming
On calcule lespérance. Mais il faut connaître
lenvironnement a priori.
T
T
T
214-1. TD learning algo dévaluation par
différences temporelles
Initialisation ??? politique à évaluer V??
une fonction arbitraire dévaluation Répéter
(pour chaque pas de lépisode) a?? action
préconisée par p pour s Faire a recevoir r
voir état suivant s V(s)?? V(s) ? r ?V(s)
- V(s) s ?? s jusquà s terminal
223-2. PD Comment améliorer une politique
- Relation dordre sur les politiques
- Soient p et p deux politiques déterministes,
tq s ? E - Alors la politique p est au moins aussi bonne
que p
(1)
- Si lon trouve une modification p de la
politique p vérifiant linégalité (1), alors on
obtient une meilleure politique
233-3. PD Amélioration de politique
Supposons fait le calcul de pour une
politique déterministe p.
Lutilité de laction a dans létat s est
Il est préférable de choisir laction a dans
létat s si
243-3. PD Amélioration de politique Cont.
Il suffit de faire cela pour tous les états pour
obtenir une nouvelle politique p qui est
gloutonne par rapport à Vp
253-3. PD Amélioration de politique (Cont.)
263-3. PD Itération de politique
E
E
A
E
A
A
Évaluation de politique
Amélioration de politique gloutonne
273-3. Algorithme ditération de politique
- Garantie de convergence vers une politique
optimale
Initialisation arbitraire de ? Faire calcul de
la fonction de valeur avec ? Amélioration de
la politique à chaque état ? ? jusquà
ce quaucune amélioration ne soit possible
283-3. PD Policy Iteration
293-3. PD Itération généralisée de politique
Generalized Policy Iteration (GPI) Toute
interaction détape dévaluation de politique et
détape damélioration de politique
indépendamment de leur granularité
Métaphore géométrique pour La convergence de GPI
304-1. TD learning Learning An Action-Value
Function Q(s,a)
314-2. TD learning Q-Learning
324-2. Rappel Le dilemme exploitation vs.
exploration
Quelle politique pour maximiser le gain avec 1000
tirages ?
334-2- Sélection daction e-gloutonne
- Sélection daction gloutonne
- e-gloutonne
. . . La manière la plus simple de pondérer
lexploration et lexploitation
344-2- Sélection daction Softmax
- Softmax action selection methods grade action
probs. by estimated values. - The most common softmax uses a Gibbs, or
Boltzmann, distribution
computational temperature
354-3. Lapprentissage Q (Q-learning)
- Idée Watkins,89 Estimer les valeurs Q
en-ligne, en trouvant à la fois la politique et
la fonction dévaluation daction - MAJ à chaque fois que laction a est prise dans
s. - Théorème Si chaque action est exécutée un
nombre infini de fois dans chaque état, les
valeurs Q calculées convergent vers Q,
conduisant à une politique optimale.
364-3. Exemple (1/4)
r(s,a) récompense immédiate
0
100
But
0
0
0
0
0
0
100
- Rq La dernière étape assure la récompense (jeux,
monde des blocs, etc.) - Tâche apprendre la meilleure stratégie
374-3. Exemple (2/4)
- On définit la récompense cumulée V?(st)
- Le problème trouver
90
100
But
0
100
90
81
V(s)V?(s) récompense cumulée optimale
384-3. Exemple (3/4)
- La fonction Q est définit comme étant LA fonction
qui résume en UN nombre toute linfo nécessaire
sur le gain cumulé dune action a, prise dans
létat s.
Q(s,a)
90
100
But
0
81
72
81
81
90
100
394-3. Exemple (4/4)
On Prend ? 1.
72
100
63
81
adroite
90
100
63
81
405. Apprentissage avec généralisation
- Si lespace S (ou S x A) est trop important pour
lutilisation dune table mémorisant les
prédictions - Deux options
- Utilisation dune technique de généralisation
dans lespace S ou lespace S x A (e.g.
réseau de neurones, ...) - Utilisation dune technique de regroupement
détats en classes déquivalence (même prédiction
et même action générée).
415. Généralisation Approximation de la fonction
V(s)
Comme avant Évaluation de politique
pour une politique donnée p, calculer la fonction
dutilité
Mais avant, les fonctions dutilité étaient
stockées dans des tables.
425. Généralisation Backups as Training Examples
As a training example
input
target output
435. Généralisation nimporte quelle méthode
inductive ?
- En principe, oui
- Réseaux de neurones artificiels
- Arbres de décision
- Méthodes de régression multivariées
- etc.
- Mais lApp. par R. a des exigences particulières
- Apprendre tout en agissant
- Sadapter à des mondes non stationnaires
- Autre ?
446. Some Notable RL Applications
- TD-Gammon Tesauro
- worlds best backgammon program
- Elevator Control Crites Barto
- high performance down-peak elevator controller
- Inventory Management Van Roy, Bertsekas,
LeeTsitsiklis - 1015 improvement over industry standard methods
- Dynamic Channel Assignment Singh Bertsekas,
Nie Haykin - high performance assignment of radio channels to
mobile telephone calls
456. TD-Gammon
Tesauro, 19921995
Action selection by 23 ply search
Value
TD error
Start with a random network Play very many games
against self Learn a value function from this
simulated experience
This produces arguably the best player in the
world
466. Réalisations TD Gammon
Tesauro 1992, 1994, 1995, ...
- White has just rolled a 5 and a 2 so can move one
of his pieces 5 and one (possibly the same) 2
steps - Objective is to advance all pieces to points
19-24 - Hitting
- Doubling
- 30 pieces, 24 locations implies enormous number
of configurations - Effective branching factor of 400
476. Réalisations A Few Details
- Reward 0 at all times except those in which the
game is won, when it is 1 - Episodic (game episode), undiscounted
- Gradient descent TD(l) with a multi-layer neural
network - weights initialized to small random numbers
- backpropagation of TD error
- four input units for each point unary encoding
of number of white pieces, plus other features - Use of afterstates
- Learning during self-play
486. Réalisations Multi-layer Neural Network
496. Réalisations Summary of TD-Gammon Results
507. Bilan trois idées principales
- La passage par des fonctions dutilité
- La rétro-propagation de ces valeurs le long de
trajectoires réelles ou simulées - Itération généralisée de politique (i) calculer
continuellement une estimation de la fonction
dutilité optimale et (ii) chercher une politique
optimale grâce à cette estimation, qui, en
retour, sadapte en conséquence
517. Bilan Frontier Dimensions
- Prove convergence for bootstrapping control
methods. - Trajectory sampling
- Non-Markov case
- Partially Observable MDPs (POMDPs)
- Bayesian approach belief states
- construct state from sequence of observations
- Try to do the best you can with non-Markov states
- Modularity and hierarchies
- Learning and planning at several different levels
- Theory of options
527. Bilan More Frontier Dimensions
- Using more structure
- factored state spaces dynamic Bayes nets
- factored action spaces
537. Bilan Still More Frontier Dimensions
- Incorporating prior knowledge
- advice and hints
- trainers and teachers
- shaping
- Lyapunov functions
- etc.
54Sources documentaires
- Ouvrages / articles
- Sutton Barto (98) Reinforcement Learning an
introduction. MIT Press, 1998. - Kaelbling L.P. (93) Learning in embedded
systems. MIT Press, 1993. - Kaelbling, Littman Moore (96) Reinforcement
learning A survey. Journal of Artificial
Intelligence Research, 4237-285. - Sites web
- http//http//www-anw.cs.umass.edu/rich/RL-FAQ.ht
ml (FAQ maintenue par Rich Sutton et point
dentrée pour de nombreux sites)