Title: Predictive State Representation
1Predictive State Representation
- Abdeslam BOULARIAS
- Damas laboratory, Computer Science and Software
Engineering Departement - Laval University
- boularias_at_damas.ift.ulaval.ca
2Le problème du control des systèmes dynamiques
- Un système dynamique est un système qui change
détat à travers le temps, selon des règles
mathématiques fixes. - Un système dynamique peut être
- Déterministe Étant donné un état initial,
nimporte quel état futur peut être déterminé
avec certitude (ex le système solaire). - Stochastique Les états futurs du système
peuvent seulement être estimés avec une certaine
probabilité (ex une file dattente). - Contrôlé Létat du système est influencé par des
actions prises par un agent (ex la navigation
dun robot). - Incontrôlé Le temps est le seul paramètre
(action) qui influence létat du système (ex la
reconnaissance de la parole).
3Le problème du control des systèmes dynamiques
- Deux opérations principales dans les systèmes
dynamiques -
- La prédiction de létat du système à linstant t.
- Le control optimal Maximiser les récompenses
obtenues. - Représentation de létat du système
- Énumération explicite des états S0, S1, Sn.
(modèle génératif). - Ex MDPs, POMDPs
- Historique des actions et des observations St a0
o0 a1 o1 at-1 ot-1. - Ex les modèles k-markoviens, Utile Suffix
Memory (USM)..
4La représentation des états
Modèle historique Létat courant est la séquence
des actions et observations passées.
Modèle génératif Létat courant est mis à jour
récursivement.
5La représentation des états
- Dans la plupart des systèmes, les états ne sont
que partiellement observables. - Les POMDPs permettent de remédier à ce problème
en utilisant la notion de létat de croyance une
distribution de probabilité sur tous les états du
système. Mais - Les algorithmes de planification sont
NP-Difficiles à cause de la continuité de létat
de croyance. - Un état est souvent leffet de plusieurs facteurs
(états), ce qui produit une explosion
combinatoire de lespace des états. - Les états de croyance ne sont pas observables,
donc non vérifiables. - Limités aux environnements markoviens et
stationnaires. - En absence des paramètres du modèles, les
algorithmes dapprentissage sont peu efficaces.
(problèmes des alias perceptuels, maximums locaux
dans les méthodes par descente du gradient ) - Les POMDPs manquent dautonomie À chaque
nouvelle configuration de lenvironnement il faut
que lutilisateur intervient pour spécifier les
états.
6La représentation des états
- Les modèle k-markoviens, le système est
caractérisé par -
- Certains systèmes ne peuvent pas êtres décrits
par aucun modèle k-markovien, avec une longueur
dhistorique k finie - La méthode USM (Utile Suffixe Memory) utilise une
longueur variable de lhistorique (non limitée). - Dans lexemple précédent, la profondeur de
larbre USM grandit dun niveau à chaque étape du
temps.
a2 o2
S1
S2
a1
a1 o1
S0
a2 o2
a2
S3
S4
a1 o1
7La représentation prédictive des états
- Idée de base létat actuel du système est
représenté par un ensemble de réponses
(observations) Ã un certain nombre de questions
(actions). - Exemple
- État classique (Rétroprojecteur en panne) ?
(Télécommande défectueuse) ? (Coupure du courant
électrique). - Représentation prédictive Action (appuyer sur
le bouton ON de la télécommande) Observation (Le
rétroprojecteur se mis en marche). - Les prédictions peuvent êtres apprises, testées,
et maintenues.
8La représentation prédictive des états
- Un test t (une question, un futur) est
- Dans un système non contrôlé une séquence
dobservations to1o2..ok. - Dans un système contrôlé une séquence
ta1o1a2o2.. akok dobservations obtenues depuis
une séquence dactions.
- Une réponse à un test est
- Dans un système non contrôlé
- P(t)P(o1o1 ..., okok).
- Dans un système contrôlé
- P(t)P(o1o1 ..., okok / P(a1a1 ..., akak ).
- Un système est une distribution de probabilités
sur tous les futurs possibles
t0 t1 t2 . ti
.
P(t0) P(t1) P(t2) . P(ti) .
9La représentation prédictive des états
Prédiction dun test p(th)
10La représentation prédictive des états Exemple
Un ensemble réduit de tests permet de décrire
parfaitement létat actuel du système, et donc
les réponses de tous les autres tests. Dans
lexemple t1Gauche Mur t2Droite Mur t3Haut
Mur t4Bas Mur P(t1)0.2, P(t2)0.2, P(t3)0.9,
P(t4)0.2.
s1
s3
s4
s5
s6
s7
s8
s9
11La représentation prédictive des états
- Travaux précédents
- Deterministic Finite State Automata Rivest
Shapire, 1987. - Rajouter le stochastique Herbert Jaeger, 1999.
- Rajouter les actions Littman, Sutton, Singh,
2002 - Un PSR est un ensemble fini de tests de base Q,
tel que - En posant
- Si est linéaire alors
12La représentation prédictive des états
- Le modèle PSR est génératif car à chaque nouvelle
action et observation, on mis à jours létat
courant du système. - Donc les paramètres du modèle sont
- Le vecteur initial p(Q/ ?).
- Les vecteurs mao.
- Les vecteurs maoqi.
13La matrice de la dynamique dun système
- Cette matrice représente le système lui-même, et
pas un modèle. - Tout modèle correcte du système doit être en
mesure de la générer. - La dimension linéaire N dun système est le rang
de sa matrice de dynamique.
t0 t1 t2 . ti
.
Qp(qi/hj) N
h0? h1 h2 . . hi .
p(t1) p(t1/h1) p(t2/h2) . . p(ti/hi) .
p(t0) p(t0/h1) p(t0/h2) . . p(t0/hi) .
14La matrice de la dynamique dun système
- Lordre de tous les tests possibles
- Les propriétés des prédictions de chaque ligne de
D.
hi
hi
15La représentation prédictive des états
- Théorème Nimporte quel système dynamique de
dimension finie N, peut être modélisé par un PSR
à N tests. - Preuve Soit D la matrice du système, et Q la
matrice formée par N vecteurs colonnes
linéairement indépendants. - Donc les tests du PSR correspondront aux N
vecteur colonnes indépendants.
16POMDPs et PSRs
- Théorème Nimporte quel système dynamique
représenté par un POMDP à N états, peut être
représenté par un PSR avec au plus N tests,
chacun de taille inférieure ou égale à N. - Preuve Dans les POMDPs, létat actuel du système
est représenté par le vecteur b. Suite à une
action et une observation, la mise à jours de b
se fait comme suit -
- La matrice U suivante, permet de représenter
les probabilités des tests selon létat actuel.
t0 t1 t2 . ti
.
s0 sn
P(t0/s0) . P(ti/so)
.
17POMDPs et PSRs
- Preuve (Suite) Si dans la matrice U, les
vecteurs de la sous-matrice L forment un noyau,
alors ces vecteurs forment aussi un noyau dans la
matrice de la dynamique D. En effet - Donc, les vecteurs de L peuvent être
utilisés comme tests de base pour le PSR. - Étant donné que la matrice U a n lignes,
alors le nombre maximale de vecteurs linéairement
indépendants ne peut pas dépasser n. - Résultat Le PSR construit à partir de la
matrice U ne peut pas avoir plus de n tests.
18POMDPs et PSRs
- Preuve (Suite) Puisque toute extension dun test
linéairement dépendant produit un nouveau test
qui est aussi linéairement dépendant, alors la
taille dun test ne peut pas dépasser le nombre
maximum de tests, soit n. - Lalgorithme suivant (Littman, Sutton Singh
2002) permet de construire un PSR Ã partir dun
POMDP.
19POMDPs et PSRs
- Théorème Un POMDP a k états ne peut pas
modéliser un système de dimension linéaire
supérieure à k. - Preuve La matrice de la dynamique D du système
représenté par un POMDP est produite comme suit - Donc le rang de D ne peux pas dépasser
max(rang(B),rang(U))k. - De plus, Jaeger (1998) a présenté un système Ã
dimension linéaire finie qui ne pas être
représenté par aucun POMDP avec un nombre des
états fini.
20Modèles n-markoviens
- Théorème
- Un modèle n-markovien ne peut pas
représenter un système ayant une dimension
linéaire supérieure à k(AO)n. - Preuve
- Dans les modèles n-markoviens la probabilité
P(t/h) ne dépend que du suffixe de h de taille
inférieure ou égale à n. - Puisque il ya exactement (AO)n
historiques de taille inférieure ou égale à n,
alors la matrice D de la dynamique du système
contient au plus (AO)n lignes différentes,
donc son rang doit être inférieur ou égale Ã
(AO)n .
21Modèles n-markoviens
- Théorème
- Certains systèmes à dimension finie ne
peuvent pas être représentés par aucun modèle
n-markovien. - Preuve
- Dans une matrice de rang fini, on peut avoir
toutes les lignes différentes.
22Les PSRs Non-Linéaires
- Les PSRs non linéaire peuvent être représentés
par un nombre réduit de tests par rapport au
nombre détats des POMDPs. - Exemple Le problème de float-reset
- Les deux tests Reset1 et Float0Reset1
suffisent pour déterminer létat actuel du
système, car après chaque action Float depuis le
dernier Reset, ils prennent des valeurs
successives de la suite - 1 0.5 0.5 0.375 0.375 0.3125 0.3125
R1 O1
R1 Oo
R1 Oo
R1 Oo
R1 Oo
f0.5 Oo
f0.5 Oo
f0.5 Oo
f0.5 Oo
f0.5 Oo
f0.5 Oo
23Les PSRs Non-Linéaires
- Le registre à décalage
- Représenté en POMDPs avec 2n états.
- Avec les PSRs, il faut seulement n tests
- D1,DD1, DDD1, DDDD1, , DDDD .D 1
-
1
2
3
n-1
n
0
1
1
0
1
0
n fois
Réduction exponentielle de lespace des états
24Le modèle PSR
- Modèles k-markovien lt POMDPs à k états
- lt PSRs à k tests Systèmes dynamiques de
dimension k. - Découverte des tests de base à partir des données
expérimentales. - Apprentissage des paramètres du PSR étant donné
les tests de base et les données expérimentales.
25Apprentissage des tests de base
- Si on dispose de la matrice D alors
- Sinon, estimer les probabilités de la matrice par
simulation Monte Carlo (avec la méthode
suffix-history).
t0 t1 t2 . ti
.
h0? h1 h2 . . hi .
p(t1) p(t1/h1) p(t2/h2) . . p(ti/hi) .
p(t0) p(t0/h1) p(t0/h2) . . p(t0/hi) .
26Apprentissage des tests de base
- Si on dispose de la matrice D alors
P(t2)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
P(t1)
P(t2) ne dépend pas de P(t1)
27Apprentissage des tests de base
- Si on dispose de la matrice D alors
P(t2)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
P(t1)
P(t2) ne dépend pas de P(t1)
28Apprentissage des tests de base
- Si on dispose de la matrice D alors
.
.
P(t2)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
P(t1)
P(t2) dépend pas de P(t1)
29Apprentissage des tests de base
- Si on dispose de la matrice D alors
.
.
P(t2)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
P(t1)
P(t2) dépend pas de P(t1)
30PSRs et Options
- Une option est une macro-action une politique
pour atteindre un objectif intermédiare.
31PSRs et Options
- Un test avec les options est de la forme
suivante - tA1o1A2o2.. Akok
- Tel que o est une observation, et A est une
action ou une option.
32PSRs et Options
- Exemple Une grille de 99 nécessite
(9-1)(9-1)16 tests sans options
33PSRs et Options
- Exemple Une grille de 99 nécessite
(3-1)(3-1)(3-1)6 tests avec options
34Quelques questions
- Comment planifier avec les PSRs en connaissant
seulement les tests de base, et sans connaitre
les probabilités? - Comment planifier et construire le modèle en même
temps? - Question théorique Cest quoi le nombre minimal
de tests nécessaires pour représenter un
environnement donné?
35Références
- James, M. R., Singh, S. (2004). Learning and
discovery of predictive state representations in
dynamical systems with reset. Proceedings of the
21st International Conference on Machine Learning
(ICML) (pp. 719726). - Littman, M., Sutton, R. S., Singh, S. (2002).
Predictive representations of state. Advances in
Neural Information Processing Systems 14 (NIPS)
(pp. 15551561). MIT Press. - McCracken, P., Bowling, M. (2006). Online
learning of predictive state representations.
Advances in Neural Information Processing Systems
18 (NIPS). MIT Press. To appear. - Singh, S., James, M. R., Rudary, M. R. (2004).
Predictive state representations A new theory
for modeling dynamical systems. Uncertainty in
Artificial Intelligence Proceedings of the
Twentieth Conference (UAI) (pp. 512519). - Singh, S., Littman, M., Jong, N., Pardoe, D.,
Stone, P.(2003). Learning predictive state
representations. Proceedings of the Twentieth
International Conference on Machine Learning
(ICML) (pp. 712719). - Wiewiora, E. (2005). Learning predictive
representations from a history. Proceedings of
the 22nd International Conference on Machine
Learning (ICML) (pp. 969976). - Wolfe, B., James, M. R., Singh, S. (2005).
Learning predictive state representations in
dynamical systems without reset. Proceedings of
the 22nd International Conference on Machine
Learning (ICML) (pp. 985992). - Bowling, M., McCracken, P., James, M., Neufeld
J., Wilkinson, D. (2006). Learning predictive
state representations using non-blind polices.
ICML 2006