Predictive State Representation - PowerPoint PPT Presentation

1 / 35
About This Presentation
Title:

Predictive State Representation

Description:

Id e de base: l' tat actuel du syst me est repr sent par un ensemble de ... Preuve: Dans les POMDPs, l' tat actuel du syst me est repr sent par le vecteur ... – PowerPoint PPT presentation

Number of Views:61
Avg rating:3.0/5.0
Slides: 36
Provided by: damasIf
Category:

less

Transcript and Presenter's Notes

Title: Predictive State Representation


1
Predictive State Representation
  • Abdeslam BOULARIAS
  • Damas laboratory, Computer Science and Software
    Engineering Departement
  • Laval University
  • boularias_at_damas.ift.ulaval.ca

2
Le problème du control des systèmes dynamiques
  • Un système dynamique est un système qui change
    détat à travers le temps, selon des règles
    mathématiques fixes.
  • Un système dynamique peut être
  • Déterministe Étant donné un état initial,
    nimporte quel état futur peut être déterminé
    avec certitude (ex le système solaire).
  • Stochastique Les états futurs du système
    peuvent seulement être estimés avec une certaine
    probabilité (ex une file dattente).
  • Contrôlé Létat du système est influencé par des
    actions prises par un agent (ex la navigation
    dun robot).
  • Incontrôlé Le temps est le seul paramètre
    (action) qui influence létat du système (ex la
    reconnaissance de la parole).

3
Le problème du control des systèmes dynamiques
  • Deux opérations principales dans les systèmes
    dynamiques
  • La prédiction de létat du système à linstant t.
  • Le control optimal Maximiser les récompenses
    obtenues.
  • Représentation de létat du système
  • Énumération explicite des états S0, S1, Sn.
    (modèle génératif).
  • Ex MDPs, POMDPs
  • Historique des actions et des observations St a0
    o0 a1 o1 at-1 ot-1.
  • Ex les modèles k-markoviens, Utile Suffix
    Memory (USM)..

4
La représentation des états
Modèle historique Létat courant est la séquence
des actions et observations passées.
Modèle génératif Létat courant est mis à jour
récursivement.
5
La représentation des états
  • Dans la plupart des systèmes, les états ne sont
    que partiellement observables.
  • Les POMDPs permettent de remédier à ce problème
    en utilisant la notion de létat de croyance une
    distribution de probabilité sur tous les états du
    système. Mais
  • Les algorithmes de planification sont
    NP-Difficiles à cause de la continuité de létat
    de croyance.
  • Un état est souvent leffet de plusieurs facteurs
    (états), ce qui produit une explosion
    combinatoire de lespace des états.
  • Les états de croyance ne sont pas observables,
    donc non vérifiables.
  • Limités aux environnements markoviens et
    stationnaires.
  • En absence des paramètres du modèles, les
    algorithmes dapprentissage sont peu efficaces.
    (problèmes des alias perceptuels, maximums locaux
    dans les méthodes par descente du gradient )
  • Les POMDPs manquent dautonomie À chaque
    nouvelle configuration de lenvironnement il faut
    que lutilisateur intervient pour spécifier les
    états.

6
La représentation des états
  • Les modèle k-markoviens, le système est
    caractérisé par
  • Certains systèmes ne peuvent pas êtres décrits
    par aucun modèle k-markovien, avec une longueur
    dhistorique k finie
  • La méthode USM (Utile Suffixe Memory) utilise une
    longueur variable de lhistorique (non limitée).
  • Dans lexemple précédent, la profondeur de
    larbre USM grandit dun niveau à chaque étape du
    temps.

a2 o2
S1
S2
a1
a1 o1
S0
a2 o2
a2
S3
S4
a1 o1
7
La représentation prédictive des états
  • Idée de base létat actuel du système est
    représenté par un ensemble de réponses
    (observations) à un certain nombre de questions
    (actions).
  • Exemple
  • État classique (Rétroprojecteur en panne) ?
    (Télécommande défectueuse) ? (Coupure du courant
    électrique).
  • Représentation prédictive Action (appuyer sur
    le bouton ON de la télécommande) Observation (Le
    rétroprojecteur se mis en marche).
  • Les prédictions peuvent êtres apprises, testées,
    et maintenues.

8
La représentation prédictive des états
  • Un test t (une question, un futur) est
  • Dans un système non contrôlé une séquence
    dobservations to1o2..ok.
  • Dans un système contrôlé une séquence
    ta1o1a2o2.. akok dobservations obtenues depuis
    une séquence dactions.
  • Une réponse à un test est
  • Dans un système non contrôlé
  • P(t)P(o1o1 ..., okok).
  • Dans un système contrôlé
  • P(t)P(o1o1 ..., okok / P(a1a1 ..., akak ).
  • Un système est une distribution de probabilités
    sur tous les futurs possibles

t0 t1 t2 . ti
.
P(t0) P(t1) P(t2) . P(ti) .

9
La représentation prédictive des états
Prédiction dun test p(th)
10
La représentation prédictive des états Exemple
Un ensemble réduit de tests permet de décrire
parfaitement létat actuel du système, et donc
les réponses de tous les autres tests. Dans
lexemple t1Gauche Mur t2Droite Mur t3Haut
Mur t4Bas Mur P(t1)0.2, P(t2)0.2, P(t3)0.9,
P(t4)0.2.
s1
s3
s4
s5
s6
s7
s8
s9
11
La représentation prédictive des états
  • Travaux précédents
  • Deterministic Finite State Automata Rivest
    Shapire, 1987.
  • Rajouter le stochastique Herbert Jaeger, 1999.
  • Rajouter les actions Littman, Sutton, Singh,
    2002
  • Un PSR est un ensemble fini de tests de base Q,
    tel que
  • En posant
  • Si est linéaire alors

12
La représentation prédictive des états
  • Le modèle PSR est génératif car à chaque nouvelle
    action et observation, on mis à jours létat
    courant du système.
  • Donc les paramètres du modèle sont
  • Le vecteur initial p(Q/ ?).
  • Les vecteurs mao.
  • Les vecteurs maoqi.

13
La matrice de la dynamique dun système
  • Cette matrice représente le système lui-même, et
    pas un modèle.
  • Tout modèle correcte du système doit être en
    mesure de la générer.
  • La dimension linéaire N dun système est le rang
    de sa matrice de dynamique.

t0 t1 t2 . ti
.
Qp(qi/hj) N
h0? h1 h2 . . hi .

p(t1) p(t1/h1) p(t2/h2) . . p(ti/hi) .

p(t0) p(t0/h1) p(t0/h2) . . p(t0/hi) .

14
La matrice de la dynamique dun système
  • Lordre de tous les tests possibles
  • Les propriétés des prédictions de chaque ligne de
    D.

hi
hi
15
La représentation prédictive des états
  • Théorème Nimporte quel système dynamique de
    dimension finie N, peut être modélisé par un PSR
    à N tests.
  • Preuve Soit D la matrice du système, et Q la
    matrice formée par N vecteurs colonnes
    linéairement indépendants.
  • Donc les tests du PSR correspondront aux N
    vecteur colonnes indépendants.

16
POMDPs et PSRs
  • Théorème Nimporte quel système dynamique
    représenté par un POMDP à N états, peut être
    représenté par un PSR avec au plus N tests,
    chacun de taille inférieure ou égale à N.
  • Preuve Dans les POMDPs, létat actuel du système
    est représenté par le vecteur b. Suite à une
    action et une observation, la mise à jours de b
    se fait comme suit
  • La matrice U suivante, permet de représenter
    les probabilités des tests selon létat actuel.

t0 t1 t2 . ti
.
s0 sn
P(t0/s0) . P(ti/so)
.
17
POMDPs et PSRs
  • Preuve (Suite) Si dans la matrice U, les
    vecteurs de la sous-matrice L forment un noyau,
    alors ces vecteurs forment aussi un noyau dans la
    matrice de la dynamique D. En effet
  • Donc, les vecteurs de L peuvent être
    utilisés comme tests de base pour le PSR.
  • Étant donné que la matrice U a n lignes,
    alors le nombre maximale de vecteurs linéairement
    indépendants ne peut pas dépasser n.
  • Résultat Le PSR construit à partir de la
    matrice U ne peut pas avoir plus de n tests.

18
POMDPs et PSRs
  • Preuve (Suite) Puisque toute extension dun test
    linéairement dépendant produit un nouveau test
    qui est aussi linéairement dépendant, alors la
    taille dun test ne peut pas dépasser le nombre
    maximum de tests, soit n.
  • Lalgorithme suivant (Littman, Sutton Singh
    2002) permet de construire un PSR à partir dun
    POMDP.

19
POMDPs et PSRs
  • Théorème Un POMDP a k états ne peut pas
    modéliser un système de dimension linéaire
    supérieure à k.
  • Preuve La matrice de la dynamique D du système
    représenté par un POMDP est produite comme suit
  • Donc le rang de D ne peux pas dépasser
    max(rang(B),rang(U))k.
  • De plus, Jaeger (1998) a présenté un système à
    dimension linéaire finie qui ne pas être
    représenté par aucun POMDP avec un nombre des
    états fini.

20
Modèles n-markoviens
  • Théorème
  • Un modèle n-markovien ne peut pas
    représenter un système ayant une dimension
    linéaire supérieure à k(AO)n.
  • Preuve
  • Dans les modèles n-markoviens la probabilité
    P(t/h) ne dépend que du suffixe de h de taille
    inférieure ou égale à n.
  • Puisque il ya exactement (AO)n
    historiques de taille inférieure ou égale à n,
    alors la matrice D de la dynamique du système
    contient au plus (AO)n lignes différentes,
    donc son rang doit être inférieur ou égale à
    (AO)n .

21
Modèles n-markoviens
  • Théorème
  • Certains systèmes à dimension finie ne
    peuvent pas être représentés par aucun modèle
    n-markovien.
  • Preuve
  • Dans une matrice de rang fini, on peut avoir
    toutes les lignes différentes.

22
Les PSRs Non-Linéaires
  • Les PSRs non linéaire peuvent être représentés
    par un nombre réduit de tests par rapport au
    nombre détats des POMDPs.
  • Exemple Le problème de float-reset
  • Les deux tests Reset1 et Float0Reset1
    suffisent pour déterminer létat actuel du
    système, car après chaque action Float depuis le
    dernier Reset, ils prennent des valeurs
    successives de la suite
  • 1 0.5 0.5 0.375 0.375 0.3125 0.3125

R1 O1
R1 Oo
R1 Oo
R1 Oo
R1 Oo
f0.5 Oo
f0.5 Oo
f0.5 Oo
f0.5 Oo
f0.5 Oo
f0.5 Oo
23
Les PSRs Non-Linéaires
  • Le registre à décalage
  • Représenté en POMDPs avec 2n états.
  • Avec les PSRs, il faut seulement n tests
  • D1,DD1, DDD1, DDDD1, , DDDD .D 1

1
2
3
n-1
n
0
1
1
0
1
0
n fois
Réduction exponentielle de lespace des états
24
Le modèle PSR
  • Modèles k-markovien lt POMDPs à k états
  • lt PSRs à k tests Systèmes dynamiques de
    dimension k.
  • Découverte des tests de base à partir des données
    expérimentales.
  • Apprentissage des paramètres du PSR étant donné
    les tests de base et les données expérimentales.

25
Apprentissage des tests de base
  • Si on dispose de la matrice D alors
  • Sinon, estimer les probabilités de la matrice par
    simulation Monte Carlo (avec la méthode
    suffix-history).

t0 t1 t2 . ti
.
h0? h1 h2 . . hi .

p(t1) p(t1/h1) p(t2/h2) . . p(ti/hi) .

p(t0) p(t0/h1) p(t0/h2) . . p(t0/hi) .

26
Apprentissage des tests de base
  • Si on dispose de la matrice D alors

P(t2)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
P(t1)
P(t2) ne dépend pas de P(t1)
27
Apprentissage des tests de base
  • Si on dispose de la matrice D alors

P(t2)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
P(t1)
P(t2) ne dépend pas de P(t1)
28
Apprentissage des tests de base
  • Si on dispose de la matrice D alors

.
.
P(t2)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
P(t1)
P(t2) dépend pas de P(t1)
29
Apprentissage des tests de base
  • Si on dispose de la matrice D alors

.
.
P(t2)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
P(t1)
P(t2) dépend pas de P(t1)
30
PSRs et Options
  • Une option est une macro-action une politique
    pour atteindre un objectif intermédiare.

31
PSRs et Options
  • Un test avec les options est de la forme
    suivante
  • tA1o1A2o2.. Akok
  • Tel que o est une observation, et A est une
    action ou une option.

32
PSRs et Options
  • Exemple Une grille de 99 nécessite
    (9-1)(9-1)16 tests sans options

33
PSRs et Options
  • Exemple Une grille de 99 nécessite
    (3-1)(3-1)(3-1)6 tests avec options

34
Quelques questions
  • Comment planifier avec les PSRs en connaissant
    seulement les tests de base, et sans connaitre
    les probabilités?
  • Comment planifier et construire le modèle en même
    temps?
  • Question théorique Cest quoi le nombre minimal
    de tests nécessaires pour représenter un
    environnement donné?

35
Références
  • James, M. R., Singh, S. (2004). Learning and
    discovery of predictive state representations in
    dynamical systems with reset. Proceedings of the
    21st International Conference on Machine Learning
    (ICML) (pp. 719726).
  • Littman, M., Sutton, R. S., Singh, S. (2002).
    Predictive representations of state. Advances in
    Neural Information Processing Systems 14 (NIPS)
    (pp. 15551561). MIT Press.
  • McCracken, P., Bowling, M. (2006). Online
    learning of predictive state representations.
    Advances in Neural Information Processing Systems
    18 (NIPS). MIT Press. To appear.
  • Singh, S., James, M. R., Rudary, M. R. (2004).
    Predictive state representations A new theory
    for modeling dynamical systems. Uncertainty in
    Artificial Intelligence Proceedings of the
    Twentieth Conference (UAI) (pp. 512519).
  • Singh, S., Littman, M., Jong, N., Pardoe, D.,
    Stone, P.(2003). Learning predictive state
    representations. Proceedings of the Twentieth
    International Conference on Machine Learning
    (ICML) (pp. 712719).
  • Wiewiora, E. (2005). Learning predictive
    representations from a history. Proceedings of
    the 22nd International Conference on Machine
    Learning (ICML) (pp. 969976).
  • Wolfe, B., James, M. R., Singh, S. (2005).
    Learning predictive state representations in
    dynamical systems without reset. Proceedings of
    the 22nd International Conference on Machine
    Learning (ICML) (pp. 985992).
  • Bowling, M., McCracken, P., James, M., Neufeld
    J., Wilkinson, D. (2006). Learning predictive
    state representations using non-blind polices.
    ICML 2006
Write a Comment
User Comments (0)
About PowerShow.com