Title:
1Étude de l émergencede facultés
d apprentissagefiables et prédictiblesd action
s réflexes,à partir de modèles
paramétriquessoumis à des contraintes internes
Étude de l émergencede facultés
d apprentissagefiables et prédictiblesd action
s réflexes,à partir de modèles
paramétriquessoumis à des contraintes internes
Étude de l émergencede facultés
d apprentissagefiables et prédictiblesd action
s réflexes,à partir de modèles
paramétriquessoumis à des contraintes internes
Frédéric Davesne
sous la direction de Claude Barret
2 Mise en situation problème d ingénierie
- On part d un exemple de système artificiel
Environnement
Schéma bloc usuel d un modèle d actions réflexes
traitement informatique
Introduction
capteurs
effecteurs
Système artificiel (robot miniature Khepera)
3 Mise en situation problème d ingénierie
Introduction
4Mise en situation problème d ingénierie
Environnement inconnu, modèles inconnus des
capteurs ou des effecteurs
Environnement contraint, modèle connu des
capteurs et des effecteurs
Le problème n est pas modélisable
traitement informatique
Le problème est modélisable
Introduction
Programmation d une relation fonctionnelle, dédui
te du calcul, entre capteurs et effecteurs
Programmation d  heuristiques, techniques
d apprentissage
?
?
prédictibilité, fiabilité
prédictibilité, fiabilité
5Fondation de la thèse cœur du débat
- Y-a-t-il un lien formel possible ?
Notre thèse Oui, théoriquement c est une
caractéristique majeure du vivant
Non, en pratique pour des techniques
d apprentissage usuelles
?
Introduction
fossé entre le vivant et l imitation du vivant
6Objectif à long terme de la recherche
Spécifier un outil permettant de répondre à un
problème d ingénierie
Technique d apprentissage telle que
Prédictibilité de l apprentissage Fiabilité du
résultat d apprentissage
Introduction
En suivant une démarche intellectuelle classique
en sciences physiques et pas une
démarche d ingénierie
7Travail de thèse
Introduction
81.1- Problème du pendule inversé
1
2
3
1- Constats expérimentaux
91.2- Apprentissage par renforcement
1
2
3
Utilisation d une technique d apprentissage par
renforcement Q(lambda) Peng1995, dérivée du
Q-Learning Watkins1989
1- Constats expérimentaux
Choix de a(t) au centre du dilemme
exploration/exploitation Réglage empirique pour
ce dilemme
10Résultat classique d apprentissage
1
2
3
Résultat comparable à celui obtenu dans Barto et
al 1983
1- Constats expérimentaux
Résultat d apprentissage avec un critère
d arrêt peu exigent
MAIS ...
11Avec des critères de réussite plus sévères
1
2
3
1- Constats expérimentaux
Si on prolonge la durée d apprentissage ...
12Avec des critères de réussite plus sévères
1
2
3
1- Constats expérimentaux
On n aboutit pas à un modèle de répartition
stationnaire des durées de viabilité
13Travail de thèse
1
2
3
Étude et application de techniques
d Apprentissage par Renforcement
1- Constats expérimentaux
Étude bibliographique exploratoire dans le
domaine du vivant
2- Postulats de travail
Choix d un modèle Étude mathématique
Algorithmes Résultats expérimentaux
3- Modélisation
Retour critique sur les postulats de travail
14Rappel de la problématique
1
2
3
système ouvert, apprentissage/adaptation
2- Postulats de travail
fiabilité, prédictibilité
?
2.1- Démarche
pas de modèle a priori, incertitude
2.2- Nature de l apprentissage
2.3- Types d apprentissage
2.4- Nature de la perception
152.1- Nature de la démarche utilisée
1
2
3
- Mise en cause du contexte d apprentissage
Traitement informatique
traitement informatique
effecteurs
Système apprenant
Environnement
capteurs
2- Postulats de travail
Effecteursf(capteurs)
Lien univoque
apprentissage
capteurs
effecteurs
Contexte d apprentissage
Paramètres ou heuristiques qui guident
l apprentissage, pré-traitement des données
162.1- Nature de la démarche utilisée
1
2
3
effecteurs
Système ouvert
Environnement
capteurs
interaction
2- Postulats de travail
Lien univoque
Contexte d apprentissage
L apprentissage doit pouvoir être déduit
exclusivement de l étude de l interaction
système/environnement
172.1- Nature de la démarche utilisée
1
2
3
- La démarche que nous adoptons
1er Postulat Cette démarche permet d obtenir les
caractéristiques de fiabilité et de prédictibilité
Système abstrait Action de l environnement Réacti
on du système
Spécification de l interaction
2- Postulats de travail
Étude mathématique
Évolutions possibles du système
Recherche de propriétés émergentes du système
Interprétation
Expérimentations
Algorithmes
182.2- Nature de l apprentissage
1
2
3
- Caractéristiques du système
- soumis à des contraintes internes
- structure déformable
2- Postulats de travail
192.2- Nature de l apprentissage
1
2
3
2ème Postulat L apprentissage est une
propriété émergente d un système soumis à des
contraintes internes vérifiées à chaque instant
Système ouvert
2- Postulats de travail
interaction
Environnement
La réaction du système doit le conduire Ã
respecter ses contraintes internes, quel que soit
l environnement
202.3- Types d apprentissage
1
2
3
3ème Postulat
Apprentissage Perceptif
Apprentissage d Objectif
2- Postulats de travail
temps
212.3- Types d apprentissage
1
2
3
- Modèle à deux sous-systèmes
Sous-Système d apprentissage d Objectif (SSO)
état
action
environnement
2- Postulats de travail
Signal de renforcement
Sous-Système d apprentissage Perceptif (SSP)
état
Signaux (hormis renforcement)
222.3- Types dapprentissage
1
2
3
- Pourquoi deux sous-systèmes ?
- Associer à chaque problématique un sous-système
- SSO apprentissage semi-supervisé (par
renforcement) - SSP traitement du signal
- Montrer la faisabilité de notre approche sur un
cas solvable dans la durée d une thèse (SSO) - Attention !!!
- Cela ne signifie pas que l action ne peut pas
être utilisée dans la perception - Nous considérons le lien causal entre la
formation de la perception et les capacités Ã
effectuer des tâches
2- Postulats de travail
232.4- Nature de la perception
1
2
3
4ème Postulat
- À chaque instant, la perception est le résultat
d un processus d anticipation Berthoz - L anticipation est une propriété émergente d un
système soumis à des contraintes internes - ce système est le résultat de l Apprentissage
Perceptif - Ce qui est anticipé est la détection d un ou de
plusieurs événements rares
2- Postulats de travail
242.4- Nature de la perception
1
2
3
SSP
Processus de sélection (détecteur)
2- Postulats de travail
Signaux capteurs
État ? (perception)
Mémoire ? (anticipation)
h pas de temps
252.4- Nature de la perception
1
2
3
- Rôle de la mémoire
- Permet la détection d une structure ordonnée
- ensemble d événements dont la probabilité
d apparition est très faible - entropie associée très faible
- non détection d une structure non ordonnée
Contraintes de SSP sappliquent sur la mémoire
2- Postulats de travail
La mémoire est définie a priori par un ensemble
dévénements détectables tel que la probabilité
dapparition dau moins un événement est très
faible
26Travail de thèse
1
2
3
Étude et application de techniques
d Apprentissage par Renforcement
1- Constats expérimentaux
Étude bibliographique exploratoire dans le
domaine du vivant
2- Postulats de travail
3- Modélisation
Retour critique sur les postulats de travail
273- Modélisation
1
2
3
état
action
environnement
SSO
Signal de renforcement
SSP
état
Signaux (hormis renforcement)
3.1- étude complète de SSO
3.2- spécification du sous-système SSP
283.1.1- Application de notre démarche à SSO
1
2
3 3.1
- Spécification préliminaires
- système
- contraintes internes
- mécanisme d action et de réaction
- Résultats théoriques
- Algorithmes
- Expérimentations
3.1- Modélisation - SSO
293.1.2- Spécification du sous-système SS2
1
2
3 3.1
- Exemple 4 états et 2 actions a et b
e1,a
e1,b
e2,b
e2,a
État actif
action
e2
3.1- Modélisation - SSO
e1
(e1,e2,e3,e4)
e4,a
e4,b
(a,b)
e3,a
e3,b
Renforcement
(1,-1,0)
e4
e3
État ei possédant un marquage Mi
État transitoire ei,k étatchoix d une action,
marquage Mi,k (Q-value)
État terminal de marquage 1
État terminal de marquage -1
303.1.3- Action - contraintes - réaction
1
2
3 3.1
- Action de l environnement sur SSO
- création de transitions entre les ei,k et les ei
- Contraintes appliquées à SSO
- relient les valeurs des marquages Mi des états ei
et des marquages Mi,k des états transitoires ei,k - Réaction de SSO
- modification des marquages Mi et Mi,k (phase de
propagation)
3.1- Modélisation - SSO
313.1.4- Dynamique de SSO
1
2
3 3.1
- Exemple d évolution de SSO
e1,a
e1,b
e2,b
e2,a
État actif
action
e2
3.1- Modélisation - SSO
e1
e4,a
e4,b
e3,a
e3,b
Renforcement
e4
e3
323.1.5- Résultats théoriques
1
2
3 3.1
- Dans tous les cas, la phase de propagation se
termine et conduit à un respect des contraintes - Sous certaines conditions, la valeur des
marquages Mi est interprétable en termes de
fiabilité du système - Au bout d un temps fini, la valeur des marquages
reste inchangée si l environnement ne varie pas - Si on choisit une politique de choix d action
 Winner Take All , l évolution du comportement
du système SSO peut être interprétée comme un
apprentissage
3.1- Modélisation - SSO
333.1.6- Algorithme CbL
1
2
3 3.1
Réception de létat initial ei du sous-système SSO
3.1- Modélisation - SSO
Choix dune action ak et exécution
jusquà détection dun changement détat ej
oui
La transition ei,k/ej existe-t-elle ?
non
Si ej terminal
Si ej terminal
Création de la transition Phase de propagation
Fin
Fin
343.1.7- Résultats expérimentaux
1
2
3 3.1
- Problème jouet du labyrinthe
Un état une case 4 actions haut, bas,
gauche, droite renforcement 1 atteinte
objectif -1 cogne mur 0 sinon
3.1- Modélisation - SSO
353.1.7- Résultats expérimentaux
1
2
3 3.1
- Premier essai d apprentissage
- Politique de commande
- après apprentissage
3.1- Modélisation - SSO
Optimalité ???
Dans ce cas, oui !
363.1.7- Résultats expérimentaux
1
2
3 3.1
- Premier essai d apprentissage (suite)
3.1- Modélisation - SSO
Optimalité ???
Dans ce cas, non Mais il ne s agit pas de notre
objectif !
373.1.7- Résultats expérimentaux
1
2
3 3.1
- Comportement de l algorithme CbL
exploration
exploitation
exploration
exploitation
3.1- Modélisation - SSO
Phase de propagation
Performance du système
Découverte de la cible
Découverte de la cible
383.1.7- Résultats expérimentaux
1
2
3 3.1
3.1- Modélisation - SSO
393.1.8- Comparaison avec les techniques dAR
1
2
3 3.1
- modification des Q-values uniquement lorsque une
nouvelle transition est découverte - séparation nette entre phase d exploration et
phase d exploitation (au moment de la découverte
d une cible) - l optimalité est garantie si la phase
d exploration est exhaustive avant la découverte
d une cible - temps de convergence très inférieur pour CbL
- la notion de trace est induite par la propagation
qui suit un rétablissement des contraintes
internes
3.1- Modélisation - SSO
403.1.9- Conclusion
1
2
3 3.1
- faisabilité de notre démarche intellectuelle
- obtention d un algorithme CbL de bonne qualité
- très simple à mettre en œuvre, pas de paramètres
à régler
3.1- Modélisation - SSO
413- Modélisation
1
2
3
état
action
environnement
SSO
Signal de renforcement
SSP
état
Signaux (hormis renforcement)
3.1- étude complète de SSO
3.2- spécification du sous-système SSP
423.2- Rappel du modèle de SSP
1
2
3 3.2
- En suivant le 4ème postulat
SSP
Processus de sélection (détecteur)
3.1- Modélisation - SSO
Signaux capteurs
État ? (perception)
Mémoire ? (anticipation)
h pas de temps
433.2.1- Application de notre démarche à SSP
1
2
3 3.2
- Cas d un SSP avec une mémoire à un événement
- constitution de la mémoire, condition de
détection de l événement - résultats théoriques
- Cas d un SSP avec une mémoire contenant un
ensemble paramétrisable d éléments - exemple de mémoire
- résolution du problème de détection
3.1- Modélisation - SSO
443.2.2- Cas dune mémoire à un événément
1
2
3 3.2
- Constitution de la mémoire
- les paramètres
- fonction f continue par morceaux, Ã valeurs dans
0,1 - trois paramètres l, h et i
- événement à détecter
- au plus i valeurs du signal X à l extérieur du
cylindre
3.2- Modélisation - SSP
f
cylindre de génératrice f, de section l et
de longueur h
453.2.2- Cas dune mémoire à un événément
1
2
3 3.2
- Résultats théoriques
- théorème d existence
- pour une probabilité fixée, on montre que sous
certaines conditions, il existe des triplets
(h,i,l) admissibles. - équivalent du théorème de Shannon sur
l échantillonnage - pour un signal fixé et une probabilité donnée, il
existe un nombre h de points minimum, en dessous
duquel aucun triplet (h,i,l) n est admissible - Extension à une mémoire composée d événements
non détectables simultanément
3.2- Modélisation - SSP
463.2.3- Cas où les génératrices sont des fonctions
paramétriques
1
2
3 3.2
- Théorie nous conjecturons des résultats
similaires aux précédents - Sélection résolution numérique d un problème
inverse pour un système de h inéquations - analyse par intervalles
- algorithme SIVIA (Walter et Jaulin)
- adapté à notre problématique détection ssi au
moins h-i inéquations satisfaites - garantit d encadrer l ensemble des solutions
3.2- Modélisation - SSP
473.2.3- Cas où les génératrices sont des fonctions
paramétriques
1
2
3 3.2
- Exemple une génératrice une droite de
paramètres a et b
3.2- Modélisation - SSP
483.2.3- Cas où les génératrices sont des fonctions
paramétriques
1
2
3 3.2
- Évolution de la sélection pour un signal carré et
signal de densité gaussienne bi-modale
Réponse à un signal carré
Réponse à un signal stationnaire de densité
gaussienne bi-modale
3.2- Modélisation - SSP
2 états
1 état
49Conclusion
théorique
Élaboration d une base de travail
Validation
expérimentale
- Formalisation du respect des contraintes
- Étude de la dynamique du système apprenant
- interaction entre le système apprenant et son
environnement - Déduction des propriétés émergentes potentielles
- apprentissage
Une méthodologie Un modèle paramétrique à deux
niveaux de l apprentissage d actions
réflexes apprentissage d objectif
(AO) apprentissage perceptif (AP) Des contraintes
associées à ce modèle
Algorithmes de résolution des problèmes Ã
contraintes Applications de l algorithme
d AO problème jouet robot mobile simulé étude a
posteriori du comportement du système apprenant
50Conclusion
- Idées fortes
- remplacer la mesure par la détection
d événements - pour SSO détection d une nouvelle transition
- pour SSP pour la catégorisation
- remplacer la précision par la fiabilité
- grâce à l utilisation de contraintes dont on
exprime les effets par le calcul
51Perspectives première étape
- Système perceptif, signal mono-dimensionnel
- équilibre de SSP savoir détecter si les
contraintes sont respectées ou non - point de vue théorique (conjectures à démontrer)
- point de vue algorithmique
- dynamique de SSP établir le mécanisme
d apprentissage perceptif - modification des génératrices de E pour
 coller à l expérience réelle (emploi de
réseaux de neurones pour créer des génératrices
 adéquates ) - attention !!! Cela doit se faire à entropie bornée
52Perspectives deuxième étape
- Système perceptif, signal multi-dimensionnel
- généralisation à partir de l étude d un SSP
- utilisation d un unique capteur déplaçable dans
l espace - contrôler les mouvements de ce capteur pour
intervenir sur la récupération de données de
celui-ci - problème critère de sélection des actions pour
constituer le mouvement - exemple d inspiration saccades occulaires
53Fin de l exposé !