- PowerPoint PPT Presentation

About This Presentation
Title:

Description:

Propension ne pas tomber en panne. Mesur e en nombre de pannes par unit de temps ... Syst me abstrait. Action de l 'environnement. R action du syst me. tude ... – PowerPoint PPT presentation

Number of Views:24
Avg rating:3.0/5.0
Slides: 54
Provided by: frdricd9
Category:
Tags: abstrait

less

Transcript and Presenter's Notes

Title:


1
Étude de l émergencede facultés
d apprentissagefiables et prédictiblesd action
s réflexes,à partir de modèles
paramétriquessoumis à des contraintes internes
Étude de l émergencede facultés
d apprentissagefiables et prédictiblesd action
s réflexes,à partir de modèles
paramétriquessoumis à des contraintes internes
Étude de l émergencede facultés
d apprentissagefiables et prédictiblesd action
s réflexes,à partir de modèles
paramétriquessoumis à des contraintes internes
Frédéric Davesne
sous la direction de Claude Barret
2
Mise en situation problème d ingénierie
  • On part d un exemple de système artificiel

Environnement
Schéma bloc usuel d un modèle d actions réflexes
traitement informatique
Introduction
capteurs
effecteurs
Système artificiel (robot miniature Khepera)
3
Mise en situation problème d ingénierie
  • Définitions

Introduction
4
Mise en situation problème d ingénierie
  • Traitement informatique

Environnement inconnu, modèles inconnus des
capteurs ou des effecteurs
Environnement contraint, modèle connu des
capteurs et des effecteurs
Le problème n est pas modélisable
traitement informatique
Le problème est modélisable
Introduction
Programmation d une relation fonctionnelle, dédui
te du calcul, entre capteurs et effecteurs
Programmation d  heuristiques, techniques
d apprentissage
?
?
prédictibilité, fiabilité
prédictibilité, fiabilité
5
Fondation de la thèse cœur du débat
  • Y-a-t-il un lien formel possible ?

Notre thèse Oui, théoriquement c est une
caractéristique majeure du vivant
Non, en pratique pour des techniques
d apprentissage usuelles
?
Introduction
fossé entre le vivant et l imitation du vivant
6
Objectif à long terme de la recherche
Spécifier un outil permettant de répondre à un
problème d ingénierie
Technique d apprentissage telle que
Prédictibilité de l apprentissage Fiabilité du
résultat d apprentissage
Introduction
En suivant une démarche intellectuelle classique
en sciences physiques et pas une
démarche d ingénierie
7
Travail de thèse
Introduction
8
1.1- Problème du pendule inversé
1
2
3
1- Constats expérimentaux
9
1.2- Apprentissage par renforcement
1
2
3
Utilisation d une technique d apprentissage par
renforcement Q(lambda) Peng1995, dérivée du
Q-Learning Watkins1989
1- Constats expérimentaux
Choix de a(t) au centre du dilemme
exploration/exploitation Réglage empirique pour
ce dilemme
10
Résultat classique d apprentissage
1
2
3
Résultat comparable à celui obtenu dans Barto et
al 1983
1- Constats expérimentaux
Résultat d apprentissage avec un critère
d arrêt peu exigent
MAIS ...
11
Avec des critères de réussite plus sévères
1
2
3
  • Premier exemple

1- Constats expérimentaux
Si on prolonge la durée d apprentissage ...
12
Avec des critères de réussite plus sévères
1
2
3
  • Deuxième exemple

1- Constats expérimentaux
On n aboutit pas à un modèle de répartition
stationnaire des durées de viabilité
13
Travail de thèse
1
2
3
Étude et application de techniques
d Apprentissage par Renforcement
1- Constats expérimentaux
Étude bibliographique exploratoire dans le
domaine du vivant
2- Postulats de travail
Choix d un modèle Étude mathématique
Algorithmes Résultats expérimentaux
3- Modélisation
Retour critique sur les postulats de travail
14
Rappel de la problématique
1
2
3
système ouvert, apprentissage/adaptation
2- Postulats de travail
fiabilité, prédictibilité
?
2.1- Démarche
pas de modèle a priori, incertitude
2.2- Nature de l apprentissage
2.3- Types d apprentissage
2.4- Nature de la perception
15
2.1- Nature de la démarche utilisée
1
2
3
  • Mise en cause du contexte d apprentissage

Traitement informatique
traitement informatique
effecteurs
Système apprenant
Environnement
capteurs
2- Postulats de travail
Effecteursf(capteurs)
Lien univoque
apprentissage
capteurs
effecteurs
Contexte d apprentissage
Paramètres ou heuristiques qui guident
l apprentissage, pré-traitement des données
16
2.1- Nature de la démarche utilisée
1
2
3
  • Ce que nous souhaitons

effecteurs
Système ouvert
Environnement
capteurs
interaction
2- Postulats de travail
Lien univoque
Contexte d apprentissage
L apprentissage doit pouvoir être déduit
exclusivement de l étude de l interaction
système/environnement
17
2.1- Nature de la démarche utilisée
1
2
3
  • La démarche que nous adoptons

1er Postulat Cette démarche permet d obtenir les
caractéristiques de fiabilité et de prédictibilité
Système abstrait Action de l environnement Réacti
on du système
Spécification de l interaction
2- Postulats de travail
Étude mathématique
Évolutions possibles du système
Recherche de propriétés émergentes du système
Interprétation
Expérimentations
Algorithmes
18
2.2- Nature de l apprentissage
1
2
3
  • Caractéristiques du système
  • soumis à des contraintes internes
  • structure déformable

2- Postulats de travail
19
2.2- Nature de l apprentissage
1
2
3
2ème Postulat L apprentissage est une
propriété émergente d un système soumis à des
contraintes internes vérifiées à chaque instant
  • Dynamique du système

Système ouvert
2- Postulats de travail
interaction
Environnement
La réaction du système doit le conduire à
respecter ses contraintes internes, quel que soit
l environnement
20
2.3- Types d apprentissage
1
2
3
3ème Postulat
Apprentissage Perceptif
Apprentissage d Objectif
2- Postulats de travail
temps
21
2.3- Types d apprentissage
1
2
3
  • Modèle à deux sous-systèmes

Sous-Système d apprentissage d Objectif (SSO)
état
action
environnement
2- Postulats de travail
Signal de renforcement
Sous-Système d apprentissage Perceptif (SSP)
état
Signaux (hormis renforcement)
22
2.3- Types dapprentissage
1
2
3
  • Pourquoi deux sous-systèmes ?
  • Associer à chaque problématique un sous-système
  • SSO apprentissage semi-supervisé (par
    renforcement)
  • SSP traitement du signal
  • Montrer la faisabilité de notre approche sur un
    cas solvable dans la durée d une thèse (SSO)
  • Attention !!!
  • Cela ne signifie pas que l action ne peut pas
    être utilisée dans la perception
  • Nous considérons le lien causal entre la
    formation de la perception et les capacités à
    effectuer des tâches

2- Postulats de travail
23
2.4- Nature de la perception
1
2
3
4ème Postulat
  • À chaque instant, la perception est le résultat
    d un processus d anticipation Berthoz
  • L anticipation est une propriété émergente d un
    système soumis à des contraintes internes
  • ce système est le résultat de l Apprentissage
    Perceptif
  • Ce qui est anticipé est la détection d un ou de
    plusieurs événements rares

2- Postulats de travail
24
2.4- Nature de la perception
1
2
3
  • Modèle de SSP

SSP
Processus de sélection (détecteur)
2- Postulats de travail
Signaux capteurs
État ? (perception)
Mémoire ? (anticipation)
h pas de temps
25
2.4- Nature de la perception
1
2
3
  • Rôle de la mémoire
  • Permet la détection d une structure ordonnée
  • ensemble d événements dont la probabilité
    d apparition est très faible
  • entropie associée très faible
  • non détection d une structure non ordonnée

Contraintes de SSP sappliquent sur la mémoire
2- Postulats de travail
La mémoire est définie a priori par un ensemble
dévénements détectables tel que la probabilité
dapparition dau moins un événement est très
faible
26
Travail de thèse
1
2
3
Étude et application de techniques
d Apprentissage par Renforcement
1- Constats expérimentaux
Étude bibliographique exploratoire dans le
domaine du vivant
2- Postulats de travail
3- Modélisation
Retour critique sur les postulats de travail
27
3- Modélisation
1
2
3
état
action
environnement
SSO
Signal de renforcement
SSP
état
Signaux (hormis renforcement)
3.1- étude complète de SSO
3.2- spécification du sous-système SSP
28
3.1.1- Application de notre démarche à SSO
1
2
3 3.1
  • Spécification préliminaires
  • système
  • contraintes internes
  • mécanisme d action et de réaction
  • Résultats théoriques
  • Algorithmes
  • Expérimentations

3.1- Modélisation - SSO
29
3.1.2- Spécification du sous-système SS2
1
2
3 3.1
  • Exemple 4 états et 2 actions a et b

e1,a
e1,b
e2,b
e2,a
État actif
action
e2
3.1- Modélisation - SSO
e1
(e1,e2,e3,e4)
e4,a
e4,b
(a,b)
e3,a
e3,b
Renforcement
(1,-1,0)
e4
e3
État ei possédant un marquage Mi
État transitoire ei,k étatchoix d une action,
marquage Mi,k (Q-value)
État terminal de marquage 1
État terminal de marquage -1
30
3.1.3- Action - contraintes - réaction
1
2
3 3.1
  • Action de l environnement sur SSO
  • création de transitions entre les ei,k et les ei
  • Contraintes appliquées à SSO
  • relient les valeurs des marquages Mi des états ei
    et des marquages Mi,k des états transitoires ei,k
  • Réaction de SSO
  • modification des marquages Mi et Mi,k (phase de
    propagation)

3.1- Modélisation - SSO
31
3.1.4- Dynamique de SSO
1
2
3 3.1
  • Exemple d évolution de SSO

e1,a
e1,b
e2,b
e2,a
État actif
action
e2
3.1- Modélisation - SSO
e1
e4,a
e4,b
e3,a
e3,b
Renforcement
e4
e3
32
3.1.5- Résultats théoriques
1
2
3 3.1
  • Dans tous les cas, la phase de propagation se
    termine et conduit à un respect des contraintes
  • Sous certaines conditions, la valeur des
    marquages Mi est interprétable en termes de
    fiabilité du système
  • Au bout d un temps fini, la valeur des marquages
    reste inchangée si l environnement ne varie pas
  • Si on choisit une politique de choix d action
     Winner Take All , l évolution du comportement
    du système SSO peut être interprétée comme un
    apprentissage

3.1- Modélisation - SSO
33
3.1.6- Algorithme CbL
1
2
3 3.1
Réception de létat initial ei du sous-système SSO
3.1- Modélisation - SSO
Choix dune action ak et exécution
jusquà détection dun changement détat ej
oui
La transition ei,k/ej existe-t-elle ?
non
Si ej terminal
Si ej terminal
Création de la transition Phase de propagation
Fin
Fin
34
3.1.7- Résultats expérimentaux
1
2
3 3.1
  • Problème jouet du labyrinthe

Un état une case 4 actions haut, bas,
gauche, droite renforcement 1 atteinte
objectif -1 cogne mur 0 sinon
3.1- Modélisation - SSO
35
3.1.7- Résultats expérimentaux
1
2
3 3.1
  • Premier essai d apprentissage
  • Politique de commande
  • après apprentissage

3.1- Modélisation - SSO
Optimalité ???
Dans ce cas, oui !
36
3.1.7- Résultats expérimentaux
1
2
3 3.1
  • Premier essai d apprentissage (suite)

3.1- Modélisation - SSO
Optimalité ???
Dans ce cas, non Mais il ne s agit pas de notre
objectif !
37
3.1.7- Résultats expérimentaux
1
2
3 3.1
  • Comportement de l algorithme CbL

exploration
exploitation
exploration
exploitation
3.1- Modélisation - SSO
Phase de propagation
Performance du système
Découverte de la cible
Découverte de la cible
38
3.1.7- Résultats expérimentaux
1
2
3 3.1
  • Incrémentalité de CbL

3.1- Modélisation - SSO
39
3.1.8- Comparaison avec les techniques dAR
1
2
3 3.1
  • modification des Q-values uniquement lorsque une
    nouvelle transition est découverte
  • séparation nette entre phase d exploration et
    phase d exploitation (au moment de la découverte
    d une cible)
  • l optimalité est garantie si la phase
    d exploration est exhaustive avant la découverte
    d une cible
  • temps de convergence très inférieur pour CbL
  • la notion de trace est induite par la propagation
    qui suit un rétablissement des contraintes
    internes

3.1- Modélisation - SSO
40
3.1.9- Conclusion
1
2
3 3.1
  • faisabilité de notre démarche intellectuelle
  • obtention d un algorithme CbL de bonne qualité
  • très simple à mettre en Å“uvre, pas de paramètres
    à régler

3.1- Modélisation - SSO
41
3- Modélisation
1
2
3
état
action
environnement
SSO
Signal de renforcement
SSP
état
Signaux (hormis renforcement)
3.1- étude complète de SSO
3.2- spécification du sous-système SSP
42
3.2- Rappel du modèle de SSP
1
2
3 3.2
  • En suivant le 4ème postulat

SSP
Processus de sélection (détecteur)
3.1- Modélisation - SSO
Signaux capteurs
État ? (perception)
Mémoire ? (anticipation)
h pas de temps
43
3.2.1- Application de notre démarche à SSP
1
2
3 3.2
  • Cas d un SSP avec une mémoire à un événement
  • constitution de la mémoire, condition de
    détection de l événement
  • résultats théoriques
  • Cas d un SSP avec une mémoire contenant un
    ensemble paramétrisable d éléments
  • exemple de mémoire
  • résolution du problème de détection

3.1- Modélisation - SSO
44
3.2.2- Cas dune mémoire à un événément
1
2
3 3.2
  • Constitution de la mémoire
  • les paramètres
  • fonction f continue par morceaux, à valeurs dans
    0,1
  • trois paramètres l, h et i
  • événement à détecter
  • au plus i valeurs du signal X à l extérieur du
    cylindre

3.2- Modélisation - SSP
f
cylindre de génératrice f, de section l et
de longueur h
45
3.2.2- Cas dune mémoire à un événément
1
2
3 3.2
  • Résultats théoriques
  • théorème d existence
  • pour une probabilité fixée, on montre que sous
    certaines conditions, il existe des triplets
    (h,i,l) admissibles.
  • équivalent du théorème de Shannon sur
    l échantillonnage
  • pour un signal fixé et une probabilité donnée, il
    existe un nombre h de points minimum, en dessous
    duquel aucun triplet (h,i,l) n est admissible
  • Extension à une mémoire composée d événements
    non détectables simultanément

3.2- Modélisation - SSP
46
3.2.3- Cas où les génératrices sont des fonctions
paramétriques
1
2
3 3.2
  • Théorie nous conjecturons des résultats
    similaires aux précédents
  • Sélection résolution numérique d un problème
    inverse pour un système de h inéquations
  • analyse par intervalles
  • algorithme SIVIA (Walter et Jaulin)
  • adapté à notre problématique détection ssi au
    moins h-i inéquations satisfaites
  • garantit d encadrer l ensemble des solutions

3.2- Modélisation - SSP
47
3.2.3- Cas où les génératrices sont des fonctions
paramétriques
1
2
3 3.2
  • Exemple une génératrice une droite de
    paramètres a et b

3.2- Modélisation - SSP
48
3.2.3- Cas où les génératrices sont des fonctions
paramétriques
1
2
3 3.2
  • Évolution de la sélection pour un signal carré et
    signal de densité gaussienne bi-modale

Réponse à un signal carré
Réponse à un signal stationnaire de densité
gaussienne bi-modale
3.2- Modélisation - SSP
2 états
1 état
49
Conclusion
théorique
Élaboration d une base de travail
Validation
expérimentale
  • Formalisation du respect des contraintes
  • Étude de la dynamique du système apprenant
  • interaction entre le système apprenant et son
    environnement
  • Déduction des propriétés émergentes potentielles
  • apprentissage

Une méthodologie Un modèle paramétrique à deux
niveaux de l apprentissage d actions
réflexes apprentissage d objectif
(AO) apprentissage perceptif (AP) Des contraintes
associées à ce modèle
Algorithmes de résolution des problèmes à
contraintes Applications de l algorithme
d AO problème jouet robot mobile simulé étude a
posteriori du comportement du système apprenant
50
Conclusion
  • Idées fortes
  • remplacer la mesure par la détection
    d événements
  • pour SSO détection d une nouvelle transition
  • pour SSP pour la catégorisation
  • remplacer la précision par la fiabilité
  • grâce à l utilisation de contraintes dont on
    exprime les effets par le calcul

51
Perspectives première étape
  • Système perceptif, signal mono-dimensionnel
  • équilibre de SSP savoir détecter si les
    contraintes sont respectées ou non
  • point de vue théorique (conjectures à démontrer)
  • point de vue algorithmique
  • dynamique de SSP établir le mécanisme
    d apprentissage perceptif
  • modification des génératrices de E pour
     coller  à l expérience réelle (emploi de
    réseaux de neurones pour créer des génératrices
     adéquates )
  • attention !!! Cela doit se faire à entropie bornée

52
Perspectives deuxième étape
  • Système perceptif, signal multi-dimensionnel
  • généralisation à partir de l étude d un SSP
  • utilisation d un unique capteur déplaçable dans
    l espace
  • contrôler les mouvements de ce capteur pour
    intervenir sur la récupération de données de
    celui-ci
  • problème critère de sélection des actions pour
    constituer le mouvement
  • exemple d inspiration saccades occulaires

53
Fin de l exposé !
Write a Comment
User Comments (0)
About PowerShow.com