Apprentissage supervis - PowerPoint PPT Presentation

1 / 34
About This Presentation
Title:

Apprentissage supervis

Description:

Title: Pr sentation PowerPoint Author: Antoine CORNU JOLS Last modified by: Marie-Christine Jaulent Created Date: 9/20/2002 9:46:23 AM Document presentation format – PowerPoint PPT presentation

Number of Views:225
Avg rating:3.0/5.0
Slides: 35
Provided by: Antoin58
Category:

less

Transcript and Presenter's Notes

Title: Apprentissage supervis


1
Apprentissage supervisé et non supervisé sur
les données INDANA
  • A. Cornuéjols (LRI)
  • Éric Bréchemier, Claire Lequeux
  • Matthieu Manceny Natanel Sadres (CNAM-IIE)

2
Apprentissage supervisé avec ré-équilibrage
  • Utilisation de différents algorithmes
    dapprentissage supervisé disponibles sur Weka
  • J48.48 (arbre de décision)
  • PMC (Perceptron Multi-Couche)
  • SVM
  • Boosting (sauf sur PMC)
  • Avec techniques de ré-équilibrage des classes
    event / event
  • Par matrice de coûts
  • Par bruitage des données event

3
Résultats (avec matrice de coûts)
  • Utilisation de matrices de coût
  • Option minimizeExpectedCostFalse de weka
  • Courbe ROC-like

(0,834 )
4
Résultats (avec matrice de coûts)
5
Résultats (avec bruitage)
  • 1ère méthode

bruitage, x10
event event
base dapprentissage
Validation croisée (10 x)
  • Bruitage
  • Un seul attribut numérique
  • 10

6
Résultats (avec bruitage)
7
Résultats (avec bruitage) (2)
  • 2ème méthode

bruitage, x15
2/3 event (71) 1/2 event (1062)
base dapprentissage
Test sur les (1/3 event / 1/2 event) restants
  • Même bruit

8
Résultats (avec bruitage) (2)
9
Perspectives
  • Améliorer le bruitage
  • Bruit gaussien
  • Simultanément sur plusieurs attributs
  • Y compris sur attributs symboliques
  • Avec dépendance sur la nature des attributs
  • Modifier le protocole

10
EM sur les données INDANA
  • Motivation
  • Essayer de faire de la régression malgré
    labsence détiquette temporelle (deathcv) après
    délai seuil ( 6 ans)
  • Démarche
  • Sappuyer sur une méthode dapprentissage
    semi-supervisée EM
  • La développer pour le cas de la régression sans
    étiquette temporelle

11
EM sur les données INDANA
  • Résultats
  • Lextension de EM à la régression est conçue
  • Mais lobtention de résultats requiert
  • avoir lenveloppe temporelle des dates de décès
    pour la population générale
  • que des classes de patients se dégagent
    suffisamment clairement dans les données
    étiquetées
  • Étapes
  • Développer EM standard et chercher des groupes de
    données dans les données étiquetées
  • Tester le nouvel algorithme sur des données
    artificielles
  • Lessayer sur les données INDANA

12
Rappels sur EM
  • Expectation/Maximization
  • Algorithme destimation de maximum de
    vraisemblance par itération successive de deux
    étapes
  • Introduit par Dempster, Laird et Rubin en 1978

13
Le principe du maximum de vraisemblance
  • Soit S x1,x2, , xm un échantillon de données
  • gouverné par une distribution pX(xq)
  • Alors par hypothèse i.i.d.

On cherche
ou encore
14
Le principe du maximum de vraisemblance
  • Parfois facile à résoudre
  • E.g. estimation dune seule gaussienne (??,
    s2)
  • Parfois difficile
  • Augmentation de données

15
ML par EM
  • On suppose
  • Sobs xobs1,xobs2,,xobsm un échantillon de
    données observées
  • Sc xc1,xc2,,xcm un échantillon
    correspondant de données cachées
  • St (Sobs, Sc) (xobs1, xc1), (xobs2,
    xc2),,(xobsm, xcm) les données totales

?
Fonction de vraisemblance des données totales
Variable aléatoire car Sc est inconnue et
gouvernée par une distribution cachée
16
ML par EM
  • On cherche donc
  • Mais L(qSobs,Sc) est une variable aléatoire en
    Sc
  • On va donc éliminer ce caractère aléatoire en
    passant par lespérance de L(qSobs,Sc) (ou de
    son logarithme)
  • par rapport aux données cachées
  • Ed. les données observées et lestimation
    courante du paramètre q

17
Lalgorithme EM
Initialisation de q0 et de Sc
  • Étape dexpectation (E_étape)
  • Étape de maximisation (M_étape)

k k1 jusquà convergence
18
Lalgorithme EM
  • EM intéressant seulement si Q(q,q) est plus
    facile à calculer que L(qS)
  • Les étapes E et M
  • Ne sont pas toujours faciles à calculer (mais
    généralement plus faciles que L(qS) )
  • Mais ont une solution analytique pour une grande
    famille de fonctions paramétrées (e.g. les
    distributions exponentielles)
  • Mélanges de gaussiennes
  • HMMs

19
EM l  intuition 
0.1
0.3
0.5
0.7
0.9
E
E
M
Paramètres des modèles
Étape_M
Contours de la log-vraisemblance de la
probabilité jointe p(q,Sc)
Étape_E
Paramètres des données complètes
20
EM Cas des mélanges de gaussiennes
  • On suppose un mélange de N gaussiennes
  • La log-vraisemblance des données incomplètes est
    alors
  • qui est très difficile à optimiser

21
EM Cas des mélanges de gaussiennes
  • On augmente les données en ajoutant un ensemble
    de variables latentes
  • Chaque xci correspond à la responsabilité
    présumée de la gaussienne xci ? 1,,N pour la
    donnée

22
EM Cas des mélanges de gaussiennes
  • Après calculs ()

23
Application de EM aux mélanges de Gaussiennes
  • Soit le relevé des tailles dun échantillon de
    personnes
  • Sexplique-t-il par un mélange de gaussiennes ?

24
Application de EM aux mélanges de Gaussiennes
  • Résultat de EM après 10 itérations

25
Application de EM aux données INDANA
  • Problèmes
  • Données en dimension gt 2
  • Nécessite des calculs de
  • vecteurs moyenne
  • de variance (matrice de variance-covariance)
  • décart-type (racine carrée de matrice
    décomposition par méthode de Cholesky)
  • Malédiction de la dimensionnalité croissance
    exponentielle du nombre de données requis en fct
    du nb de dimensions
  • Des attributs numériques et symboliques
  • on traite les attributs symboliques comme des
    attributs numériques
  • Des problèmes de calcul dues aux probabilités
    très faibles
  • Organiser les calculs
  • Beaucoup de tests en cours déxécution

26
Application de EM aux données INDANA
  • Problèmes généraux
  • Initialisation des gaussiennes
  • Initialisation centrée, puis
  • Placement itératif des N gaussiennes
  • Choix du nombre de Gaussiennes
  • Méthode par dichotomie successive
  • Mesure de la qualité du mélange obtenu (pour
    arrêter lalgorithme)
  • Mesure de précision de Gaussienne
  • La max des écart-types de G1 max des
    écart-types de G2
  • Mieux vaut des Gaussiennes précises
  • Mais plus de Gaussiennes gt plus de précision
  • Mesure de proximité entre Gaussiennes
  • On mesure d(i,j) maxp(centre GiGj), p(centre
    GiGj)
  • Les Gaussiennes sont dautant plus éloignées que
    cette mesure est faible
  • On estime que les Gaussiennes Gi et Gj sont
    légitimes si d(i,j) 0

27
Application de EM aux données INDANA
  • Initialisation des Gaussiennes

28
Application de EM aux données INDANA
  • Initialisation des Gaussiennes

29
Expériences réalisées
  • Sur la 1ère base 2230 patients
  • Chaque variable a été bruitée avec une loi
    normale décart-type 0.1
  • Expériences répétées 5 fois (pour vérifier la
    stabilité)
  • Pour 2, 3, 5 et 10 gaussiennes
  • Mise en œuvre
  • Initialisation telle que décrit plus haut
  • Attribution stochastique des classes dans létape
    E

30
EM sur INDANA résultats (2 classes)
  • Deux Gaussiennes

31
EM sur INDANA résultats (3 classes)
32
EM sur INDANA résultats (5 classes)
33
EM sur INDANA résultats (10 classes)
34
EM sur INDANA bilan
  • Précautions
  • Résultats à confirmer
  • Il faudrait répéter davantage les expériences
  • Tester sur le reste des données INDANA
  • Perspectives
  • Les classes  aberrantes  correspondent-elles à
    un phénomène intéressant?
  • de protection naturelle (origine génétique)
    contre AVC ?
  • ?
  • EM pour la régression
  • Espoir très faible (avec ce type de données)
Write a Comment
User Comments (0)
About PowerShow.com