Title: Apprentissage supervis
1Apprentissage supervisé et non supervisé sur
les données INDANA
- A. Cornuéjols (LRI)
- Éric Bréchemier, Claire Lequeux
- Matthieu Manceny Natanel Sadres (CNAM-IIE)
2Apprentissage supervisé avec ré-équilibrage
- Utilisation de différents algorithmes
dapprentissage supervisé disponibles sur Weka - J48.48 (arbre de décision)
- PMC (Perceptron Multi-Couche)
- SVM
- Boosting (sauf sur PMC)
- Avec techniques de ré-équilibrage des classes
event / event - Par matrice de coûts
- Par bruitage des données event
3Résultats (avec matrice de coûts)
- Utilisation de matrices de coût
- Option minimizeExpectedCostFalse de weka
- Courbe ROC-like
(0,834 )
4Résultats (avec matrice de coûts)
5Résultats (avec bruitage)
bruitage, x10
event event
base dapprentissage
Validation croisée (10 x)
- Bruitage
- Un seul attribut numérique
- 10
6Résultats (avec bruitage)
7Résultats (avec bruitage) (2)
bruitage, x15
2/3 event (71) 1/2 event (1062)
base dapprentissage
Test sur les (1/3 event / 1/2 event) restants
8Résultats (avec bruitage) (2)
9Perspectives
- Améliorer le bruitage
- Bruit gaussien
- Simultanément sur plusieurs attributs
- Y compris sur attributs symboliques
- Avec dépendance sur la nature des attributs
- Modifier le protocole
10EM sur les données INDANA
- Motivation
- Essayer de faire de la régression malgré
labsence détiquette temporelle (deathcv) après
délai seuil ( 6 ans) - Démarche
- Sappuyer sur une méthode dapprentissage
semi-supervisée EM - La développer pour le cas de la régression sans
étiquette temporelle
11EM sur les données INDANA
- Résultats
- Lextension de EM à la régression est conçue
- Mais lobtention de résultats requiert
- avoir lenveloppe temporelle des dates de décès
pour la population générale - que des classes de patients se dégagent
suffisamment clairement dans les données
étiquetées - Étapes
- Développer EM standard et chercher des groupes de
données dans les données étiquetées - Tester le nouvel algorithme sur des données
artificielles - Lessayer sur les données INDANA
12Rappels sur EM
- Expectation/Maximization
- Algorithme destimation de maximum de
vraisemblance par itération successive de deux
étapes - Introduit par Dempster, Laird et Rubin en 1978
13Le principe du maximum de vraisemblance
- Soit S x1,x2, , xm un échantillon de données
- gouverné par une distribution pX(xq)
- Alors par hypothèse i.i.d.
On cherche
ou encore
14Le principe du maximum de vraisemblance
- Parfois facile à résoudre
- E.g. estimation dune seule gaussienne (??,
s2) - Parfois difficile
- Augmentation de données
15ML par EM
- On suppose
- Sobs xobs1,xobs2,,xobsm un échantillon de
données observées - Sc xc1,xc2,,xcm un échantillon
correspondant de données cachées - St (Sobs, Sc) (xobs1, xc1), (xobs2,
xc2),,(xobsm, xcm) les données totales
?
Fonction de vraisemblance des données totales
Variable aléatoire car Sc est inconnue et
gouvernée par une distribution cachée
16ML par EM
- On cherche donc
- Mais L(qSobs,Sc) est une variable aléatoire en
Sc - On va donc éliminer ce caractère aléatoire en
passant par lespérance de L(qSobs,Sc) (ou de
son logarithme) - par rapport aux données cachées
- Ed. les données observées et lestimation
courante du paramètre q
17Lalgorithme EM
Initialisation de q0 et de Sc
- Étape dexpectation (E_étape)
- Étape de maximisation (M_étape)
k k1 jusquà convergence
18Lalgorithme EM
- EM intéressant seulement si Q(q,q) est plus
facile à calculer que L(qS) - Les étapes E et M
- Ne sont pas toujours faciles à calculer (mais
généralement plus faciles que L(qS) ) - Mais ont une solution analytique pour une grande
famille de fonctions paramétrées (e.g. les
distributions exponentielles) - Mélanges de gaussiennes
- HMMs
-
19EM l intuition
0.1
0.3
0.5
0.7
0.9
E
E
M
Paramètres des modèles
Étape_M
Contours de la log-vraisemblance de la
probabilité jointe p(q,Sc)
Étape_E
Paramètres des données complètes
20EM Cas des mélanges de gaussiennes
- On suppose un mélange de N gaussiennes
- La log-vraisemblance des données incomplètes est
alors
- qui est très difficile à optimiser
21EM Cas des mélanges de gaussiennes
- On augmente les données en ajoutant un ensemble
de variables latentes - Chaque xci correspond à la responsabilité
présumée de la gaussienne xci ? 1,,N pour la
donnée
22EM Cas des mélanges de gaussiennes
23Application de EM aux mélanges de Gaussiennes
- Soit le relevé des tailles dun échantillon de
personnes
- Sexplique-t-il par un mélange de gaussiennes ?
24Application de EM aux mélanges de Gaussiennes
- Résultat de EM après 10 itérations
25Application de EM aux données INDANA
- Problèmes
- Données en dimension gt 2
- Nécessite des calculs de
- vecteurs moyenne
- de variance (matrice de variance-covariance)
- décart-type (racine carrée de matrice
décomposition par méthode de Cholesky) - Malédiction de la dimensionnalité croissance
exponentielle du nombre de données requis en fct
du nb de dimensions - Des attributs numériques et symboliques
- on traite les attributs symboliques comme des
attributs numériques - Des problèmes de calcul dues aux probabilités
très faibles - Organiser les calculs
- Beaucoup de tests en cours déxécution
26Application de EM aux données INDANA
- Problèmes généraux
- Initialisation des gaussiennes
- Initialisation centrée, puis
- Placement itératif des N gaussiennes
- Choix du nombre de Gaussiennes
- Méthode par dichotomie successive
- Mesure de la qualité du mélange obtenu (pour
arrêter lalgorithme) - Mesure de précision de Gaussienne
- La max des écart-types de G1 max des
écart-types de G2 - Mieux vaut des Gaussiennes précises
- Mais plus de Gaussiennes gt plus de précision
- Mesure de proximité entre Gaussiennes
- On mesure d(i,j) maxp(centre GiGj), p(centre
GiGj) - Les Gaussiennes sont dautant plus éloignées que
cette mesure est faible - On estime que les Gaussiennes Gi et Gj sont
légitimes si d(i,j) 0
27Application de EM aux données INDANA
- Initialisation des Gaussiennes
28Application de EM aux données INDANA
- Initialisation des Gaussiennes
29Expériences réalisées
- Sur la 1ère base 2230 patients
- Chaque variable a été bruitée avec une loi
normale décart-type 0.1 - Expériences répétées 5 fois (pour vérifier la
stabilité) - Pour 2, 3, 5 et 10 gaussiennes
- Mise en œuvre
- Initialisation telle que décrit plus haut
- Attribution stochastique des classes dans létape
E
30EM sur INDANA résultats (2 classes)
31EM sur INDANA résultats (3 classes)
32EM sur INDANA résultats (5 classes)
33EM sur INDANA résultats (10 classes)
34EM sur INDANA bilan
- Précautions
- Résultats à confirmer
- Il faudrait répéter davantage les expériences
- Tester sur le reste des données INDANA
- Perspectives
- Les classes aberrantes correspondent-elles à
un phénomène intéressant? - de protection naturelle (origine génétique)
contre AVC ? - ?
- EM pour la régression
- Espoir très faible (avec ce type de données)