Analyse en Composantes Principales A.C.P. - PowerPoint PPT Presentation

About This Presentation
Title:

Analyse en Composantes Principales A.C.P.

Description:

Analyse en Composantes Principales ... Rappels Matrice de variance-covariance : mesure la liaison entre les diff rents descripteurs = o cov (Xi, Xi) = Var ... – PowerPoint PPT presentation

Number of Views:614
Avg rating:3.0/5.0
Slides: 19
Provided by: reha8
Category:

less

Transcript and Presenter's Notes

Title: Analyse en Composantes Principales A.C.P.


1
Analyse en Composantes PrincipalesA.C.P.
  • M. Rehailia
  • Laboratoire de Mathématiques de lUniversité de
    Saint Etienne (LaMUSE).

2
Introduction
  • LACP, introduite par K. Pearson et Thurston
    (années 20), est une technique des statistiques
    descriptives destinée à lanalyse des données
    multidimensionnelles.
  • Elle permet de réduire la dimension de lespace
    des descripteurs.
  • On cherche à réduire le nombre de descripteurs
    (variables) avec le minimum de perte
    dinformation et préservant les relations
    existant déjà avec entre les différents
    descripteurs.

3
Position du Problème
  • On a observé p variables sur n individus. Dans la
    pratique cela représente un tableau à np entrées
    quil est difficile, voire impossible à lire,
    pour extraire les informations les plus
    pertinentes.
  • Exemple artificiel Supposons quon a observé le
    jeu de données suivant

4
Exemple (suite)
descrip- -teur Sujet D1 D2 D3 D4
S1 S2 S3 S4 S5 S6 -11 -12 -15 -14 -14,5 -13 -60 -62 -80 -75 -82 -72 110 93 113 94 100 102 40 25 39 25 30 32
5
Rappels
  • Matrice de variance-covariance mesure la
    liaison entre les différents descripteurs
  • S
  • où cov(Xi, Xi) Var(Xi).
  • Matrice de corrélation même chose que S sauf
    quil sagit dun paramètre sans dimension
  • R (Rij)i,j

6
Matrice de corrélation
1 0,970 -0,064 0,094
-- 1 -0,102 0,037
-- -- 1 0,986
-- -- -- 1
7
Commentaires
  • Le tableau 1 est difficile à lire (en
    particulier lorsquon a plusieurs variables et
    sujets).
  • Par conséquent les relations entre les différents
    descripteurs sont indécelables à première vue.
  • La matrice de corrélation (matrice de liaison
    sans dimension) montre que la variable 1 est
    fortement corrélée avec la variable 2 il en est
    de même pour les variables 3 et 4.

8
Comment se fait la réduction de la dimension
tout en préservant les liaisons entre les
différents descripteurs ?
  • Les variables de départ sont remplacées par  des
    vecteurs propres  de la matrice S ou de la
    matrice R, appelés Composantes principales.
  • Y-a-t-il un critère darrêt ? généralement on
    sarrête quand au moins 75 de la variance est
    expliquée par la variance cumulée par les CP.

9
Quest-ce quun vecteur propre ?
  • ? est une valeur propre de la matrice A si et
    seulement si Av ?v
  • Le vecteur v dans la relation ci-dessus est
    appelé vecteur associé à ?
  • Les valeurs propres sobtiennent en résolvant le
    système déquations det(A- ?I) 0.
  • Le nombre de valeurs propres, ?1gt gt ?p, est
    égal au nombre de lignes nombre de colonnes de
    la matrice A
  • Important La somme des valeurs propres de A est
    égale à la variance contenue dans lensemble des
    données.

10
Expression des composantes principales
  • Dun point de vue pratique les composantes
    principales sécrivent
  • Fj ?1X1. ?pXp
  • cest-à-dire que Fj est une combinaison
    linéaire des variables initiales X1, , Xp.
  • En plus de cet aspect calculatoire on doit
    pouvoir faire des affirmations sur la qualité de
    la réduction et la qualité de la représentation
    graphique.

11
Représentation graphique
  • Lorsque les différentes CP ont été trouvées on
    peut représenter les différentes variables et les
    différents individus dans le plan CP1, CP2 comme
    illustré ci-dessous

12
Interprétation
  • Chaque valeur propre représente la variance prise
    en compte par la composante principale
    correspondante.
  • Pour lexemple on obtient
  • Ici les deux premières composantes rendent compte
    de 0,50030,4917 0,9920 99,2 de la variance
    totale.
  • Ce qui veut dire que les 4 descripteurs peuvent
    être remplacés par les 2 premières composantes
    tout en préservant la quasi-totalité de
    linformation (réduction).

13
Résultats des calculs
  • Scores des individus il sagit des valeurs
    prises par les composantes principales sur les
    individus.
  • Ici

14
Résultats (suite I)
  • Saturations des variables il sagit des
    coefficients de corrélation entre les variables
    et les composantes principales.
  • La première composante est surtout corrélée avec
    les deux derniers descripteurs

15
Résultats (suite II)
  • Contribution (relative) dun individu à la
    formation dune composante principale
  • CTR(sujet 1, CP1)
  • Qualité de la représentation
  • pour sujet 1 et CP2
  • QLT

16
Résultats (suite II)
  • Qualité de la représentation dune variable à la
    formation dune CP contribution de la première
    variable à la formation de la première composante
    principale
  • CTR

17
Interprétation
  • Scores et saturations ne sont pas exprimés
  • dans la même unité de mesure.
  • Interpréter chaque axe part de la variance sont
    il rend compte, variables avec lesquelles il est
    corrélé.
  • Individus proches de lorigine ils ont peu
    contribué à linertie.
  • Interpréter plutôt les oppositions marquées entre
    individus.

18
Exemple
  • Analyser les données Budget-temps
  • (voir feuilles de TD)
  • MERCI de votre attention !
Write a Comment
User Comments (0)
About PowerShow.com