Title: Analyse discriminante
1Analyse discriminante
2Les objectifs de lanalyse discriminante
- Étude dun tableau Individus?Variables
Les individus sont décrits par p variables
X1,, Xp. - Les individus sont répartis en k classes selon
les modalités dune variable qualitative Y. - Rechercher des variables discriminantes Zh,
combinaisons linéaires des Xj, non corrélées
entre elles, et séparant au mieux les k classes
(analyse factorielle discriminante). - Affecter une nouvelle observation à une des
classes en fonction de ses valeurs de X
observées (analyse discriminante bayesienne).
3Exemple Qualité des vins de Bordeaux
- Variables observées sur 34 années (1924 - 1957)
- TEMPERATURE Somme des températures
moyennes journalières - SOLEIL Durée dinsolation
- CHALEUR Nombre de jours de grande chaleur
- PLUIE Hauteur des pluies
- QUALITE DU VIN Bon (1), Moyen (2), Médiocre
(3)
4Les données
5Analyse univariée
Température
6Analyse univariée
Soleil
7Analyse univariée
Chaleur
8Analyse univariée
Pluie
9Analyse factorielle discriminanteRecherche de la
première variable discriminante
- On recherche une première variable discriminante
centrée - séparant au mieux les k classes.
- On recherche des a1j conduisant à une variable Z1
ayant un F ou, de manière équivalente, un ?2
maximum dans lanalyse de la variance de Z1 sur
le facteur Y définissant les classes. - On choisit comme normalisation une variance
intra-classes - de Z1 égale à 1.
10Calcul des variables discriminantessur les
données dorigine
Z1 .009Température .007Soleil -
.027Chaleur - .006Pluie - 32.876
11Normalisation
Chaque X est centrée et normalisée par
lécart-type commun aux classes (racine-carrée du
carré moyen intra-classes)
12Calcul des variables discriminantes sur les
données normalisées
Z1 .750X1 .547X2 - .198X3 - .445X4
13Analyse de la variance de Z1 sur la qualité
14Analyse factorielle discriminanteRecherche de la
deuxième variable discriminante
- On recherche une deuxième variable discriminante
centrée et non corrélée à Z1 - séparant au mieux les k classes.
- On recherche des a2j conduisant à une variable Z2
ayant un F ou, de manière équivalente, un ?2
maximum dans lanalyse de la variance de Z2 sur
le facteur Y définissant les classes. - On choisit comme normalisation une variance
intra-classes - de Z2 égale à 1.
15Analyse de la variance de Z2 sur la qualité
16Les deux variablesdiscriminantes
17Le premier plan discriminant
18Carte des qualités
Territorial Map Canonical
Discriminant Function 2 -6.0 -4.0
-2.0 .0 2.0 4.0 6.0
ôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòò
òòòòòòôòòòòòòòòòô 6.0 ô
31 ô
ó 31
ó ó
31 ó ó
31
ó ó
31 ó ó
31
ó 4.0 ô ô ô 31
ô ô ô ó
31
ó ó 31
ó ó
31 ó
ó 31
ó ó
31 ó
2.0 ô ô ô 3221 ô
ô ô ó
32 21 ó
ó 32 21
ó ó
32 21 ó ó
32 21
ó ó 32
21 ó .0 ô
ô ô 32 ô 21 ô ô
ô ó 32
21 ó ó
32 21
ó ó 32
21 ó ó
32 21 ó
ó 32 21
ó -2.0 ô ô
ô 32 ô 21 ô ô
ó 32 21
ó ó
32 21 ó
ó 32 21
ó ó 32
21 ó ó
32 21
ó -4.0 ô ô 32
ô ô 21 ô ô ó
32 21
ó ó 32
21 ó ó
32 21
ó ó 32
21 ó ó
32 21 ó
-6.0 ô 32
21 ô
ôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòò
ôòòòòòòòòòô -6.0 -4.0 -2.0
.0 2.0 4.0 6.0
Canonical Discriminant Function
1
Symbols used in territorial map Symbol Group
Label ------ ----- -------------------- 1
1 Bon 2 2 Moyen 3 3
Médiocre Indicates
a group centroid
Les droites frontières sont les médiatrices des
segments joignant les centres de gravité des
groupes
19Premier plan discriminant et carte des qualités
Une nouvelle observation est classée dans le
groupe pour lequel la distance entre
lobservation et le centre du groupe est la plus
faible.
20Premier plan discriminant et territoire des
qualités
Pluie
Chaleur
g1
Température
Le premier plan discriminant contient les centres
de gravité des groupes
Affecter une observation A à la classe la plus
proche (gh) est équivalent à affecter la
projection B à la classe la plus proche.
21Distance carrée au centre de gravité dans le plan
(Z1,Z2)
22Prévision de la qualité pourune nouvelle année
(obs. 35)
Pour le Bordeaux 1958 - Température 3
000 - Soleil 1 100 - Chaleur 20 - Pluie
300 Prévoir sa qualité.
23Prévision de laqualité pourune nouvelleannée
(obs. 35)
24Prévision de la qualité pourune nouvelle année
(obs. 35)
25Résultats de lanalyse factorielle discriminante
Z1 Score prédictif de la qualité du vin
construit à partir des variables météo.
26Résultats de lanalyse factorielle discriminante
27Résultats de lanalyse factorielle discriminante
s Nombre maximum de variables discriminantes
k-1
Eta
28Test en analyse factorielle discriminante(données
multinormales)
Test 1 through s (ici s2)
Test H0 ?1 ?s 0 (au niveau de la
population) H1 au moins ?1 gt 0 Statistique
Wilks Lambda (1-?12)?... ?(1-?s2) Décision
On rejette H0 au risque ? si
29Test m through s
Test H0 ?m ?s 0 (au niveau de la
population) H1 au moins ?m gt 0 Statistique
Wilks Lambda (1-?m2)?... ?(1-?s2) Décision
On rejette H0 au risque ? si
30Corrélation intra-classes entre les X et les Z
31Visualisation dune corrélation intra-classes
Z
Z
Pluie
Pluie
Corrélation intra-classes négative
Corrélation globale positive
32Analyse discriminante bayesienne
Hypothèses de base 1) Données multinormales
2) Dispersion des données identiques dans chaque
classe
La probabilité quune observation provienne de la
classe Y h sachant que X x (x1,,
xp) peut sécrire
avec des fonctions de classification gh(x) de la
forme
gh(x) bh0 bh1X1 bhpXp
où les X sont les variables dorigine.
33Les fonctions de classification gh(x)
Elles sont calculées ici en supposant les 3
qualités a priori équiprobables
34Calcul des probabilités de chaque qualitépour
chaqueannée
35Qualité de la prévision
36Validité de la qualité de la prévisionévaluée
par Jack-knife
37Prévision de la qualité pourune nouvelle année
Pour le Bordeaux 1958 - Température 3
000 - Soleil 1 100 - Chaleur 20 - Pluie
300 Prévoir sa qualité.
38Analyse discriminante bayesienne sur les
variables discriminantes Z1, Z2
1. La prédiction de la qualité du vin à laide
des territoires de qualité construits sur le
plan discriminant (Z1, Z2) est équivalente à
la prédiction de la qualité obtenue par
analyse discriminante bayesienne des variables
discriminantes (Z1, Z2). 2. Lanalyse
discriminante bayesienne des variables
dorigine (X1,,Xp) et lanalyse discriminante
bayesienne des variables discriminantes (Z1,
Z2) conduisent aux mêmes probabilités
calculées des modalités de Y.
39Analyse discriminante bayesienne sur
lesvariables discriminantes Z1, Z2
40Utilisation de la méthode de segmentation CARTY
ordinale le critère Ordered Twoing
41Règles darrêt - Improvement min 0.01 -
Effectif segment parent lt 25 - Effectif segment
descendant lt 1
42- Crossvalidation (Documentation SPSS)
- Crossvalidation divides the sample into a
number of subsamples, or folds. - Tree models are then generated, excluding
the data from each subsample in turn. - The first tree is based on all of the
cases except those in the first sample fold, - the second tree is based on all of the
cases except those in the second sample fold, - and so on.
- For each tree, misclassification risk is
estimated by applying the tree to the - subsample excluded in generating it.
- You can specify a maximum of 25 sample folds.
The higher the value, - the fewer the number of cases excluded for
each tree model. - Crossvalidation produces a single, final tree
model. The crossvalidated risk - estimate for the final tree is calculated as
the average of the risks for all of - the trees.
43Deuxième exemple les races canines
44Le tableau disjonctif complet
xijl 1 si lindividu i possède la modalité
l de la variable j 0 sinon
45Analyse factorielle discriminante
Y Fonction X variables indicatrices des
caractéristiques physiques et psychiques
des chiens
46Premier plan discriminant
3
grand bleu de gascogne
pointer
dobermann
levrier
fox-hound
epagneul français
2
setter
basset
1
bull-mastiff
epagneul breton
mastiff
terre-neuve
labrador (chasse)
dogue allemand
0
boxer
saint-bernard
dalmatien (compagnie)
berger allemand
-1
colley
fonction
beauceron
chihuahua
pékinois
utilité
caniche
-2
cocker
teckel
chasse
bull-dog
fox-terrier
Z2
-3
compagnie
4
2
0
-2
-4
-6
Z1
47Variables discriminantes
48Prévision de la fonction par calcul de la
distance carrée entre chaque chien et les centre
de gravité des classes dans le plan discriminant
(Z1, Z2)
49Analyse discriminante bayesienne(sur les données
dorigine transformées en indicatrices)
Problème Appliquer une méthode supposant la
normalité sur des données binaires !!!!
50Prévision de la fonction dun chien
51Prévision de la fonction dun chien