Title: METHODES DE SEGMENTATION
1METHODES DE SEGMENTATION
2Introduction
- Objectifs
-
- La segmentation vise à expliquer une variable
quantitative continue ou une variable qualitative
(dite variable à expliquer ), à laide dune
ou plusieurs variables qualitatives dites
explicatives. Elle permet également de créer des
groupes dindividus ou dobservations homogènes. - Les données
- Sur un ensemble I dindividus (observations), on
mesure q variables qualitatives
. - Chaque variable prend un
certain nombre de modalités. - On recense de plus sur I une variable à
expliquer dont les valeurs sont soit
qualitatives soit quantitatives.
3Principe de la méthode
- Pour choisir la ou les variables explicatives
qui expliquent au mieux la variable et qui
permettent de créer des groupes distincts, on
utilise légalité sur les variances
Variance totale variance entre somme des
variances les
groupes à lintérieur des groupes
INTER
INTRA
La variable qui explique au mieux est celle
qui maximise la valeur INTER.
4Lalgorithme de segmentation (1/2)
- On sintéresse aux partitions de I quil est
possible de réaliser à partir des modalités des
variables . - La première étape consiste à dichotomiser I en
plusieurs sous ensembles I1, I2, , Im à partir
dune des variables explicatives. - A létape suivante, on dichotomise I1, I2, , Im
à partir des variables explicatives restantes
mais pas forcément sur les mêmes variables. - On continue ainsi de suite tant que lon na pas
atteint le critère darrêt de lalgorithme.
5Lalgorithme de segmentation (2/2)
-
- Les critères darrêt de lalgorithme de
segmentation - La taille des groupes (classes) à découper
- La taille des groupes après découpage
- Le rapport entre INTRA et la variance totale
- Des tests statistiques (tests de Student de
comparaison de moyennes, tests du Khi deux)
6Exemple Variable à expliquer quantitative et
variables explicatives binaires (1/3)
- Une variable binaire partitionne I en deux sous
ensembles I1 et I2 deffectifs respectifs n1 et
n2 et de moyennes pour la variable à expliquer
respectivement égales à et . - Dans ce cas
- Exemple
- Le critère darrêt ici est "on ne dichotomise
pas de groupe de moins de 6 individus" .
7Exemple (2/3)
- Etape 1 Calcul des variances INTER pour
chacune des variables explicatives. - La variance INTER est maximale pour la variable
Ganglion. La 1ère dichotomie se fera à partir de
cette variable. I se décompose alors en deux sous
ensembles I1 comportant 7 individus et I2 3
individus. Suite au critère darrêt on ne peut
plus dichotomiser I2. - Etape 2 Calcul des variances INTER pour le
sous ensemble I1. - La variance INTER est maximale pour la variable
Fatigue. La 2ème dichotomie se fera à partir de
cette variable.
8Exemple graphe (3/3)
9Conclusion
Il est également possible de réaliser des
segmentations de variables à expliquer
qualitatives. Le principe est le même en
retenant la distance du KHI² entre deux
distributions.
nik représente le nombre dindividus vérifiant
simultanément la modalité i de Y et la
modalité k de X . ni. représente le nombre
dindividus vérifiant la modalité i de Y . n.k
représente le nombre dindividus vérifiant
simultanément la modalité k de X . n.. représente
le nombre total dindividus de I .