Title: Typologies
1Typologies
- Pour insérer le logo de votre société sur cette
diapositive - Dans le menu Insertion, cliquez sur Image.
- Recherchez le fichier de votre logo.
- Cliquez sur OK.
- Pour redimensionner le logo
- Cliquez sur le logo. Les petits carrés qui
apparaissent à l'extérieur du logo sont appelés
poignées de redimensionnement . - Utilisez-les pour redimensionner l'objet.
- Si vous maintenez la touche Maj enfoncée avant de
les utiliser, vous conserverez les proportions de
l'objet que vous souhaitez redimensionner.
QUITTER
gt
2Sommaire
- Classification
- Typologie
- Distances
- Méthodes nodales et hiérarchiques
3Problématique de la classification
- Regrouper des objets en catégories ou classes
- sur une base
- subjective ou intuitive (motivations)
- objective (description des objets sur des
caractéristiques) - objective (proximité-distance de points 2 à 2)
- Recherche de la similarité
- maximale intra-classe
- minimale inter-classe
4Typologie ou segmentation ?
- Segmentation
- une variable joue un rôle spécifique (Y)
- Typologie
- l'hétérogénéité est mesurée sur toutes les
variables - Différence radicale de "philosophie"
- recherche de causalité pour la segmentation
- compréhension de la structure d'un phénomène
- Sur le plan technique
- typologie plutôt agrégative, segmentation plutôt
divisive
5Démarche Typologie
- formulation du problème
- sélection d'une mesure de distance
- sélection d'une procédure
- décider le nombre de groupes
- interprétation et profil des groupes
- vérifier la validité des groupes
6Formulation Quelles variables ?
- Illustration
- Club de livre, annulation
- variables sexe, tranche CA, agglo, géo,
- type de livre acheté,
7La distance
- 3 axiomes fondamentaux
- signe d(A,B) gt 0 d(A,B)0 ltgt AB
- symétrie d(A,B) d(B,A)
- inégalité triangulaire d(A,B)ltd(A,C)d(C,B)
- Deux catégories de problème
- hétérogénéité des unités de mesure (centrer,
réduire) - existence de relation entre les variables
8Distances dans SPSS lembarras du choix !
- Interval data.
- Euclidean distance, squared Euclidean distance,
cosine, Pearson correlation, Chebychev, block,
Minkowski, and customized. - Count data
- chi-square and phi-square measures.
- Binary data.
- Euclidean distance, squared Euclidean distance,
size difference, pattern difference, variance,
dispersion, shape, simple matching, phi 4-point
correlation, lambda, Anderbergs D, dice, Hamann,
Jaccard, Kulczynski 1and 2, Lance and Williams,
Ochiai, Rogers and Tanimoto, Russel and Rao,
Sokal and Sneath 1 to 5, Sokal and Sneath 2,
Yules Y, and Yules Q.
9Distances sur variables quantitatives (1/2)
- Euclidienne
- non standardisée (? 1)
- standardisée à l'écart-type (? 1/?2)
- standardisée à l'écart maximum (? 1/max
(Xik-Xjk) - Minkovsky
- n2 distance euclidienne
- n1 distance rectangulaire
- poids unitaire city-block
- Mahalanobis
- tient compte des relations entre les variables
10Distances sur variables quantitatives (2/2)
- Squared Euclidean distance sum of the squared
differences between the values for the items. - Pearson correlation product-moment correlation
between two vectors of values. - Cosine cosine of the angle between two vectors
of values. - Chebychev maximum absolute difference between
the values for the items. - Customized rth root of the sum of the absolute
differences to the pth power between the values
for the items.
Distances
11Distance sur fréquences
- Informationnelle (base modèles log-linéaires)
- Distance du Chi-2
- Distance du Phi-2 chi-square measure normalized
by the square root of the combined frequency
12Distance sur données binaires (1/2)
- Jaccard a / (abc)
- Russel -Rao a / (abcd)
- Dice 2a / (2abc)
- Ochiai a/ racine (ab)(ac)
- Yule (a.dc.b) / (a.d-c.b)
- Haman (ad)-(cb) / (ad)(cb)
- Euclidean distance. SQRT(bc)
- Pattern difference (01), bc/(n2)
- Variance, (01) (bc)/4n
13Distances sur données binaires (2/2)
- Squared Euclidean distance (0no max) number of
discordant cases - Size difference (01) index of asymmetry
- Dispersion( -11).
- Shape (01), penalizes asymmetry of mismatches.
- Simple matching. ratio of matches to the total
number of values. Equal weight is given to
matches and nonmatches. - Phi 4-point correlation (-11), binary analog of
the Pearson correlation coefficient. - Lambda (01) (Goodman and Kruskals) proportional
reduction of error (PRE) using one item to
predict the other (predicting in both
directions). - Anderbergs D (01) Similar to lambda, actual
reduction of error using one item to predict the
other (predicting in both directions)
14Oui, le choix de la distance a de l importance !
Jaccard versus Variance
Détail
15Procédures de typologie
- Typologie en partitions fortes (classique)
- Un individu appartient à 1 seul groupe
- Typologies de recouvrement
- Un individu appartient à 1 ou plusieurs groupes
- Typologie floue
- Un individu appartient à chacun des groupes à un
degré variable
16Typologies classiques
- Hiérarchiques (arbre)
- descendante - ascendante
- calcul de la matrice des distances à chaque
étape - limites pas d'optimum global
- itérations et stockage fonction de la taille du
problème - Nodales
- heuristiques pour traiter de gros volumes à coût
raisonnable
17Problèmes de la typologie
- pas de critère explicite pour le choix des
variables, le nombre de groupes ou le choix d'une
bonne typologie - beaucoup moins formalisé que l'Analyse
factorielle - hypothèse une classification est pertinente !
18Principe des méthodes hiérarchiques
- Algorithme de Johnson
- calcul des distances regroupement selon les
distances les plus faibles - Caractéristiques
- résistance à la transformation des données, aux
outliers sensibilité aux ex-aequo, aux effets de
chaînage, capacité à séparer des groupes proches - Méthode des centroïdes
- Méthode de la variance (Ward)
- Méthode de chaînage
- simple / complet / moyen
19Dendrogramme
H I E R A R C H I C A L C L U S T E
R A N A L Y S I S Dendrogram using
Average Linkage (Between Groups)
Rescaled Distance Cluster Combine C
A S E 0 5 10 15
20 25 Label Num ------------------
--------------------------- PG0 1
òûòòòòòòòø PG70 18 ò ó PG65
15 òûòø ó PG68 17 ò ó ó
PG60 14 òø ó ùòòòòòø PG66 16
òú ùòø ó ó PG10 4 òôòø ó ó
ó PG40 10 òú ó ó ó ó PG1
2 ò ó ùòòò ùòø PG5 3 òòò
ó ó ó PG15 5 òòò ó ó
ùòòòø PG35 9 òòòòò ó ó ó
PG45 11 òòòòòòòòòòòòòòò ó ùòòòø PG25
7 òòòòòòòòòòòòòòòòò ó
ùòòòòòòòòòòòø PG30 8
òòòòòòòòòòòòòòòòòòòòò ó
ùòòòòòòòòòòòø PG50 12
òòòòòòòòòòòòòòòòòòòòòòòòò ó
ó PG20 6 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòò
òòòòòòò ó PG55 13
òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò
20Critères dévaluation de la qualité de la
typologie
- Variance intra-groupe
- de variance intra-cluster R21-?wk/VT
- Pseudo F (T-?wk) / (G-1) / (?wk) / (n-G)
21Principe des méthodes nodales
- définir un nombre de groupes et un seuil de
regroupement (S) - calcul de la quantité de déplacement DAB
2.dAB . (NA.NB/(NANB) - si DAB lt Seuil regroupement de A et B sinon
nouveau type ou non classé - options calcul des centres à chaque fois ou Ã
la fin de l'allocation (batch ou par lot) - la phase d'allocation initiale est sensible aux
valeurs aberrantes (outliers) et à l'ordre des
données gt faire deux passages
22Typologie par réseaux de neurones
- Cartes de Kohonen (self organizing maps)
- Construction dun treillis de prototypes
- chaque individu est affecté au prototype qui lui
ressemble le plus - Avec une contrainte de proximité
- Deux prototypes proches dans le treillis se
ressemblent plus que 2 prototypes éloignés
Kohonen