Typologies - PowerPoint PPT Presentation

1 / 22
About This Presentation
Title:

Typologies

Description:

Pour ins rer le logo de votre soci t sur cette diapositive : Dans le menu Insertion, ... Un individu appartient chacun des groupes un degr variable ... – PowerPoint PPT presentation

Number of Views:53
Avg rating:3.0/5.0
Slides: 23
Provided by: Des5152
Category:

less

Transcript and Presenter's Notes

Title: Typologies


1
Typologies
  • Pour insérer le logo de votre société sur cette
    diapositive
  • Dans le menu Insertion, cliquez sur Image.
  • Recherchez le fichier de votre logo.
  • Cliquez sur OK.
  • Pour redimensionner le logo
  • Cliquez sur le logo. Les petits carrés qui
    apparaissent à l'extérieur du logo sont appelés
    poignées de redimensionnement .
  • Utilisez-les pour redimensionner l'objet.
  • Si vous maintenez la touche Maj enfoncée avant de
    les utiliser, vous conserverez les proportions de
    l'objet que vous souhaitez redimensionner.
  • Life is short, play hard

QUITTER
gt
2
Sommaire
  • Classification
  • Typologie
  • Distances
  • Méthodes nodales et hiérarchiques

3
Problématique de la classification
  • Regrouper des objets en catégories ou classes
  • sur une base
  • subjective ou intuitive (motivations)
  • objective (description des objets sur des
    caractéristiques)
  • objective (proximité-distance de points 2 à 2)
  • Recherche de la similarité
  • maximale intra-classe
  • minimale inter-classe

4
Typologie ou segmentation ?
  • Segmentation
  • une variable joue un rôle spécifique (Y)
  • Typologie
  • l'hétérogénéité est mesurée sur toutes les
    variables
  • Différence radicale de "philosophie"
  • recherche de causalité pour la segmentation
  • compréhension de la structure d'un phénomène
  • Sur le plan technique
  • typologie plutôt agrégative, segmentation plutôt
    divisive

5
Démarche Typologie
  • formulation du problème
  • sélection d'une mesure de distance
  • sélection d'une procédure
  • décider le nombre de groupes
  • interprétation et profil des groupes
  • vérifier la validité des groupes

6
Formulation Quelles variables ?
  • Illustration
  • Club de livre, annulation
  • variables sexe, tranche CA, agglo, géo,
  • type de livre acheté,

7
La distance
  • 3 axiomes fondamentaux
  • signe d(A,B) gt 0 d(A,B)0 ltgt AB
  • symétrie d(A,B) d(B,A)
  • inégalité triangulaire d(A,B)ltd(A,C)d(C,B)
  • Deux catégories de problème
  • hétérogénéité des unités de mesure (centrer,
    réduire)
  • existence de relation entre les variables

8
Distances dans SPSS lembarras du choix !
  • Interval data.
  • Euclidean distance, squared Euclidean distance,
    cosine, Pearson correlation, Chebychev, block,
    Minkowski, and customized.
  • Count data
  • chi-square and phi-square measures.
  • Binary data.
  • Euclidean distance, squared Euclidean distance,
    size difference, pattern difference, variance,
    dispersion, shape, simple matching, phi 4-point
    correlation, lambda, Anderbergs D, dice, Hamann,
    Jaccard, Kulczynski 1and 2, Lance and Williams,
    Ochiai, Rogers and Tanimoto, Russel and Rao,
    Sokal and Sneath 1 to 5, Sokal and Sneath 2,
    Yules Y, and Yules Q.

9
Distances sur variables quantitatives (1/2)
  • Euclidienne
  • non standardisée (? 1)
  • standardisée à l'écart-type (? 1/?2)
  • standardisée à l'écart maximum (? 1/max
    (Xik-Xjk)
  • Minkovsky
  • n2 distance euclidienne
  • n1 distance rectangulaire
  • poids unitaire city-block
  • Mahalanobis
  • tient compte des relations entre les variables

10
Distances sur variables quantitatives (2/2)
  • Squared Euclidean distance sum of the squared
    differences between the values for the items.
  • Pearson correlation product-moment correlation
    between two vectors of values.
  • Cosine cosine of the angle between two vectors
    of values.
  • Chebychev maximum absolute difference between
    the values for the items.
  • Customized rth root of the sum of the absolute
    differences to the pth power between the values
    for the items.

Distances
11
Distance sur fréquences
  • Informationnelle (base modèles log-linéaires)
  • Distance du Chi-2
  • Distance du Phi-2 chi-square measure normalized
    by the square root of the combined frequency

12
Distance sur données binaires (1/2)
  • Jaccard a / (abc)
  • Russel -Rao a / (abcd)
  • Dice 2a / (2abc)
  • Ochiai a/ racine (ab)(ac)
  • Yule (a.dc.b) / (a.d-c.b)
  • Haman (ad)-(cb) / (ad)(cb)
  • Euclidean distance. SQRT(bc)
  • Pattern difference (01), bc/(n2)
  • Variance, (01) (bc)/4n

13
Distances sur données binaires (2/2)
  • Squared Euclidean distance (0no max) number of
    discordant cases
  • Size difference (01) index of asymmetry
  • Dispersion( -11).
  • Shape (01), penalizes asymmetry of mismatches.
  • Simple matching. ratio of matches to the total
    number of values. Equal weight is given to
    matches and nonmatches.
  • Phi 4-point correlation (-11), binary analog of
    the Pearson correlation coefficient.
  • Lambda (01) (Goodman and Kruskals) proportional
    reduction of error (PRE) using one item to
    predict the other (predicting in both
    directions).
  • Anderbergs D (01) Similar to lambda, actual
    reduction of error using one item to predict the
    other (predicting in both directions)

14
Oui, le choix de la distance a de l importance !
Jaccard versus Variance
Détail
15
Procédures de typologie
  • Typologie en partitions fortes (classique)
  • Un individu appartient à 1 seul groupe
  • Typologies de recouvrement
  • Un individu appartient à 1 ou plusieurs groupes
  • Typologie floue
  • Un individu appartient à chacun des groupes à un
    degré variable

16
Typologies classiques
  • Hiérarchiques (arbre)
  • descendante - ascendante
  • calcul de la matrice des distances à chaque
    étape
  • limites pas d'optimum global
  • itérations et stockage fonction de la taille du
    problème
  • Nodales
  • heuristiques pour traiter de gros volumes à coût
    raisonnable

17
Problèmes de la typologie
  • pas de critère explicite pour le choix des
    variables, le nombre de groupes ou le choix d'une
    bonne typologie
  • beaucoup moins formalisé que l'Analyse
    factorielle
  • hypothèse une classification est pertinente !

18
Principe des méthodes hiérarchiques
  • Algorithme de Johnson
  • calcul des distances regroupement selon les
    distances les plus faibles
  • Caractéristiques
  • résistance à la transformation des données, aux
    outliers sensibilité aux ex-aequo, aux effets de
    chaînage, capacité à séparer des groupes proches
  • Méthode des centroïdes
  • Méthode de la variance (Ward)
  • Méthode de chaînage
  • simple / complet / moyen

19
Dendrogramme
H I E R A R C H I C A L C L U S T E
R A N A L Y S I S Dendrogram using
Average Linkage (Between Groups)
Rescaled Distance Cluster Combine C
A S E 0 5 10 15
20 25 Label Num ------------------
--------------------------- PG0 1
òûòòòòòòòø PG70 18 ò ó PG65
15 òûòø ó PG68 17 ò ó ó
PG60 14 òø ó ùòòòòòø PG66 16
òú ùòø ó ó PG10 4 òôòø ó ó
ó PG40 10 òú ó ó ó ó PG1
2 ò ó ùòòò ùòø PG5 3 òòò
ó ó ó PG15 5 òòò ó ó
ùòòòø PG35 9 òòòòò ó ó ó
PG45 11 òòòòòòòòòòòòòòò ó ùòòòø PG25
7 òòòòòòòòòòòòòòòòò ó
ùòòòòòòòòòòòø PG30 8
òòòòòòòòòòòòòòòòòòòòò ó
ùòòòòòòòòòòòø PG50 12
òòòòòòòòòòòòòòòòòòòòòòòòò ó
ó PG20 6 òòòòòòòòòòòòòòòòòòòòòòòòòòòòòò
òòòòòòò ó PG55 13
òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò
20
Critères dévaluation de la qualité de la
typologie
  • Variance intra-groupe
  • de variance intra-cluster R21-?wk/VT
  • Pseudo F (T-?wk) / (G-1) / (?wk) / (n-G)

21
Principe des méthodes nodales
  • définir un nombre de groupes et un seuil de
    regroupement (S)
  • calcul de la quantité de déplacement DAB
    2.dAB . (NA.NB/(NANB)
  • si DAB lt Seuil regroupement de A et B sinon
    nouveau type ou non classé
  • options calcul des centres à chaque fois ou à
    la fin de l'allocation (batch ou par lot)
  • la phase d'allocation initiale est sensible aux
    valeurs aberrantes (outliers) et à l'ordre des
    données gt faire deux passages

22
Typologie par réseaux de neurones
  • Cartes de Kohonen (self organizing maps)
  • Construction dun treillis de prototypes
  • chaque individu est affecté au prototype qui lui
    ressemble le plus
  • Avec une contrainte de proximité
  • Deux prototypes proches dans le treillis se
    ressemblent plus que 2 prototypes éloignés

Kohonen
Write a Comment
User Comments (0)
About PowerShow.com