Analyse des donnes applique au marketing - PowerPoint PPT Presentation

1 / 31
About This Presentation
Title:

Analyse des donnes applique au marketing

Description:

Les variables sont rarement ind pendantes les unes des autres. L'information sur leurs ... Les composantes sont des combinaisons lin aires des variables ... – PowerPoint PPT presentation

Number of Views:364
Avg rating:3.0/5.0
Slides: 32
Provided by: POSTA7
Category:

less

Transcript and Presenter's Notes

Title: Analyse des donnes applique au marketing


1
Analyse des donnéesappliquée au marketing
  • Pierre DESMET

2
Analyses factorielles
Analyse des donnéesappliquée au marketing
  • Pierre DESMET

3
ANALYSES FACTORIELLES
  • Principe et Intérêt
  • Méthodes
  • Analyse en composantes principales
  • Analyse factorielle (en facteurs communs et
    spécifiques)
  • Analyse factorielle des correspondances
  • Simples
  • Multiples
  • Information de base
  • La matrice des variances-covariances

4
Intérêt de lanalyse factorielle
  • Les variables sont rarement indépendantes les
    unes des autres
  • Linformation sur leurs relations (linéaires) est
    contenue
  • Dans la matrice de variance-covariance
  • Dans la matrice des corrélations (si les
    variables standardisées)
  • On va chercher
  • A étudier des variables qui ont quelque chose en
    commun
  • A réduire lespace des variables (sans perdre
    trop dinformation)
  • A trouver des  facteurs  sous-jacents qui
    restituent la plus grande partie de linformation
  • À interpréter ces facteurs en fonction de la
    contribution des variables à leur constitution
  • A identifier les variables qui sont mal
    représentées
  • Par la famille des méthodes danalyse factorielle

5
Les différentes méthodes
  • Les méthodes appliquées aux distances
  • Les données brutes
  • Des variables quantitatives (analyse factorielle)
  • Distance euclidienne
  • Des comptages/fréquences (analyse des
    correspondances)
  • Distance du khi2 surpondère les modalités rares
  • Que lon cherche à
  • Retrouver toute linformation initiale (AF
    exploratoire)
  • Analyse en composantes principales
  • Retrouver une structure sous-jacente entre les
    variables (AF confirmatoire)
  • Analyse en facteurs communs et spécifiques
  • Les méthodes appliquées aux similarités
    (dissimilarités)

6
Un grand classique le positionnement
  •  Positionnement  des marques dans un espace
    selon les perceptions des usages, des attributs
    symboliques, des clients types
  • Mais permettant aussi de placer le centre de
    gravité de groupes de clients selon leurs
    préférences pour les marques
  • Il faut obtenir
  • Des distances inter-marques D
  • Des évaluations marques x perceptions E
  • Des préférences sur les marques P
  • Cela permet de guider les évolutions du mix pour
  •  différencier  la marque de ses concurrents
  • La rapprocher des attentes dun segment cible
  • Difficulté faut-il forcer les clients à évaluer
    les marques sur des dimensions particulières
    (oubli de dimensions importantes ?)
  • Démarche D -gt E ou E -gt D

7
Présentation graphique
  • Décomposition de l'inertie d'un nuage de points
  • en variation axiale (VA) sur un axe passant par
    le centre de gravité et
  • en variation orthogonale (VO).
  • VTVOVA ??Mi.G2?? (Mi.mi)2 ??(mi.G)2
  • précision de la configuration
  • inertie expliquée VA / VT

8
Procédure pour une analyse factorielle
  • Formulation du problème
  • Calcul de la matrice de corrélation
  • Test de lintérêt dune analyse factorielle
  • Choix de la méthode
  • Détermination du nombre de facteurs
  • Rotation éventuelle des facteurs
  • Interprétation des axes factoriels
  • Calcul des scores factoriels
  • Détermination de la qualité de l'ajustement

9
Les tests préalables en AF
  • Toutes les variables ont-elles une place dans
    lanalyse factorielle ?
  • Peut-être que NON
  • si elles ne partagent pas un minimum de
    corrélation
  • Si elles sont mal représentées dans lespace
    choisi (nombre daxes gardés)
  • Test de Bartlett Test de sphéricité de la
    matrice Var-Covar
  • H0 la matrice de corrélation na que des 1 en
    diagonale et 0 ailleurs (Donc les variables ne
    sont pas corrélées)
  • Cest un test du Khi2. Si Khi2 calculé gt Khi2
    critique rejet de H0
  • Test de Kaiser-Meyer-Olkin (KMO) (0ltlt1)
  • Etude des corrélations (partielles) entre 2
    variables, non expliquées par leffet des autres
    variables (ie. par un facteur sous-jacent)
  • KMO ratio de la somme des corrélations
    multiples sur la somme des corrélations multiples
    et partielles.
  • Le KMO doit être le plus grand possible
  • moyen si gt 0.7
  • inacceptable si lt0.5
  • Indice MSA (measure of sample adequacy) (0ltlt1)
  • Même approche que le KMO mais variable par
    variable
  • Enlever les variables ayant un MSA lt 0.5

10
Analyse factorielle
  • Facteur combinaison linéaire des variables
  • F(i) w1X1i w2X2i w3X3i w4X4i
  • w score factoriel
  • X1(i) a1F1i a2F2i a3F3i a4F4i a5(facteur
    spécifique)i
  • Extraction des vecteurs propres (Ui) et des
    valeurs propres (?) de la matrice de variance
    covariance (V)
  • V-?.I.Ui0
  • La valeur propre représente la variance expliquée
    par un facteur
  • La trace de la matrice V est la somme des
    variances
  • Si on utilise les corrélations, la somme vaut J
    variables
  • dinertie reconstituée le ratio de la valeur
    propre, ou de la somme des valeurs propres du
    plan, sur la trace (total des valeurs propres)

11
AF en composantes principales (ACP)
  • Cest une analyse NON symétrique, descriptive /
    exploratoire
  • Les  variables  sont en colonnes
  • Les  individus  en lignes
  • Variables
  • des valeurs numériques de n individus sur p
    variables
  • Puis calcul de la matrice de variance-covariance
    V
  • Puis, éventuellement, des corrélations C
    (variance1)
  • On cherche à reconstituer (avec la moindre perte
    dinformation)
  • les relations entre les variables (covariances /
    corrélations)
  • ET les variances des variables
  • Par un nombre réduit de facteurs orthogonaux
  • les composantes principales
  • Standardisation éventuelle au préalable (variance
    ou corrélation)

Matrices Ind x Var -gt Var x Var V
-gt C
12
Lecture des résultats
  • les composantes sont orthogonales
  • extraites par ordre d'importance décroissante
  • seules les premières sont gardées (max J)
  • d'inertie expliquée par le facteur
  • Contribution d'une variable à un axe
  • Factor loading corrélation variable et facteur
    (matrice factorielle)
  • Communalités de variance extraite par les
    facteurs retenus
  • scores factoriels nouvelles variables pour les
    objets étudiés

13
Saturation, Contribution et Communalité
(communauté)
  • 2 visions celle du facteur et celle de la
    variable
  • F(i) w1x1i w2x2i w3x3i w4x4i
  • w score factoriel, nouvelles variables pour les
    lignes (individus)
  • X1(i) a1F1i a2F2i a3F3i a4F4i a5(facteur
    spécifique)i
  • Factor loading (saturation) corrélation dune
    variable et dun facteur
  • Contribution (saturation)2 variance dune
    variable restituée par un facteur
  • La somme des contributions pour un facteur donne
    la variance du facteur (sa valeur propre)
  • Communalité (communauté)
  • de variance dune variable extraite
    (reconstituée)
  • par tous les facteurs retenus

14
Choix du nombre de facteurs
  • Combien de facteurs faut-il retenir ?
  • Détermination a priori
  • Règle de Kaiser Garder les facteurs dont la
    valeur propre (l) gt 1
  • Car si les valeurs sont standardisées, la
    variance de chaque variable est 1
  • Test du coude (scree test, Test de Cattell)
  • retenir les facteurs dont la valeur propre se
    situe avant la cassure du  coude  (pente forte
    puis pente faible)
  • de variance reconstituée sil est trop
    faible, la représentation est trop imparfaite
  • Un minimum de 60 est souhaitable
  • Test-retest découper léchantillon et garder la
    structure commune observée dans les deux analyses
  • La difficulté dinterprétation des espaces
    supérieurs à 3 dimensions multiplie la difficulté
    de lanalyse (plans 1x2, 1x3, 2x3 etc)

15
Quelle est la signification dun axe ?
  • Les composantes sont des combinaisons linéaires
    des variables
  • Orthogonales (non corrélées entre elles)
  • Extraites par ordre d'importance décroissante
  • Seules les premières sont gardées (max J)
  • il y a donc perte dinformation
  • La signification dun axe est donnée
  • par les variables
  • qui contribuent le plus à cet axe (en positif et
    en négatif)
  • sans contribuer aussi à dautres axes
  • Éventuellement après rotation

16
Rotations des axes factoriels
  • Pour en faciliter linterprétation
  • Il est possible de faire tourner le système
    daxes factoriels
  • En modifiant la relation variable-axe
  • Sans changer la part de linertie totale
    reconstituée
  • Mais en modifiant linertie reconstituée par
    chaque axe
  • Les rotations sont Orthogonales ou Obliques
  • Les rotations orthogonales se font selon le
    critère que lon choisit de maximiser
  • VARIMAX critère Max saturation sur un seul
    facteur. Maximiser la corrélation avec un axe
    unique et réduire la corrélation avec les autres
    axes gt clarifier linterprétation des axes (peu
    de variables)
  • QUARTIMAX Réduire le nombre de facteurs
    permettant de reconstituer une variable
  • Les rotations obliques supposent que les facteurs
    sont reliés entre eux (OBLIMIN)
  • !!! Difficile à interpréter correctement

17
Interprétation ACP
  • Un espace des variables
  • Inscrit dans un cercle de corrélations (-11)
  • Plus la variable est proche du cercle, mieux elle
    est représentée
  • Plus la variable est proche du facteur, plus elle
    y contribue
  • Une variable est un vecteur (une flèche) qui part
    du centre et pointe vers la position de la
    variable (et plus loin.)
  • Une variable proche du centre est mal représentée
    dans cet espace
  • Un espace des individus
  • Qui ne peut être superposé à celui des variables
  • Qui peut faire lobjet dune typologie
  • Les coordonnées sur les axes sont sauvées en
    variables supplémentaires (Fact_1,)
  • On ninterprète pas la proximité Individu (point)
    x Variable (vecteur)

18
ANALYSE DES CORRESPONDANCES (factorielle)
  • Spécificités
  • correspondance entre 2 ensembles de variables (et
    non plus individus x variables)
  • l'analyse est donc symétrique (les axes
    factoriels sont les mêmes)
  • On peut donc interpréter graphiquement toutes les
    proximités (var-var, ind-var, ind-ind)
  • Types de données et danalyses
  • Les données sont des tableaux deffectifs (doù
    la distance du khi2)
  • Tableau de fréquences (tableau croisé)
  • Tableau de contingence (données binaires
    individus-variables catégorielles)
  • Tableau disjonctif complet (x et (1-x))
  • Propriété de l'équivalence distributionnelle
  • si deux objets sont confondus, leur fusion ne
    modifie pas les résultats

19
Analyse des correspondances Principe
  • Analyse dun tableau de fréquences
  • L'écart entre deux colonnes est d'autant plus
    valorisé que la fréquence de la colonne est
    faible
  • distance du Khi-2 entre m et h
  • Distance euclidienne dans un espace à p
    dimensions entre 2 points de coordonnées
  • Plusieurs variantes selon le tableau analysé

20
Variantes de lAF des correspondances AFC,
ACM, ACM Ind x Var
  • AFC Analyse factorielle des correspondances
  • Analyse dun tableau de contingence
  • Pas de résultats sur les individus
  • AFC multiples MCA (multiple correspondence
    analysis)
  • Généralisation de lanalyse à plusieurs
    variables(A, B, C) x (A, B, C)
  • Lanalyse est effectuée sur le tableau de BURT
    qui croise alors
  • Toutes les modalités entre elles (en ligne et en
    colonne)
  • (A1, A2, A3, B1, B2, C1, C2, C3) x (A1, A2, A3,
    B1, B2, C1, C2, C3)
  • Pas de résultats sur les individus
  • AFC multiples (Ind x Variables) et non plus
    (Variable x Variable)
  • Tableau
  • disjonctif complet Tableau Ind x (V1m1, V1m2,
    V5m1, V5m2, )
  • Tout tableau symétrique dont les sommes
    marginales sont constantes
  • Caractéristiques
  • Une ligne est alors un individu (répondant)
  • Chaque colonne représente une modalité de chaque
    variable catégorielle étudiée
  • Le codage est 0/1 selon la réponse (Tableau
    disjonctif complet (x et (1-x))
  • Résultats sur les individus
  • Attention linterprétation individu x variable
    nest alors plus possible

21
SAS AFC (tableau de contingence)
data in input ID C1-C8 _at__at_ cards L1 15 7
26 19 12 6 2 11 L2 15 5 39 15 10 2 2 10 L3 16 7
30 13 20 5 2 6 L4 15 6 27 13 29 5 2 3 L5 15 6 32
17 18 4 2 6 L6 17 6 33 15 16 4 2 6 L7 14 6 36 17
11 2 3 11 L8 20 7 34 14 10 2 2 10 L9 17 7 35 14
17 2 3 5 goptions resetsymbol / remise à
zéro des options graphiques / proc corresp
datain outccorr var c1-c8 si le tableau
est entré en tableau croisé Tables L , C
si on travaille à partir des individus id
ID data work set corr if _TYPE_'OBS'
Xdim1 Ydim2 color"black" textID
variable d'identification size2 xsys'2'
ysys'2' Label Y'Dim 2'X'Dim 1' keep X Y
Xsys Ysys text size color run Title4 'premier
plan factoriel Profils Lignes' Proc gplot
datawork symbol1 Vnone inone plot YX1 /
annotatework Frame Href0 Vref0 run
profils colonne data work set
corr if _TYPE_'VAR' Xdim1 Ydim2
color"black"textID variable
d'identification size2 xsys'2' ysys'2'
Label Y'Dim 2 X'Dim 1' keep X Y Xsys Ysys
text size color run Title4 'premier plan
factoriel Profils Colonnes' Proc gplot
datawork symbol1 Vnone inone plot YX1
/ annotatework Frame Href0 Vref0/ annotate
ajoute le label/ run
22
SAS ACM (disjonctif complet )
data in modalités sont transformées en tableau
disjonctif complet input (ID x1-X4 sup) ()
_at__at_ cards I1 A1 B2 C3 D4 Out I2 A2 B2 C2 D2 In
I3 A1 B1 C2 D3 Out I4 A2 B1 C1 D4 Out I5 A2 B2 C1
D1 In I6 A1 B1 C3 D1 In I7 A2 B2 C2 D1
Out proc corresp datain obs all outccorr
ne pas mettre MCA Tables ID, X1 X2 X3 X4 sup
supplementary sup data work set corr if
_TYPE_'VAR' Xdim1 Ydim2 color"black"
text_name_ size2 xsys'2' ysys'2' Label
Y'Dim 2 X'Dim 1' keep X Y Xsys Ysys text
size color run Title4 'premier plan
factoriel' Proc gplot datawork symbol1 Vnone
inone symbol2 Vnone inone plot YX1 /
annotatework Frame Href0 Vref0 run data work
/ avec les variables supplémentaires / set
corr if _TYPE_'VAR' or _TYPE_'SUPVAR' if
_TYPE_'VAR' then color'BLUE' if
_TYPE_'SUPVAR' then color'RED' Xdim1
Ydim2 text_name_ variable d'identification
size1 xsys'2' ysys'2' Label Y'Dim 2
X'Dim 1' keep X Y Xsys Ysys text size color
run Title4 'premier plan factoriel variables
supplémentaires' Proc gplot datawork symbol1
Vnone inone symbol2 Vnone inone plot
YX1 / annotatework Frame Href0 Vref0
run data work set corr / avec les variables
supplémentaires / if _TYPE_'OBS' Xdim1
Ydim2 color"black" text_name_ variable
d'identification size1 xsys'2' ysys'2'
Label Y'Dim 2'X'Dim 1' keep X Y Xsys Ysys
text size color run Title4 'premier plan
factoriel individus' Proc gplot datawork
symbol1 Vnone inone plot YX1 /
annotatework Frame Href0 Vref0 run
23
SAS ACM (tableau de burt)
options nocenter title1 h2 jl "Analyse
factorielle des correspondaces multiples (X1 X2
X3)(X1 X2 X3)" goptions resetsymbol data
in input (ID x1-X4 sup) () cards I1 A1
B2 C3 D4 Out I2 A2 B2 C2 D2 In I3 A1 B1 C2 D3
Out I4 A2 B1 C1 D4 Out I5 A2 B2 C1 D1 In I6 A1 B1
C3 D1 In I7 A2 B2 C2 D1 Out proc corresp
datain mca obs all outccorr tables x1--x4
sup lister simplement les variables
supplementary sup title4 "Analyse des
correspondances multiples " data work set
corr if _TYPE_'VAR' Xdim1
Ydim2text_name_ size2xsys'2'ysys'2'
Label Y'Dim 2'X'Dim 1' keep X Y Xsys Ysys
text size run Title4 'premier plan
factoriel' Proc gplot datawork symbol1 Vnone
inone plot YX1 / annotatework Frame Href0
Vref0 run data work set corr avec les
variables supplémentaires if _TYPE_'VAR' or
_TYPE_'SUPVAR' if _TYPE_'VAR' then
color'BLUE' if _TYPE_'SUPVAR' then
color'RED' Xdim1 Ydim2text_name_
variable d'identification size1xsys'2'ysys
'2' Label Y'Dim 2 X'Dim 1' keep X Y Xsys
Ysys text size color run Title4 'premier plan
factoriel' Proc gplot datawork symbol1 Vnone
inone plot YX1 / annotatework Frame Href0
Vref0run
24
Coordonnées des individus en sortie dACM
  • Comment obtenir les résultats sur les individus
    avec la procédure CORRESP sans passer par un
    tableau disjonctif complet ?
  • Alors, la meilleure solution est de tirer partie
    de la formule de reconstitution des données
  • il s'agit dans un premier temps d'effectuer
    l'analyse sur le tableau de Burt, ce qui a pour
    inconvénient de ne pas restituer les coordonnées
    des individus sur les axes.
  • Puis de calculer ces coordonnées à l'aide de la
    formule suivante à un facteur 1/racine(valeur
    propre de l'axe concerné) près, la coordonnée
    d'un individu sur un axe est égale à la somme
    arithmétique simple des coordonnées des
    catégories auxquelles il appartient sur ce même
    axe.

25
MESURE DUNE VARIABLE
  • Observable ou Latente
  • Le marketing  consommateur  utilise des
    variables qui ne peuvent pas être mesurés de
    manière  objective 
  • Notoriété, image de marque, capital marque,
    implication, fidélité, engagement, confiance,
    intérêt, intention dachat,
  • Des mesures de ces variables  latentes  (non
    mesurables directement) sont  construites  à
    partir de réponses à des questions (items)
  • Les items retenus forment une  échelle de
    mesure 
  • Comme dans chaque réponse, il y a une part
    daléa, on réduit cet aléa en prenant une
    synthèse de plusieurs mesures
  • Par une moyenne sur les réponses brutes ou
    standardisées
  • Par le calcul dun facteur qui ne reprend que ce
    que les items ont en commun (analyse factorielle)
  • http//fr.wikipedia.org/wiki/QualitC3A9_mC3A9t
    rologique_des_appareils_de_mesure

26
VALIDITE dune échelle de mesure
F2
Niveau THEORIQUE
F1
F3
Autre échantillon
X4
X1
X2
X3
Niveau EMPIRIQUE
27
FIABILITE dune échelle de mesure
  • Une échelle est  fiable  si elle donne les
    mêmes résultats lorsque le phénomène na pas
    changé
  • Indépendance
  • De lutilisateur, du lieu, du temps, de
    lutilisation antérieure sur les mêmes sujets,
  • Si ces éléments ninfluencent pas le phénomène
    étudié
  • Test-Retest corrélation des mesures répétées
    sur un même échantillon
  • Effet dhistoire le phénomène a pu changer en
    (t1)/t
  • Effet dapprentissage des répondants
  • Split-Half corrélation de 2 échelles
    indépendantes à partir des items de léchelle
  • Le construit peut ne plus être bien mesuré
  • Sensibilité au nombre ditems
  • Faire plusieurs essais

28
Mesure de la cohérence interne dune échelle
intervalle Alpha de Cronbach
  • Degré selon lequel les items dune échelle
    mesurent conjointement le même  construit 
  • Calcul
  • Si² variance de litem i
  • Sy² variance du score (somme des items)
  • k le nombre ditems
  • Recoder les items inversés pour éviter un alpha
    négatif
  • Interprétation
  • Alpha e 0,1, corrélation parfaite 1
  • Seuil minimum conseillé alpha gt 0.7
  • Dépend positivement du nombre des items et de
    leur corrélation

29
Composantes principales ou Facteurs communs
  • Expliquer toute la Variance ou Se concentrer sur
    ce que les variables en en commun ?
  • En ACP la diagonale de la matrice V (covariance
    ou corrélation) est lunité
  • On cherche à reconstituer la variance des
    variables (diagonale ou trace)
  • AFCS la diagonale est composée par les
     communalités  (toujours lt1). Le reste des
    variations est attribué à des  erreurs 
  • On se concentre sur lanalyse des relations entre
    les variables
  • Car chaque variable peut être mesurée avec erreur
  • La différence fondamentale tient dans
  • Le modèle formatif de lanalyse factorielle F
    f(X)
  • Le modèle réflexif de lAFCS X f(F)

30
Modèle Formatif ou Réflexif
z a1X1 a2X2 a3X3
Schéma Formatif
Schéma Réflexif
z
z
X3
X3
X1
X1
X2
X2
X3 a3 z
X1 a1 z
X2 a2 z
31
Fiabilité dune variable ordinale Corrélation
polychorique
  • Corrélation entre des variables non-métriques
    (nominales ou ordinales)
  • Qui sont les variables manifestes de variables
    latentes continues (intention dachat)
  • Bonne estimation de la fiabilité indépendamment
    de la forme de la distribution et du nombre de
    points
  • Alors que le alpha sera biaisé (plus bas)
  • En savoir plus sur les corrélations
    http//faculty.chass.ncsu.edu/garson/PA765/correl.
    htm
Write a Comment
User Comments (0)
About PowerShow.com