Title: Analyse des donnes applique au marketing
1Analyse des donnéesappliquée au marketing
2Analyses factorielles
Analyse des donnéesappliquée au marketing
3ANALYSES FACTORIELLES
- Principe et Intérêt
- Méthodes
- Analyse en composantes principales
- Analyse factorielle (en facteurs communs et
spécifiques) - Analyse factorielle des correspondances
- Simples
- Multiples
- Information de base
- La matrice des variances-covariances
4Intérêt de lanalyse factorielle
- Les variables sont rarement indépendantes les
unes des autres - Linformation sur leurs relations (linéaires) est
contenue - Dans la matrice de variance-covariance
- Dans la matrice des corrélations (si les
variables standardisées) - On va chercher
- A étudier des variables qui ont quelque chose en
commun - A réduire lespace des variables (sans perdre
trop dinformation) - A trouver des  facteurs sous-jacents qui
restituent la plus grande partie de linformation - À interpréter ces facteurs en fonction de la
contribution des variables à leur constitution - A identifier les variables qui sont mal
représentées - Par la famille des méthodes danalyse factorielle
5Les différentes méthodes
- Les méthodes appliquées aux distances
- Les données brutes
- Des variables quantitatives (analyse factorielle)
- Distance euclidienne
- Des comptages/fréquences (analyse des
correspondances) - Distance du khi2 surpondère les modalités rares
- Que lon cherche Ã
- Retrouver toute linformation initiale (AF
exploratoire) - Analyse en composantes principales
- Retrouver une structure sous-jacente entre les
variables (AF confirmatoire) - Analyse en facteurs communs et spécifiques
- Les méthodes appliquées aux similarités
(dissimilarités)
6Un grand classique le positionnement
-  Positionnement des marques dans un espace
selon les perceptions des usages, des attributs
symboliques, des clients types - Mais permettant aussi de placer le centre de
gravité de groupes de clients selon leurs
préférences pour les marques - Il faut obtenir
- Des distances inter-marques D
- Des évaluations marques x perceptions E
- Des préférences sur les marques P
- Cela permet de guider les évolutions du mix pour
-  différencier la marque de ses concurrents
- La rapprocher des attentes dun segment cible
- Difficulté faut-il forcer les clients à évaluer
les marques sur des dimensions particulières
(oubli de dimensions importantes ?) - Démarche D -gt E ou E -gt D
7Présentation graphique
- Décomposition de l'inertie d'un nuage de points
- en variation axiale (VA) sur un axe passant par
le centre de gravité et - en variation orthogonale (VO).
- VTVOVA ??Mi.G2?? (Mi.mi)2 ??(mi.G)2
- précision de la configuration
- inertie expliquée VA / VT
8Procédure pour une analyse factorielle
- Formulation du problème
- Calcul de la matrice de corrélation
- Test de lintérêt dune analyse factorielle
- Choix de la méthode
- Détermination du nombre de facteurs
- Rotation éventuelle des facteurs
- Interprétation des axes factoriels
- Calcul des scores factoriels
- Détermination de la qualité de l'ajustement
9Les tests préalables en AF
- Toutes les variables ont-elles une place dans
lanalyse factorielle ? - Peut-être que NON
- si elles ne partagent pas un minimum de
corrélation - Si elles sont mal représentées dans lespace
choisi (nombre daxes gardés) - Test de Bartlett Test de sphéricité de la
matrice Var-Covar - H0 la matrice de corrélation na que des 1 en
diagonale et 0 ailleurs (Donc les variables ne
sont pas corrélées) - Cest un test du Khi2. Si Khi2 calculé gt Khi2
critique rejet de H0 - Test de Kaiser-Meyer-Olkin (KMO) (0ltlt1)
- Etude des corrélations (partielles) entre 2
variables, non expliquées par leffet des autres
variables (ie. par un facteur sous-jacent) - KMO ratio de la somme des corrélations
multiples sur la somme des corrélations multiples
et partielles. - Le KMO doit être le plus grand possible
- moyen si gt 0.7
- inacceptable si lt0.5
- Indice MSA (measure of sample adequacy) (0ltlt1)
- Même approche que le KMO mais variable par
variable - Enlever les variables ayant un MSA lt 0.5
10Analyse factorielle
- Facteur combinaison linéaire des variables
- F(i) w1X1i w2X2i w3X3i w4X4i
- w score factoriel
- X1(i) a1F1i a2F2i a3F3i a4F4i a5(facteur
spécifique)i - Extraction des vecteurs propres (Ui) et des
valeurs propres (?) de la matrice de variance
covariance (V) - V-?.I.Ui0
- La valeur propre représente la variance expliquée
par un facteur - La trace de la matrice V est la somme des
variances - Si on utilise les corrélations, la somme vaut J
variables - dinertie reconstituée le ratio de la valeur
propre, ou de la somme des valeurs propres du
plan, sur la trace (total des valeurs propres)
11AF en composantes principales (ACP)
- Cest une analyse NON symétrique, descriptive /
exploratoire - Les  variables sont en colonnes
- Les  individus en lignes
- Variables
- des valeurs numériques de n individus sur p
variables - Puis calcul de la matrice de variance-covariance
V - Puis, éventuellement, des corrélations C
(variance1) - On cherche à reconstituer (avec la moindre perte
dinformation) - les relations entre les variables (covariances /
corrélations) - ET les variances des variables
- Par un nombre réduit de facteurs orthogonaux
- les composantes principales
- Standardisation éventuelle au préalable (variance
ou corrélation)
Matrices Ind x Var -gt Var x Var V
-gt C
12Lecture des résultats
- les composantes sont orthogonales
- extraites par ordre d'importance décroissante
- seules les premières sont gardées (max J)
- d'inertie expliquée par le facteur
- Contribution d'une variable à un axe
- Factor loading corrélation variable et facteur
(matrice factorielle) - Communalités de variance extraite par les
facteurs retenus - scores factoriels nouvelles variables pour les
objets étudiés
13Saturation, Contribution et Communalité
(communauté)
- 2 visions celle du facteur et celle de la
variable - F(i) w1x1i w2x2i w3x3i w4x4i
- w score factoriel, nouvelles variables pour les
lignes (individus) - X1(i) a1F1i a2F2i a3F3i a4F4i a5(facteur
spécifique)i - Factor loading (saturation) corrélation dune
variable et dun facteur - Contribution (saturation)2 variance dune
variable restituée par un facteur - La somme des contributions pour un facteur donne
la variance du facteur (sa valeur propre) - Communalité (communauté)
- de variance dune variable extraite
(reconstituée) - par tous les facteurs retenus
14Choix du nombre de facteurs
- Combien de facteurs faut-il retenir ?
- Détermination a priori
- Règle de Kaiser Garder les facteurs dont la
valeur propre (l) gt 1 - Car si les valeurs sont standardisées, la
variance de chaque variable est 1 - Test du coude (scree test, Test de Cattell)
- retenir les facteurs dont la valeur propre se
situe avant la cassure du  coude (pente forte
puis pente faible) - de variance reconstituée sil est trop
faible, la représentation est trop imparfaite - Un minimum de 60 est souhaitable
- Test-retest découper léchantillon et garder la
structure commune observée dans les deux analyses - La difficulté dinterprétation des espaces
supérieurs à 3 dimensions multiplie la difficulté
de lanalyse (plans 1x2, 1x3, 2x3 etc)
15Quelle est la signification dun axe ?
- Les composantes sont des combinaisons linéaires
des variables - Orthogonales (non corrélées entre elles)
- Extraites par ordre d'importance décroissante
- Seules les premières sont gardées (max J)
- il y a donc perte dinformation
- La signification dun axe est donnée
- par les variables
- qui contribuent le plus à cet axe (en positif et
en négatif) - sans contribuer aussi à dautres axes
- Éventuellement après rotation
16Rotations des axes factoriels
- Pour en faciliter linterprétation
- Il est possible de faire tourner le système
daxes factoriels - En modifiant la relation variable-axe
- Sans changer la part de linertie totale
reconstituée - Mais en modifiant linertie reconstituée par
chaque axe - Les rotations sont Orthogonales ou Obliques
- Les rotations orthogonales se font selon le
critère que lon choisit de maximiser - VARIMAX critère Max saturation sur un seul
facteur. Maximiser la corrélation avec un axe
unique et réduire la corrélation avec les autres
axes gt clarifier linterprétation des axes (peu
de variables) - QUARTIMAX Réduire le nombre de facteurs
permettant de reconstituer une variable - Les rotations obliques supposent que les facteurs
sont reliés entre eux (OBLIMIN) - !!! Difficile à interpréter correctement
17Interprétation ACP
- Un espace des variables
- Inscrit dans un cercle de corrélations (-11)
- Plus la variable est proche du cercle, mieux elle
est représentée - Plus la variable est proche du facteur, plus elle
y contribue - Une variable est un vecteur (une flèche) qui part
du centre et pointe vers la position de la
variable (et plus loin.) - Une variable proche du centre est mal représentée
dans cet espace - Un espace des individus
- Qui ne peut être superposé à celui des variables
- Qui peut faire lobjet dune typologie
- Les coordonnées sur les axes sont sauvées en
variables supplémentaires (Fact_1,) - On ninterprète pas la proximité Individu (point)
x Variable (vecteur)
18ANALYSE DES CORRESPONDANCES (factorielle)
- Spécificités
- correspondance entre 2 ensembles de variables (et
non plus individus x variables) - l'analyse est donc symétrique (les axes
factoriels sont les mêmes) - On peut donc interpréter graphiquement toutes les
proximités (var-var, ind-var, ind-ind) - Types de données et danalyses
- Les données sont des tableaux deffectifs (doù
la distance du khi2) - Tableau de fréquences (tableau croisé)
- Tableau de contingence (données binaires
individus-variables catégorielles) - Tableau disjonctif complet (x et (1-x))
- Propriété de l'équivalence distributionnelle
- si deux objets sont confondus, leur fusion ne
modifie pas les résultats
19Analyse des correspondances Principe
- Analyse dun tableau de fréquences
- L'écart entre deux colonnes est d'autant plus
valorisé que la fréquence de la colonne est
faible - distance du Khi-2 entre m et h
- Distance euclidienne dans un espace à p
dimensions entre 2 points de coordonnées - Plusieurs variantes selon le tableau analysé
20Variantes de lAF des correspondances AFC,
ACM, ACM Ind x Var
- AFC Analyse factorielle des correspondances
- Analyse dun tableau de contingence
- Pas de résultats sur les individus
- AFC multiples MCA (multiple correspondence
analysis) - Généralisation de lanalyse à plusieurs
variables(A, B, C) x (A, B, C) - Lanalyse est effectuée sur le tableau de BURT
qui croise alors - Toutes les modalités entre elles (en ligne et en
colonne) - (A1, A2, A3, B1, B2, C1, C2, C3) x (A1, A2, A3,
B1, B2, C1, C2, C3) - Pas de résultats sur les individus
- AFC multiples (Ind x Variables) et non plus
(Variable x Variable) - Tableau
- disjonctif complet Tableau Ind x (V1m1, V1m2,
V5m1, V5m2, ) - Tout tableau symétrique dont les sommes
marginales sont constantes - Caractéristiques
- Une ligne est alors un individu (répondant)
- Chaque colonne représente une modalité de chaque
variable catégorielle étudiée - Le codage est 0/1 selon la réponse (Tableau
disjonctif complet (x et (1-x)) - Résultats sur les individus
- Attention linterprétation individu x variable
nest alors plus possible
21SAS AFC (tableau de contingence)
data in input ID C1-C8 _at__at_ cards L1 15 7
26 19 12 6 2 11 L2 15 5 39 15 10 2 2 10 L3 16 7
30 13 20 5 2 6 L4 15 6 27 13 29 5 2 3 L5 15 6 32
17 18 4 2 6 L6 17 6 33 15 16 4 2 6 L7 14 6 36 17
11 2 3 11 L8 20 7 34 14 10 2 2 10 L9 17 7 35 14
17 2 3 5 goptions resetsymbol / remise Ã
zéro des options graphiques / proc corresp
datain outccorr var c1-c8 si le tableau
est entré en tableau croisé Tables L , C
si on travaille à partir des individus id
ID data work set corr if _TYPE_'OBS'
Xdim1 Ydim2 color"black" textID
variable d'identification size2 xsys'2'
ysys'2' Label Y'Dim 2'X'Dim 1' keep X Y
Xsys Ysys text size color run Title4 'premier
plan factoriel Profils Lignes' Proc gplot
datawork symbol1 Vnone inone plot YX1 /
annotatework Frame Href0 Vref0 run
profils colonne data work set
corr if _TYPE_'VAR' Xdim1 Ydim2
color"black"textID variable
d'identification size2 xsys'2' ysys'2'
Label Y'Dim 2 X'Dim 1' keep X Y Xsys Ysys
text size color run Title4 'premier plan
factoriel Profils Colonnes' Proc gplot
datawork symbol1 Vnone inone plot YX1
/ annotatework Frame Href0 Vref0/ annotate
ajoute le label/ run
22SAS ACM (disjonctif complet )
data in modalités sont transformées en tableau
disjonctif complet input (ID x1-X4 sup) ()
_at__at_ cards I1 A1 B2 C3 D4 Out I2 A2 B2 C2 D2 In
I3 A1 B1 C2 D3 Out I4 A2 B1 C1 D4 Out I5 A2 B2 C1
D1 In I6 A1 B1 C3 D1 In I7 A2 B2 C2 D1
Out proc corresp datain obs all outccorr
ne pas mettre MCA Tables ID, X1 X2 X3 X4 sup
supplementary sup data work set corr if
_TYPE_'VAR' Xdim1 Ydim2 color"black"
text_name_ size2 xsys'2' ysys'2' Label
Y'Dim 2 X'Dim 1' keep X Y Xsys Ysys text
size color run Title4 'premier plan
factoriel' Proc gplot datawork symbol1 Vnone
inone symbol2 Vnone inone plot YX1 /
annotatework Frame Href0 Vref0 run data work
/ avec les variables supplémentaires / set
corr if _TYPE_'VAR' or _TYPE_'SUPVAR' if
_TYPE_'VAR' then color'BLUE' if
_TYPE_'SUPVAR' then color'RED' Xdim1
Ydim2 text_name_ variable d'identification
size1 xsys'2' ysys'2' Label Y'Dim 2
X'Dim 1' keep X Y Xsys Ysys text size color
run Title4 'premier plan factoriel variables
supplémentaires' Proc gplot datawork symbol1
Vnone inone symbol2 Vnone inone plot
YX1 / annotatework Frame Href0 Vref0
run data work set corr / avec les variables
supplémentaires / if _TYPE_'OBS' Xdim1
Ydim2 color"black" text_name_ variable
d'identification size1 xsys'2' ysys'2'
Label Y'Dim 2'X'Dim 1' keep X Y Xsys Ysys
text size color run Title4 'premier plan
factoriel individus' Proc gplot datawork
symbol1 Vnone inone plot YX1 /
annotatework Frame Href0 Vref0 run
23SAS ACM (tableau de burt)
options nocenter title1 h2 jl "Analyse
factorielle des correspondaces multiples (X1 X2
X3)(X1 X2 X3)" goptions resetsymbol data
in input (ID x1-X4 sup) () cards I1 A1
B2 C3 D4 Out I2 A2 B2 C2 D2 In I3 A1 B1 C2 D3
Out I4 A2 B1 C1 D4 Out I5 A2 B2 C1 D1 In I6 A1 B1
C3 D1 In I7 A2 B2 C2 D1 Out proc corresp
datain mca obs all outccorr tables x1--x4
sup lister simplement les variables
supplementary sup title4 "Analyse des
correspondances multiples " data work set
corr if _TYPE_'VAR' Xdim1
Ydim2text_name_ size2xsys'2'ysys'2'
Label Y'Dim 2'X'Dim 1' keep X Y Xsys Ysys
text size run Title4 'premier plan
factoriel' Proc gplot datawork symbol1 Vnone
inone plot YX1 / annotatework Frame Href0
Vref0 run data work set corr avec les
variables supplémentaires if _TYPE_'VAR' or
_TYPE_'SUPVAR' if _TYPE_'VAR' then
color'BLUE' if _TYPE_'SUPVAR' then
color'RED' Xdim1 Ydim2text_name_
variable d'identification size1xsys'2'ysys
'2' Label Y'Dim 2 X'Dim 1' keep X Y Xsys
Ysys text size color run Title4 'premier plan
factoriel' Proc gplot datawork symbol1 Vnone
inone plot YX1 / annotatework Frame Href0
Vref0run
24Coordonnées des individus en sortie dACM
- Comment obtenir les résultats sur les individus
avec la procédure CORRESP sans passer par un
tableau disjonctif complet ? - Alors, la meilleure solution est de tirer partie
de la formule de reconstitution des données - il s'agit dans un premier temps d'effectuer
l'analyse sur le tableau de Burt, ce qui a pour
inconvénient de ne pas restituer les coordonnées
des individus sur les axes. - Puis de calculer ces coordonnées à l'aide de la
formule suivante à un facteur 1/racine(valeur
propre de l'axe concerné) près, la coordonnée
d'un individu sur un axe est égale à la somme
arithmétique simple des coordonnées des
catégories auxquelles il appartient sur ce même
axe.
25MESURE DUNE VARIABLE
- Observable ou Latente
- Le marketing  consommateur utilise des
variables qui ne peuvent pas être mesurés de
manière  objective - Notoriété, image de marque, capital marque,
implication, fidélité, engagement, confiance,
intérêt, intention dachat, - Des mesures de ces variables  latentes (non
mesurables directement) sont  construites Ã
partir de réponses à des questions (items) - Les items retenus forment une  échelle de
mesure - Comme dans chaque réponse, il y a une part
daléa, on réduit cet aléa en prenant une
synthèse de plusieurs mesures - Par une moyenne sur les réponses brutes ou
standardisées - Par le calcul dun facteur qui ne reprend que ce
que les items ont en commun (analyse factorielle) - http//fr.wikipedia.org/wiki/QualitC3A9_mC3A9t
rologique_des_appareils_de_mesure
26VALIDITE dune échelle de mesure
F2
Niveau THEORIQUE
F1
F3
Autre échantillon
X4
X1
X2
X3
Niveau EMPIRIQUE
27FIABILITE dune échelle de mesure
- Une échelle est  fiable si elle donne les
mêmes résultats lorsque le phénomène na pas
changé - Indépendance
- De lutilisateur, du lieu, du temps, de
lutilisation antérieure sur les mêmes sujets, - Si ces éléments ninfluencent pas le phénomène
étudié - Test-Retest corrélation des mesures répétées
sur un même échantillon - Effet dhistoire le phénomène a pu changer en
(t1)/t - Effet dapprentissage des répondants
- Split-Half corrélation de 2 échelles
indépendantes à partir des items de léchelle - Le construit peut ne plus être bien mesuré
- Sensibilité au nombre ditems
- Faire plusieurs essais
28Mesure de la cohérence interne dune échelle
intervalle Alpha de Cronbach
- Degré selon lequel les items dune échelle
mesurent conjointement le même  construit - Calcul
- Si² variance de litem i
- Sy² variance du score (somme des items)
- k le nombre ditems
- Recoder les items inversés pour éviter un alpha
négatif - Interprétation
- Alpha e 0,1, corrélation parfaite 1
- Seuil minimum conseillé alpha gt 0.7
- Dépend positivement du nombre des items et de
leur corrélation
29Composantes principales ou Facteurs communs
- Expliquer toute la Variance ou Se concentrer sur
ce que les variables en en commun ? - En ACP la diagonale de la matrice V (covariance
ou corrélation) est lunité - On cherche à reconstituer la variance des
variables (diagonale ou trace) - AFCS la diagonale est composée par les
 communalités (toujours lt1). Le reste des
variations est attribué à des  erreurs - On se concentre sur lanalyse des relations entre
les variables - Car chaque variable peut être mesurée avec erreur
- La différence fondamentale tient dans
- Le modèle formatif de lanalyse factorielle F
f(X) - Le modèle réflexif de lAFCS X f(F)
30Modèle Formatif ou Réflexif
z a1X1 a2X2 a3X3
Schéma Formatif
Schéma Réflexif
z
z
X3
X3
X1
X1
X2
X2
X3 a3 z
X1 a1 z
X2 a2 z
31Fiabilité dune variable ordinale Corrélation
polychorique
- Corrélation entre des variables non-métriques
(nominales ou ordinales) - Qui sont les variables manifestes de variables
latentes continues (intention dachat) - Bonne estimation de la fiabilité indépendamment
de la forme de la distribution et du nombre de
points - Alors que le alpha sera biaisé (plus bas)
- En savoir plus sur les corrélations
http//faculty.chass.ncsu.edu/garson/PA765/correl.
htm