Title: Analyse des donnes applique au marketing
1Analyse des donnéesappliquée au marketing
2Organisation du cours 1/2
- Objectifs à lissue du cours, létudiant doit
- Connaître le principe de base et les limites des
différentes méthodes - Savoir les mettre en uvre
- Savoir interpréter les résultats
- Savoir choisir la méthode la plus adaptée Ã
lobjectif de létude et à la nature des données - Animation
- Lecture autonome dun livre de référence par
létudiant - Présentation et discussion des éléments clés en
cours - Application de la méthode (mise en uvre et
interprétation) sur des petits cas - Travail autonome de traitement dune base de
données
3Organisation du cours 2/2
- Contrôle
- Quiz et TD
- Rapport détude sur lanalyse dune base de
données ou dune enquête - Lectures
- Lecture obligatoire des chapitres avant chaque
séance - Jolibert A. et Jourdan P. (2006), Marketing
research, Dunod - Evrard, Y, Pras B. et Roux E. (2003) MARKET,
Dunod, Paris. - Malhotra N., Décaudin J.-M. et Bouguerra A.
(2004), Etudes marketing avec SPSS, Pearson
Education
4Cas  BBB Book binders book clubÂ
- Le cas
- La base de données
-  Fil rouge pour les traitements statistiques
5Cas  Balles de tennisÂ
- Le questionnaire
- La base de données
- Le programme de lecture
-  Fil rouge pour les traitements statistiques
- Possibilité de faire des analyses complémentaires
dans le cadre du travail personnel
6Les problématiques
- Prendre en main une base de données
- Décrire et Interpréter
- Tester des hypothèses et éclairer des décisions
- Analyser les relations entre les variables
- Identifier des groupes de répondants
- Vérifier un effet de causalité pour une variable
daction - Prévoir des comportements
- Créer une mesure
7Les problématiques
- Prendre en main une base de données
- Décrire et Interpréter
- Tester des hypothèses et éclairer des décisions
- Analyser les relations entre les variables
- Identifier des groupes de répondants
- Vérifier un effet de causalité pour une variable
daction - Prévoir des comportements
- Créer une mesure
81. Prendre en main une base de données
- Vérifier les données et la qualité
- Etudier les réponses pour chaque variable
- Etudier et Traiter
- Les valeurs manquantes
- Les valeurs extrêmes, voire aberrantes
- Transformer, Recoder
- Choisir le niveau danalyse (agréger, éclater)
- Redresser un échantillon
9Acquérir les données
- Sources
- Les entrer directement
- Lire / importer un fichier existant (tableur,
traitement de texte,) - Toujours les regarder et vérifier la bonne entrée
- Difficultés
- Un enregistrement les données pour 1 individu
- Mais une ligne contient au maximum 256 caractères
- Un enregistrement peut contenir plusieurs lignes
- Chaque ligne se termine par un caractère de fin
de ligne - Le séparateur décimal  , ou  .Â
- Quel mode de séparation des valeurs ?
- Espace (fichier.prn)
- Tabulation (fichier.txt)
- Point virgule (fichier.csv)
10Terminologie
Variables
Caractéristiques
Réponses
Individus
- Une variable x
- Est mesurée sur un individu i et donne une
observation xi - Il y a n observations (effectifs)
11Pré-traitement des données
- Vérifier les valeurs et modalités extrêmes ou
 aberrantes - Compter les valeurs  manquantesÂ
- Recoder des variables
- Regrouper des modalités à effectif faible
- Discrétiser une variable continue
- Tableau de synthèse sur les modalités dune
variable de classification - Un autre tableau (région, enseigne,)
- Traitement des réponses multiples
- Quelles enseignes fréquentez-vous ?
- Bien identifier  lobservation de baseÂ
(individu, marque ?) -  éclater lobservation sur plusieurs lignes
ou, au contraire, - Construire différentes variables pour les marques
12Une valeur est-elle  extrême ?
- Valeurs hors-norme, exceptionnelles, aberrantes
(outliers) - Elles influencent beaucoup la moyenne et la
variance - Identifier ces observations
- /- 3 écart-type de la moyenne
- Calcul dun effet de levier (importance du point
dans le calcul de la variance) - Les comprendre (Quelles sources/origines ?)
- Les traiter
- Éliminer la donnée
-  trimer remplacer la valeur par la valeur
correspondant à 95 ou 99 de la loi normale
13Valeurs manquantes
- Différentes formes de réponses manquantes
- Pas voulu/su répondre
- Quel est votre salaire mensuel brut ?
- Pas pu répondre
- Avez-vous des enfants ?
- Quels âges ont-ils ?
- Traitement
- Élimination (perte dinformation)
- Pour les variables concernées
- Pour tout le traitement
- Attention à la contagion tout calcul intégrant
une valeur manquante donne une valeur manquante ! - Remplacement
- à la moyenne générale,
- des plus proches voisins,
14CodagesDe lobservation à linformation
- Une variable quantitative
- Discrète
- Transformée en variables binaires variable
binaire (dummy) - Classées en modalités échelle nominale
- Éventuellement ordonnées échelle ordinale
- Continue
- Sans zéro absolu échelle intervalle
- Avec un zéro absolu échelle ratio
- Exemples
- Achèteriez-vous ce produit ? Oui / Non
- Cest un produit que je pourrai acheter (degré
daccord) - -- - Sur une échelle de 1 à 10, quelle est votre
intention dachat ? - Voici 10 jetons, répartissez les entre les
produits selon votre intention dachat. - A chaque type de variable correspondent des
traitements spécifiques
15Redressement par le quotient
- Léchantillon na pas la même structure quune
distribution connue sur la population (âge, sexe,
csp,) - Correction par le quotient (proportionalité
directe) - f la fréquence connue sur la population, p la
fréquence de léchantillon - m la valeur moyenne observée pour la variable sur
léchantillon - Alors lestimation redressée est mq m f/p
- Exemple
- le nombre moyen de caisses par magasin est 28
(f), - un échantillon de magasins donne 1102 K pour
28.8 caisses. - Lestimation redressée est 1071 K.
16Redressement par le quotient
- Une variable (de contrôle) a un effet important
sur la variable étudiée mais na pas été prise en
compte dans le plan de sondage. - Stratification  a posterioriÂ
- On calcule strate par strate un coefficient de
pondération permettant de retrouver la situation
quune stratification aurait garantie. - Exemple la possession dune Tv influence la
fréquentation du cinéma. - 80 de la population possède une Tv, 70
seulement dans léchantillon - Sur les 700 ayant une TV 20 sont allés au cinéma
la semaine précédente sur les 300 sans Tv, 80
sont allés au cinéma - Estimation brute 10 sont allés au cinéma
- Estimation corrigée 7.6 (2080/70 8020/30)
(pondération 1.14 et 0.66) - Règle empirique Souvent taux de correction du
simple au double (triple). La valeur du plus fort
taux de correction ne doit jamais être supérieure
à 5 fois celle du plus faible taux
17Les problématiques
- Prendre en main une base de données
- Décrire et Interpréter
- Tester des hypothèses et éclairer des décisions
- Analyser les relations entre les variables
- Identifier des groupes de répondants
- Vérifier un effet de causalité pour une variable
daction - Prévoir des comportements
- Créer une mesure
182. Décrire et Interpréter
- Les  grands résultats empiriques (tendance
centrale) - Mode, Médiane, Moyenne
- La dispersion des réponses
- Etendue, Ecart-type, Variance
- La distribution dans son ensemble
- La généralisation dun résultat empirique
(inférence)
19Terminologie
- On peut regrouper les observations selon des
modalités j de la variable x - Et compter le nombre dobservations dans chaque
modalité (fréquence absolue f) - Éventuellement la ramener en pourcentage
(fréquence relative ou fonction de densité
théorique) - Compter le nombre dobservations de la plus
petite jusquà la modalité j (fréquence cumulée F
ou fonction de répartition théorique) - Le tableau de fréquence (distribution de
fréquences) regroupe lensemble des fréquences - Un tri simple présente les effectifs et de
chaque modalité - Un tableau (tri) croisé détermine les effectifs
pour chaque couple de modalité des deux variables - Un tableau donne des indications (moyenne, min,
max, écart-type,) sur des variables pour des
individus (regroupés)
20Définitions Tendance centrale
- Lobjectif est de
- Donner un ordre de grandeur
- panier moyen
- De comparer différents ensembles
- panier moyen selon les enseignes dhypermarché en
France en 2007 - Mode modalité la plus fréquente
- Adapté à toutes les variables discrètes
- Exemple
-  la modalité la plus fréquente du statut
matrimonial est marié(e) avec 52Â
21Définitions Tendance centrale Médiane et
Quantile
- Objectif obtenir des valeurs en fonction des
effectifs des individus - Pourquoi parce que certains individus peuvent
avoir des valeurs spécifiques - segmentation PMG, 20/80 dans le portefeuille
client - Permet didentifier un potentiel pour une
opération (offre dune promotion pour une
activité minimale de XXX. - Quantile (fractile) valeur qui divise les
observations en n groupes égaux () - Médiane la plus connue, 2 groupes,
- 50 ont une valeur inférieure 50 ont une valeur
supérieure - Quartiles 4 groupes 25, 50, 75
- Déciles (10), Percentiles (100)
- Les quantiles sont
- insensibles aux valeurs extrêmes
- Sa précision dépend de la densité des points
22Définitions Tendance centrale Moyenne
- Moyenne (m ou ) somme divisée par le nombre
dobservation - Arithmétique (somme)/n (la plus utilisée)
- Géométrique (racine nième du produit)
- Harmonique (moyenne des inverses)
- La moyenne est
- plus précise que les quantiles mais très
sensibles aux valeurs extrêmes - Permet de retrouver la somme si on la multiplie
par les effectifs - CA Nb de paniers Panier moyen
23Définitions Dispersion
- Déterminer limportance des variations des
observations autour de la tendance centrale - Etendue (ou écart) écart entre le Maximum et
le Minimum - Variations variations quadratiques autour de la
moyenne - Variance (V) moyenne des carrés des écarts à la
moyenne - Ecart-type (s) racine carrée de la variance
- Coefficient de variation (s/m) rapport de
lécart-type sur la moyenne - Intervalle inter-quartile différences des
quartiles Q3 et Q1 sur la médiane (Q2) - 50 des effectifs est entre les deux valeurs
- Erreur standard (s/racine(n))) écart-type de la
distribution déchantillonnage dun estimateur
24Centrer Réduire (Standardiser)
- Est-ce que la différence de variance est
principalement expliquée par la différence
dunité de mesure? - Centrer opération qui consiste à enlever la
valeur de la moyenne - La variable résultante a une moyenne de 0
- Réduire opération qui consiste à diviser la
valeur par lécart-type - La variable résultante a un écart-type de 1
- Standardiser cest centrer et réduire
- La variable résultante a une moyenne de 0 et un
écart-type de 1 - Intérêt ?
- Parce que lécart-type est sensible à lunité
choisie - Ramener les variations de différentes variables
en une même unité - Mais Limportance de la variance initiale de
chaque variable est perdue
25La distribution
- Ses caractéristiques
- Domaine de définition (positif/négatif, début Ã
0,) - Sa symétrie, son aplatissement
- Sa relation avec une distribution théorique
connue et tabulée - Histogramme Représentation graphique des
effectifs par modalité dune variable pour - Évaluer les fréquences relatives des différentes
modalités - Rapprocher une distribution empirique dune
distribution théorique
26Caractéristiques dune distribution
- Symétrie (skewness) degré de similarité dans la
distribution à gauche et à droite de la moyenne - Aplatissement (Kurtosis) degré de concentration
des valeurs autour de la moyenne - Interprétation
- Symétrie positive distribution trop à gauche,
petites valeurs - Aplatissement positif distribution très
 pointue - Valeur cible 0 Acceptables si inférieurs à 1
(voir tests) - LErreur standard permet de tester légalité à 0
27Ventes moyennes par magasin
28Les valeurs extrêmes
- Boite à moustache (Box plot)
- SPSS Moyenne au centre, Boite formée par les
quartiles Q1 (25) et Q3 (75) - Intervalle de confiance par des barres à IC 5 et
IC 95 avec un score Z (x-m)/s - Mais
- s (écart-type) est remplacé par une statistique
moins sensible aux valeurs extrêmes la déviation
absolue moyenne - MAD (mean absolute deviation) médiane x-m
- SAS médiane, quartiles (boite), min et max
(lignes), moyenne (point)
29Distributions théoriques
- Loi statistique avec
- Un ou plusieurs paramètres et,
- éventuellement, des degrés de liberté (v)
- Caractéristiques
- densité (f) ou Répartition (F, cumulée)
- Tabulée (tables ou excel ou autre)
- Si elle est adaptée à une distribution empirique,
elle permet de - Réduire leffet des particularités de
léchantillon -  Résumer la distribution de manière simple
- Identifier la valeur correspondant à un
pourcentage - Identifier le pourcentage correspondant à une
valeur particulière
30Loi Normale
- Http//www.marketing-science-center.com/charge/Nor
male.xls
31Fonction de répartition Prob(yltu)
32Fractiles
- Loi Normale
- Valeur de Y
- pour une probabilité donnée
33Distributions théoriques courantes
- Normale (Gauss, Laplace-Gauss)
- variable continue, /- infini, symétrique
- 2 paramètres (moyenne, écart-type), courbe en
 S - Student
- Pour les petits effectifs, queues de distribution
un peu plus importantes - Proche de la loi normale
- Binomiale 2 options pile-face, 0/1 ou
Multinomiale (jeu de dés) - Khi2 somme de lois Normales au carré
- F rapport de 2 distributions du Khi²
- Poisson discrète, comptage, fréquence dun
comportement - Logistique courbe en  S proche de la loi
Normale, plus facile à manipuler, éventuellement
à seuil,  queues de la distribution un peu
plus épaisses - Beta, Gamma, Weibull lois plus souples
34Loi de Poisson
- Http//www.marketing-science-center.com/charge/dis
tributions.xls - 1 seul paramètre (ms), Xgt0, X discret
35Des distributions particulières
- Avec plusieurs paramètres Beta, Gamma, Weibull
- http//www.marketing-science-center.com/charge/loi
s_continues.xls
36Les problématiques
- Prendre en main une base de données
- Décrire et Interpréter
- Tester des hypothèses et éclairer des décisions
- Analyser les relations entre les variables
- Identifier des groupes de répondants
- Vérifier un effet de causalité pour une variable
daction - Prévoir des comportements
- Créer une mesure
373. Tester des hypothèses et éclairer des décisions
- Sur la base des résultats empiriques,
- Que peut-on conclure qui puisse aider à prendre
une décision ? - Exemples
- Lâge influence t il le comportement dachat ?
- Le genre est-il associé à une différence de
panier moyen ? - Une donnée est-elle  aberrante ?
- Une distribution est-elle  Normale ?
38Etapes dun test
- Définition du problème
- Formulation des hypothèses (H0 et H1 Uni ou
Bilatéral) - Choix du niveau de risque / seuil de confiance
- Sélection du test approprié à la nature des
variables - Analyse
- Détermination du risque associé à la valeur
empirique - Comparaison de la valeur empirique à la valeur
critique associée au risque accepté - Interprétation
- Acceptation ou Rejet de lhypothèse
39Un problème la sélection
- Exemple
- On envisage denvoyer un mailing qui coûte 1 euro
pièce - Si la personne répond, la marge est de 15 euros
- Les adresses dun fichier ont des probabilités de
réponses différentes - Quel est la probabilité seuil que lon retient
pour sélectionner ladresse ? - A partir de ce seuil comment sélectionner les
adresses ?
40Des hypothèses claires et précises (testables)
- Exemples
- La consommation est influencée par lâge
- Plus lâge est important, plus la consommation
est importante - Les seniors sont plus préoccupés par les
questions de santé - La variance des réponse des hommes sur la
variable X est identique à celle des femmes - La proportion des femmes est la même dans le
groupe des acheteurs et dans le groupe des
non-acheteurs - Les femmes ont une intention dachat plus élevée
que les hommes - Il faut pouvoir exprimer lhypothèse en une
différence à tester
41Quelles Hypothèses ?
- Définir les hypothèses (exhaustives)
- H0 une hypothèse de base
- Cest la plus plausible, celle en laquelle on
croît - H1 hypothèse adverse (complémentaire)
- Choix dun risque unilatéral ou bilatéral
- Bilatéral autour dune valeur cible
- Unilatéral inférieur ou supérieur à une valeur
cible - On cherche à  rejeter lhypothèse H0 qui
correspond à la vision acceptable (plutôt quÃ
 accepter ) - Exemples
- Bilatéral panier moyen (H0) PM 50 et (H1) PM
/ 50 - Unilatéral (H0) PMlt50 et (H1) PMgt50.
42Quel risque derreur acceptable?
- Si lon recommençait un grand nombre de fois le
test alors - Identifier les risques
- Risque de condamner un innocent (a, alpha, 1ère
espèce, type I) - rejet de H0 alors que H0 est vraie
- Risque dinnocenter un coupable (b, beta, 2ème
espèce, type II) - non rejet de H0 alors que H1 est vraie
- Types derreur
- Risque derreur (a)
- Seuil de confiance (1- a) (ou robustesse)
- Puissance (1- b)
- Définir la tolérance au risque risque
acceptable - Un risque standard 5.
- Qui peut être adapté en fonction du problème Ã
traiter - Exemple si H0 20 si H1 -500 risque
beta plus important
43Partage du risque
- Les distributions sont tabulées pour un risque
bilatéral - Par exemple un risque à 5
- Signifie 2.5 Ã gauche et 2.5 Ã droite
- Il faut donc corriger le risque si le test est
unilatéral - Un risque unilatéral à 5
- Veut donc dire quil faut lire dans la table Ã
une valeur de 10
44Analyse et interprétation
- Deux solutions Valeur critique ou Risque
calculé - Valeur critique À un niveau de risque donné,
lire la valeur critique de la statistique - Si valeur calculée gt Valeur critique, REJET de H0
- Si Z2,4 gt1.96 rejet de H0
- Risque calculé (p level) Pour la valeur
calculée, lire le risque derreur qui lui est
associé - Si risque calculé lt risque acceptable REJET de
H0 - Si Z2,4, risque 1
- Risque calculé lt risque acceptable rejet de H0
45Intervalle de confiance
- Une valeur empirique simple na pas beaucoup de
sens - 55 des personnes interrogées préfèrent la marque
A à la marque B - Ce nest pas parce quun écart semble important
(10) quil est significatif ! - Les valeurs empiriques résultent dune vraie
valeur et dun aléa - m m aléa
- On cherche donc à conclure que la  vraieÂ
valeur se trouve à lintérieur dun intervalle - centré sur la valeur empirique
- dont lamplitude dépend
- de lécart-type
- de leffectif de léchantillon
- du degré de certitude/confiance que lon souhaite
avoir sur le fait que la  vraie valeur se
trouve dans cet intervalle
46Inférence
- Dans quel intervalle se situe la vraie valeur du
paramètre pour la population sachant
linformation contenue dans léchantillon ?
m1, s1
ES s/ racine(n)
(N, m, s)
Risque a
t
(n, m, s)
Echantillon
mmax mmin smax smin
Population
47Intervalle de confiance
- Paramètres
- Population Taille N Moyenne m Ecart-type
s - Echantillon Taille n Moyenne m Ecart-type
s - Écart-type de la moyenne s(m) (erreur standard
ES ou SE) - Représente la dispersion de la distribution de la
statistique étudiée si on procède à de nombreux
tirages déchantillons différents - Plus leffectif est important plus ES est faible
48Intervalle de confiancede la moyenne (m) de la
population
- Que peut-on dire de (m,s) connaissant (m,s) ?
- la distribution est symétrique Normale ou
student (n lt 30) - Lécart-type de la population est connu (s) ou
approximé par (s) - Lécart-type de la moyenne (ES de la moyenne) sm
- Choix dune référence (H0 m m0) souvent 0
- Choix dun niveau de risque (bilatéral) a -gt
table -gt valeur t ou z - Interprétation on peut dire avec un risque
derreur a (ou avec un degré de confiance à 1-a)
que la moyenne de la population se situe dans
lintervalle ci-dessous - (mmin mmax) m/- za/2 sm
- m/- za/2s/racine(n)
- Plus le risque accepté est grand, Plus
lintervalle de confiance est étroit
49Intervalle de confiancede la proportion (p) de
la population
- Que peut-on dire de (p) connaissant (p) ?
- la distribution est symétrique Normale ou
student (n lt 30) - Lerreur standard est calculée par (spracine
(p(1-p))/n - Choix dune référence (H0 p p0) souvent 0
- Choix dun niveau de risque (bilatéral) a -gt
table -gt valeur t ou z - Interprétation on peut dire avec un risque
derreur a (ou avec un degré de confiance à 1-a)
que la proportion de la population se situe dans
lintervalle ci-dessous - (pmin pmax) p/- za/2 sp
50Exemple intervalle de confiance
- http//www.marketing-science-center.com/charge/tes
t.xls - Confiance 1 Risque
- PLUS le risque accepté est élevé, PLUS
lintervalle de confiance est étroit - PLUS le risque accepté est faible, PLUS
lintervalle de confiance est large
51Exemple Analyse / Comparer les moyennes /Test
en t pour un échantillon unique
- Erreur standard (de la) moyenne 102,235/racine
(10000) 1,022 - Risque 5 95 confiance (bilatéral) z2,5
1,96 - Demi-intervalle 1,961,0222,003
- Choix dune valeur de référence ici H0 m0
- Intervalle il y a 95 de chance que la vraie
valeur de la moyenne de money soit située entre
205,86 et 209,87 - 0 nappartient pas à cet intervalle, on peut donc
conclure au risque de 0,000 (risque nul)
(sig.(bilatérale)) de se tromper que la valeur
est différente de 0 (rejet de H0)
52Exemple Test dune proportion
- On observe 42 de  oui sur un échantillon de
100 personnes - Peut-on conclure ?
- La valeur maximale de p est 0.5 donc Sp racine
(0.50.5/100 0.05 - Avec un degré de confiance de 95 (risque 5,
z1.96), la variation possible de la vraie valeur
est de /- 9.8 - On peut donc affirmer que la vraie proportion se
situe dans lintervalle - 32.2 et 51.8
- Il nest donc pas possible daffirmer que dans la
population, la proportion des  oui lemporte - Pour un échantillon de 200, la valeur supérieure
de lintervalle de confiance est 48.9. La
proportion des  non est donc supérieure Ã
celle des  ouiÂ
53Normalité dune distribution
- Q La forme de la distribution correspond-t-elle
à celle dune loi normale ? - Intérêt ?
- Lhypothèse de normalité est souvent sous-jacente
aux méthodes statistiques - résidu de la régression, analyse discriminante,
- Tabulée, elle permet de généraliser la
distribution - Symétrie (S) (skewness) - Biais
- Si lt0 plus à gauche (lepto-kurtique)
- Aplatissement (K) (Kurtosis)
- Si lt0 moins concentrée que la loi Normale
- Attention linformation fournie est souvent le
 Kurtosis excédentaire (K-3) par rapport à une
Normale qui a un aplatissement de 3
54Test de la Normalité
- La distribution de la variable suit-elle une loi
normale ? - Critère 1 convergence de la tendance centrale
- Mode Médiane Moyenne
- Approche graphique (graphique P-P, Q-Q ou
fréquence) - Critère 2 (H0) aplatissement 0 et symétrie 0
- Etude asymétrie et aplatissement
- Symétrie (skewness) ou Biais Si gt1 sécarte de
la Normale - gt2, gravement
- test stat/ES gt2 (ES Erreur standard ou
Standard Error) - problème si gt 2.racine(6/n)
- Aplatissement (Kurtosis) Si gt4 sécarte de la
Normale - gt7 gravement
- test si le rapport stat/ES gt2
- problème si gt 2 . racine(24/n)
55Tests formels de lécart avec une loi Normale
- Test de la normalité (Jarque-Bera)
- JB (n/6)(S2 (1/4)(K-3)2) suit distribution
c2 avec ddl 2 - Khi² critique à 5 5.99,
- Si JB gt Khi² critique rejet de la Normalité
- Test de Kolmogorov-Smirnov
56Approches graphiques
57Exemple Graphes/ diagramme P_P
58Correction de la Non normalité
- Correction par des transformations mathématiques
- Transformation de Box-Cox T(y) (y l 1)/ l
- Log (si l 0)
- Si biais positif (mode à gauche de la moyenne)
- Log(x), Racine carrée, inverse (1/x),
- Si biais négatif (mode à droite)
- Mettre en puissance, carré ou
59Exemple variable monétaire Logarithme
60Un problème classique
- Le mélange de deux populations
- Dont une est non-consommatrice
- Exemple lintérêt pour la F1 à la télévision
- (échelle inversée, standardisée)
61Les problématiques
- Prendre en main une base de données
- Décrire et Interpréter
- Tester des hypothèses et éclairer des décisions
- Analyser les relations entre les variables
- Identifier des groupes de répondants
- Vérifier un effet de causalité pour une variable
daction - Prévoir des comportements
- Créer une mesure
624. Analyser les relations entre les variables
- Le choix du test dépend de la nature des échelles
de mesure des variables
63Tableau croisé et Khi-deux
- Existe-t-il une relation entre deux variables
nominales ? - Tableau croisé, tri croisé, tableau de
contingence - Distributions marginales
- fréquences simples des variables (les marges du
tableau) - Khi2 de Pearson (Khi carré, c²)
- Un tableau à m cases (m c.l , l lignes et c
colonnes) - à v degrés de liberté (ddl) v (c -1)( l -1) ou
v (c -1) pour une seule ligne - Soit Om et Tm les effectifs observés et
théoriques dans la case m et n la taille de
léchantillon - H0 Les fréquences observées sont identiques aux
fréquences théoriques - c² S ( Om-Tm)²/ Tm
- Rejet de H0 si le chi2 est supérieur au chi2
critique (selon le risque)
64Exemple
-  Le genre influence-t-il lachat de vidéos ?Â
Homme1 - Khi 2 Pearson calculé 4,77
- ddl 1
- Khi2 critique 3.84
- La différence est significative,
- Mais faible
- Si lon accepte (H0), il y a un risque de 2,9
que H0 soit fausse
65Extensions du Khi-deux
- Le Khi-deux
- effectif théorique minimal par case 5
- Le chi2 dépend des effectifs il sera toujours
significatif pour des effectifs importants - Le chi2 dépend de la structure du tableau (v)
- Ajustements du Khi-2 pour neutraliser ces effets
- Phi (tableau 2x2) intensité de lassociation
- (C) Coefficient de contingence effet de taille
- (V) V de Cramer taille des tableaux
- (T) T de Tschuprow
66Problèmes posés par les tableaux croisés
- Cas dune base incorrecte
- Cas dune variable modératrice (paradoxe de
Simpson)
67Test U de Mann-Whitney
- Compare les rangs de deux sous-échantillons
(variable nominale) sur une variable ordinale - H0 Les deux échantillons ont des rangs
identiques - Soit
- R1 la somme des rangs pour léchantillon 1 (sur
le classement total) - U1 n1.n2n1.(n11)/2-R1
- Statistique U Max U1 U2 suit une loi normale
(si nigt20) - avec m(n1.n2)/2 et s racine n1.n2.(n1n21)/2)
- Interprétation U dautant plus petit que les
populations sont différentes - Rejet de H0 si Uc lt Ua
68Test de Kolmogorov-Smirnov (K S )
- Comparaison de deux distributions pour une
variable ordinale - Test non paramétrique on ne teste pas un
paramètre (moyenne, écart-type,) - Soit
- Om et Tm les effectifs cumulés observés et
théoriques et - n la taille de léchantillon (ngt35)
- H0 Les fréquences observées sont identiques aux
fréquences théoriques - Statistique D Max (Om-Tm) pour les m
modalités - Si ngt35 et risque derreur accepté (a) de 1
Dc 1,63 / Racine(n) - Si ngt35 et risque derreur accepté (a) de 5
Dc 1,36 / Racine(n) - Interprétation On rejette H0 si D gt Dc
69Exemple KS
- Catégorisation de la variable continue (perte
dinformation) - Test de K-S
- NON pas de différence dans la distribution
- (D lt Dc)
70ExempleAnalyse/ tests non paramétriques/ 2
échantillons indépendants
- La distribution de  money (en classes)
est-elle la même selon que la personne a acheté
le livre  Florence ? - Z 1,467 (faible) risque 0,027 (lt5)
- Conclusion on doit rejeter lhypothèse H0 (les
distributions ne sont pas les mêmes) - Ceux qui ont acheté  Florence dépensent plus
71Exemple Analyse/ tests non paramétriques/ K-S
pour 1 échantillon
- La distribution de Money est-elle Normale ?
- Choix de la distribution de référence
Normale-gaussienne, - (mais aussi sur option uniforme, poisson,
exponentielle) - Z 1,331 (faible) risque 0,058 (gt5)
- on peut accepter lhypothèse H0
- la distribution empirique suit la distribution
théorique
72Coefficient GAMMA(Goodman et Kruskal, 1954)
- Existe t il une relation entre deux variables
ordinales ? - Est-ce que les réponses sur X ont tendance Ã
augmenter si la réponse à Y augmente ? - Test de monotonicité de la relation
- Concordance discordance de paires de répondants
- Concordance (XagtXb et YagtYb)
- Gamma (Concordance-Discordance)/ (Concordance
Discordance) - Simple à interpréter, Étendue -1 1
- Pour un tableau 2x2 équivalent au Q de Yule
- Extensions
- Gamma ne prend pas en compte les  tiesÂ
(égalités) - Kendall Tau b corrige pour les égalités
- Kendall Tau c corrige des effets de taille
- Somers D suppose une variable à expliquer et une
variable explicative (causalité)
73Relation monotone
- Il y a une relation monotone positive
significative - avec un risque derreur a lt à 0.000
- La différence entre le Tau et le Gamma montre
quil y a beaucoup de  ties (égalité)
74Précisions
- Gamma (Goodman et Kruskal) (équivalent du Q de
Yule si variables binaires) - mesure symétrique -11, 2 variables ordinales,
- approximation normale pour grand échantillon donc
test possible de sa signification - Différence entre les paires concordantes (P) et
discordantes (Q) G (P-Q)/(PQ) - Si G0,636  connaître le rang de la première
variable réduit lerreur de prévision sur les
rangs de la seconde variable de 63,6Â - Tau de Kendall tableau 2 x2 ou plus, variables
binaires ou ordinales - Mesure symétrique -11
- Enlève les égalités  tiesÂ
- Tau b (tableau  carré même dimension ligne,
colonne) - Tau c (Stuart ou Kendall-Stuart) tableaux non
carrés et ajustement pour la taille du tableau - D de Somers
- Mesure asymétrique -11 faire la moyenne des
deux pour la rendre symétrique - En savoir plus http//www2.chass.ncsu.edu/garson
/pa765/assocordinal.htm
75Exemple Analyse / statistiques descriptives /
tableau croisé
- H0 association ordinale parfaite
- Ici D0,353
- Il y a une certaine association ordinale positive
- Mais qui nest pas parfaite (sig faible)
76Relation entre une variable quantitative et une
variable nominale/ordinale
- Echantillons indépendants (2)
- Coefficient point bisérial
- Test de légalité des variances (test en Levene)
- Test de légalité des moyennes
- Test de légalité de proportions
- Un seul échantillon
- Mesures répétées (échantillons appariés),
Avant/Après - Test en t sur les différences individuelles
77Coefficient point bisérial
- Importance de la différence entre deux groupes
(variable binaire) sur une variable intervalle - H0 les deux groupes ont la même moyenne
- pas de relation entre la variable binaire et la
variable intervalle - Soit
- m1 et m2 les moyennes des deux groupes
- n1 et n2 les effectifs de chaque groupe
- s lécart-type de la variable sur léchantillon
total - Statistique r (m1-m2)racine(n1.n2)/s
- La différence à 0 peut être testée
- Interprétation plus r est élevé plus la
relation entre les deux variables est forte
78Comparaison de valeurs sur des échantillons
indépendants
- La comparaison des résultats de 2 groupes est une
tache fondamentale des études, à la recherche de
différences de comportements, de sensibilité, de
croyances - On peut comparer
- de moyennes (panier moyen)
- des proportions (fréquence des acheteurs)
- Mais il faut toujours AVANT sassurer que les
variances peuvent être considérées comme
identiques.
79Test de légalité des variances
- Dabord regarder lhypothèse dégalité des
variances - Les variances sont-elles significativement
différentes ? H0 s1² s2² - Données Echantillon 1 (n1, m1, s1), Echantillon
2 (n2, m2, s2) - Test de Levene (W) (Test en F )
- F(n1-1, n2-1) s1²/s2² (plus grande variance /
plus petite) lt 4 - Si Homogénéité (égalité) des variances, la
variance globale est - s²((n1-1)s1²(n2-1)s2²) / (n1n2-2)
- Si Non égalité
- Transformation des variables
- Correction ou élimination des déviants (trimming,
windsorisation) - Test avec inégalité des variances
80Exemple Y a-t-il une différence de panier
moyen selon le genre de lacheteur ?
Analyse Comparer les moyennes test en t
pour échantillons indépendants
- Les écarts-types sont proches (102,5 102,1)
- La valeur de F est très faible, (sig. très élevé,
bien supérieur à 5) - Lécart entre les variances nest pas
significatif - Conclusion (H0) lhypothèse de variances égales
(H0) est acceptée - Conséquence regarder la première ligne pour la
suite (comparaison des moyennes)
81Comparaison de moyennes sur des échantillons
indépendants
- Les moyennes sont-elles significativement
différentes ? H0 m1 m2 - Données Echantillon 1 (n1, m1, s1),
Echantillon 2 (n2, m2, s2) - Selon légalité des variances
- Si variances égales S(m1 -m2) racine
s²(1/n1 1/n2) - Si variances inégales S(m1 -m2) racine s1²/n1
s2² /n2) - Calcul du z
- z (m1 - m2)-(m1 - m2)/ S(m1 -m2)
- on ACCEPTE H0 (les moyennes sont égales) Si
- t faible ou
- signification bilatérale élevée ou
- 0 appartient à lintervalle de confiance de la
différence des moyennes
82ExempleAnalyse/Comparer les moyennes/ test en t
pour échantillon indépendants
- Les moyennes sont proches (208,1 207,7)
- La valeur de t est très faible, (sig. très élevé,
bien supérieur à 5) - La différence (entre les) moyenne(s) (0,38) elle
appartient à lintervalle de confiance (-4,02
4,78) - (!!!) Différence écart-type est en fait lerreur
standard de la différence des moyennes (donc IC
2,2471,96) - Conclusion La différence (entre les) moyenne(s)
nest pas significativement différente de zéro
(H0 acceptée)
83Comparaison de proportionssur des échantillons
indépendants
- Les proportions sont-elles significativement
différentes ? H0 p1 p2 - Paramètres Ech1 (n1, p1), Ech2 (n2, p2)
- Calcul de la variance globale
- Pour une proportion s racinep(1-p)/n
- Calcul de la proportion moyenne p (n1 p1
n2p2)/(n1n2) - Calcul de lerreur standard
- S(p1 -p2) racine p.(1-p)(1/n1 1/n2)
- Calcul du z
- z (p1 - p2)/ S(p1 -p2)
84Exemple comparaison de proportions
- Http//www.marketing-science-center.com/charge/dis
tributions.xls
85Analyse déchantillons appariés
- Les individus ont-ils changé davis ?
- Attention à la terminologie échantillons
 appariés - Mesures répétées sur un même échantillon
- Traitements dindividus  pairés et affectés
aléatoirement - Et NON échantillons ayant la même structure sur
des critères particuliers - Tests selon les niveaux de mesure
- Nominal gt Test Mc Nemar
- Ordinal gt Test de wilcoxon
- Intervalle gt Test en t (extension, voir
ci-dessus) - Plus de deux échantillons
- Tests en Q de Cochran, Test de friedman (non
traités ici)
86Test Mc Nemar
- H0 il ny a pas de différence
- Principe étude de la compensation du nombre de
répondants qui modifient leurs réponses dans un
sens ou dans lautre - Statistique Chi2 (A-D-1)/(AD)
87Test de Wilcoxon
- Prise en compte de lampleur des changements dans
les réponses avant/après ou selon les traitements
des groupes - H0 pas de différence entre les groupes
- Statistique T minT T- avec
- Calcul des différences individuelles diYi-Xi
- Détermination des rangs des valeurs absolues di
- Affectation des rangs selon le signe de la
variation (T ou T-) - Calcul de la somme des rangs T et rangs T-
- Z (T-m)/s suit une loi normale (si ngt25)
- avec m n.(n1)/4 et s racine
n.(n1).(2n1)/24 - Interprétation à 5 si Zgt1.96 on rejette H0