Analyse des donnes applique au marketing - PowerPoint PPT Presentation

1 / 87
About This Presentation
Title:

Analyse des donnes applique au marketing

Description:

Savoir choisir la m thode la plus adapt e l'objectif de l' tude et la nature des ... Cas ' Balles de tennis ' Le questionnaire. La base de donn es. Le programme de lecture ' ... – PowerPoint PPT presentation

Number of Views:1613
Avg rating:5.0/5.0
Slides: 88
Provided by: POSTA7
Category:

less

Transcript and Presenter's Notes

Title: Analyse des donnes applique au marketing


1
Analyse des donnéesappliquée au marketing
  • Pierre DESMET

2
Organisation du cours 1/2
  • Objectifs à lissue du cours, létudiant doit
  • Connaître le principe de base et les limites des
    différentes méthodes
  • Savoir les mettre en uvre
  • Savoir interpréter les résultats
  • Savoir choisir la méthode la plus adaptée à
    lobjectif de létude et à la nature des données
  • Animation
  • Lecture autonome dun livre de référence par
    létudiant
  • Présentation et discussion des éléments clés en
    cours
  • Application de la méthode (mise en uvre et
    interprétation) sur des petits cas
  • Travail autonome de traitement dune base de
    données

3
Organisation du cours 2/2
  • Contrôle
  • Quiz et TD
  • Rapport détude sur lanalyse dune base de
    données ou dune enquête
  • Lectures
  • Lecture obligatoire des chapitres avant chaque
    séance
  • Jolibert A. et Jourdan P. (2006), Marketing
    research, Dunod
  • Evrard, Y, Pras B. et Roux E. (2003) MARKET,
    Dunod, Paris.
  • Malhotra N., Décaudin J.-M. et Bouguerra A.
    (2004), Etudes marketing avec SPSS, Pearson
    Education

4
Cas  BBB Book binders book club 
  • Le cas
  • La base de données
  •  Fil rouge  pour les traitements statistiques

5
Cas  Balles de tennis 
  • Le questionnaire
  • La base de données
  • Le programme de lecture
  •  Fil rouge  pour les traitements statistiques
  • Possibilité de faire des analyses complémentaires
    dans le cadre du travail personnel

6
Les problématiques
  • Prendre en main une base de données
  • Décrire et Interpréter
  • Tester des hypothèses et éclairer des décisions
  • Analyser les relations entre les variables
  • Identifier des groupes de répondants
  • Vérifier un effet de causalité pour une variable
    daction
  • Prévoir des comportements
  • Créer une mesure

7
Les problématiques
  • Prendre en main une base de données
  • Décrire et Interpréter
  • Tester des hypothèses et éclairer des décisions
  • Analyser les relations entre les variables
  • Identifier des groupes de répondants
  • Vérifier un effet de causalité pour une variable
    daction
  • Prévoir des comportements
  • Créer une mesure

8
1. Prendre en main une base de données
  • Vérifier les données et la qualité
  • Etudier les réponses pour chaque variable
  • Etudier et Traiter
  • Les valeurs manquantes
  • Les valeurs extrêmes, voire aberrantes
  • Transformer, Recoder
  • Choisir le niveau danalyse (agréger, éclater)
  • Redresser un échantillon

9
Acquérir les données
  • Sources
  • Les entrer directement
  • Lire / importer un fichier existant (tableur,
    traitement de texte,)
  • Toujours les regarder et vérifier la bonne entrée
  • Difficultés
  • Un enregistrement les données pour 1 individu
  • Mais une ligne contient au maximum 256 caractères
  • Un enregistrement peut contenir plusieurs lignes
  • Chaque ligne se termine par un caractère de fin
    de ligne
  • Le séparateur décimal  ,  ou  . 
  • Quel mode de séparation des valeurs ?
  • Espace (fichier.prn)
  • Tabulation (fichier.txt)
  • Point virgule (fichier.csv)

10
Terminologie
Variables
Caractéristiques
Réponses
Individus
  • Une variable x
  • Est mesurée sur un individu i et donne une
    observation xi
  • Il y a n observations (effectifs)

11
Pré-traitement des données
  • Vérifier les valeurs et modalités extrêmes ou
     aberrantes 
  • Compter les valeurs  manquantes 
  • Recoder des variables
  • Regrouper des modalités à effectif faible
  • Discrétiser une variable continue
  • Tableau de synthèse sur les modalités dune
    variable de classification
  • Un autre tableau (région, enseigne,)
  • Traitement des réponses multiples
  • Quelles enseignes fréquentez-vous ?
  • Bien identifier  lobservation de base 
    (individu, marque ?)
  •  éclater  lobservation sur plusieurs lignes
    ou, au contraire,
  • Construire différentes variables pour les marques

12
Une valeur est-elle  extrême  ?
  • Valeurs hors-norme, exceptionnelles, aberrantes
    (outliers)
  • Elles influencent beaucoup la moyenne et la
    variance
  • Identifier ces observations
  • /- 3 écart-type de la moyenne
  • Calcul dun effet de levier (importance du point
    dans le calcul de la variance)
  • Les comprendre (Quelles sources/origines ?)
  • Les traiter
  • Éliminer la donnée
  •  trimer  remplacer la valeur par la valeur
    correspondant à 95 ou 99 de la loi normale

13
Valeurs manquantes
  • Différentes formes de réponses manquantes
  • Pas voulu/su répondre
  • Quel est votre salaire mensuel brut ?
  • Pas pu répondre
  • Avez-vous des enfants ?
  • Quels âges ont-ils ?
  • Traitement
  • Élimination (perte dinformation)
  • Pour les variables concernées
  • Pour tout le traitement
  • Attention à la contagion tout calcul intégrant
    une valeur manquante donne une valeur manquante !
  • Remplacement
  • à la moyenne générale,
  • des plus proches voisins,

14
CodagesDe lobservation à linformation
  • Une variable quantitative
  • Discrète
  • Transformée en variables binaires variable
    binaire (dummy)
  • Classées en modalités échelle nominale
  • Éventuellement ordonnées échelle ordinale
  • Continue
  • Sans zéro absolu échelle intervalle
  • Avec un zéro absolu échelle ratio
  • Exemples
  • Achèteriez-vous ce produit ? Oui / Non
  • Cest un produit que je pourrai acheter (degré
    daccord) - --
  • Sur une échelle de 1 à 10, quelle est votre
    intention dachat ?
  • Voici 10 jetons, répartissez les entre les
    produits selon votre intention dachat.
  • A chaque type de variable correspondent des
    traitements spécifiques

15
Redressement par le quotient
  • Léchantillon na pas la même structure quune
    distribution connue sur la population (âge, sexe,
    csp,)
  • Correction par le quotient (proportionalité
    directe)
  • f la fréquence connue sur la population, p la
    fréquence de léchantillon
  • m la valeur moyenne observée pour la variable sur
    léchantillon
  • Alors lestimation redressée est mq m f/p
  • Exemple
  • le nombre moyen de caisses par magasin est 28
    (f),
  • un échantillon de magasins donne 1102 K pour
    28.8 caisses.
  • Lestimation redressée est 1071 K.

16
Redressement par le quotient
  • Une variable (de contrôle) a un effet important
    sur la variable étudiée mais na pas été prise en
    compte dans le plan de sondage.
  • Stratification  a posteriori 
  • On calcule strate par strate un coefficient de
    pondération permettant de retrouver la situation
    quune stratification aurait garantie.
  • Exemple la possession dune Tv influence la
    fréquentation du cinéma.
  • 80 de la population possède une Tv, 70
    seulement dans léchantillon
  • Sur les 700 ayant une TV 20 sont allés au cinéma
    la semaine précédente sur les 300 sans Tv, 80
    sont allés au cinéma
  • Estimation brute 10 sont allés au cinéma
  • Estimation corrigée 7.6 (2080/70 8020/30)
    (pondération 1.14 et 0.66)
  • Règle empirique Souvent taux de correction du
    simple au double (triple). La valeur du plus fort
    taux de correction ne doit jamais être supérieure
    à 5 fois celle du plus faible taux

17
Les problématiques
  • Prendre en main une base de données
  • Décrire et Interpréter
  • Tester des hypothèses et éclairer des décisions
  • Analyser les relations entre les variables
  • Identifier des groupes de répondants
  • Vérifier un effet de causalité pour une variable
    daction
  • Prévoir des comportements
  • Créer une mesure

18
2. Décrire et Interpréter
  • Les  grands  résultats empiriques (tendance
    centrale)
  • Mode, Médiane, Moyenne
  • La dispersion des réponses
  • Etendue, Ecart-type, Variance
  • La distribution dans son ensemble
  • La généralisation dun résultat empirique
    (inférence)

19
Terminologie
  • On peut regrouper les observations selon des
    modalités j de la variable x
  • Et compter le nombre dobservations dans chaque
    modalité (fréquence absolue f)
  • Éventuellement la ramener en pourcentage
    (fréquence relative ou fonction de densité
    théorique)
  • Compter le nombre dobservations de la plus
    petite jusquà la modalité j (fréquence cumulée F
    ou fonction de répartition théorique)
  • Le tableau de fréquence (distribution de
    fréquences) regroupe lensemble des fréquences
  • Un tri simple présente les effectifs et de
    chaque modalité
  • Un tableau (tri) croisé détermine les effectifs
    pour chaque couple de modalité des deux variables
  • Un tableau donne des indications (moyenne, min,
    max, écart-type,) sur des variables pour des
    individus (regroupés)

20
Définitions Tendance centrale
  • Lobjectif est de
  • Donner un ordre de grandeur
  • panier moyen
  • De comparer différents ensembles
  • panier moyen selon les enseignes dhypermarché en
    France en 2007
  • Mode modalité la plus fréquente
  • Adapté à toutes les variables discrètes
  • Exemple
  •  la modalité la plus fréquente du statut
    matrimonial est marié(e)  avec 52 

21
Définitions Tendance centrale Médiane et
Quantile
  • Objectif obtenir des valeurs en fonction des
    effectifs des individus
  • Pourquoi parce que certains individus peuvent
    avoir des valeurs spécifiques
  • segmentation PMG, 20/80 dans le portefeuille
    client
  • Permet didentifier un potentiel pour une
    opération (offre dune promotion pour une
    activité minimale de XXX.
  • Quantile (fractile) valeur qui divise les
    observations en n groupes égaux ()
  • Médiane la plus connue, 2 groupes,
  • 50 ont une valeur inférieure 50 ont une valeur
    supérieure
  • Quartiles 4 groupes 25, 50, 75
  • Déciles (10), Percentiles (100)
  • Les quantiles sont
  • insensibles aux valeurs extrêmes
  • Sa précision dépend de la densité des points

22
Définitions Tendance centrale Moyenne
  • Moyenne (m ou ) somme divisée par le nombre
    dobservation
  • Arithmétique (somme)/n (la plus utilisée)
  • Géométrique (racine nième du produit)
  • Harmonique (moyenne des inverses)
  • La moyenne est
  • plus précise que les quantiles mais très
    sensibles aux valeurs extrêmes
  • Permet de retrouver la somme si on la multiplie
    par les effectifs
  • CA Nb de paniers Panier moyen

23
Définitions Dispersion
  • Déterminer limportance des variations des
    observations autour de la tendance centrale
  • Etendue (ou écart) écart entre le Maximum et
    le Minimum
  • Variations variations quadratiques autour de la
    moyenne
  • Variance (V) moyenne des carrés des écarts à la
    moyenne
  • Ecart-type (s) racine carrée de la variance
  • Coefficient de variation (s/m) rapport de
    lécart-type sur la moyenne
  • Intervalle inter-quartile différences des
    quartiles Q3 et Q1 sur la médiane (Q2)
  • 50 des effectifs est entre les deux valeurs
  • Erreur standard (s/racine(n))) écart-type de la
    distribution déchantillonnage dun estimateur

24
Centrer Réduire (Standardiser)
  • Est-ce que la différence de variance est
    principalement expliquée par la différence
    dunité de mesure?
  • Centrer opération qui consiste à enlever la
    valeur de la moyenne
  • La variable résultante a une moyenne de 0
  • Réduire opération qui consiste à diviser la
    valeur par lécart-type
  • La variable résultante a un écart-type de 1
  • Standardiser cest centrer et réduire
  • La variable résultante a une moyenne de 0 et un
    écart-type de 1
  • Intérêt ?
  • Parce que lécart-type est sensible à lunité
    choisie
  • Ramener les variations de différentes variables
    en une même unité
  • Mais Limportance de la variance initiale de
    chaque variable est perdue

25
La distribution
  • Ses caractéristiques
  • Domaine de définition (positif/négatif, début à
    0,)
  • Sa symétrie, son aplatissement
  • Sa relation avec une distribution théorique
    connue et tabulée
  • Histogramme Représentation graphique des
    effectifs par modalité dune variable pour
  • Évaluer les fréquences relatives des différentes
    modalités
  • Rapprocher une distribution empirique dune
    distribution théorique

26
Caractéristiques dune distribution
  • Symétrie (skewness) degré de similarité dans la
    distribution à gauche et à droite de la moyenne
  • Aplatissement (Kurtosis) degré de concentration
    des valeurs autour de la moyenne
  • Interprétation
  • Symétrie positive distribution trop à gauche,
    petites valeurs
  • Aplatissement positif distribution très
     pointue 
  • Valeur cible 0 Acceptables si inférieurs à 1
    (voir tests)
  • LErreur standard permet de tester légalité à 0

27
Ventes moyennes par magasin




28
Les valeurs extrêmes
  • Boite à moustache (Box plot)
  • SPSS Moyenne au centre, Boite formée par les
    quartiles Q1 (25) et Q3 (75)
  • Intervalle de confiance par des barres à IC 5 et
    IC 95 avec un score Z (x-m)/s
  • Mais
  • s (écart-type) est remplacé par une statistique
    moins sensible aux valeurs extrêmes la déviation
    absolue moyenne
  • MAD (mean absolute deviation) médiane x-m
  • SAS médiane, quartiles (boite), min et max
    (lignes), moyenne (point)

29
Distributions théoriques
  • Loi statistique avec
  • Un ou plusieurs paramètres et,
  • éventuellement, des degrés de liberté (v)
  • Caractéristiques
  • densité (f) ou Répartition (F, cumulée)
  • Tabulée (tables ou excel ou autre)
  • Si elle est adaptée à une distribution empirique,
    elle permet de
  • Réduire leffet des particularités de
    léchantillon
  •  Résumer  la distribution de manière simple
  • Identifier la valeur correspondant à un
    pourcentage
  • Identifier le pourcentage correspondant à une
    valeur particulière

30
Loi Normale
  • Http//www.marketing-science-center.com/charge/Nor
    male.xls

31
Fonction de répartition Prob(yltu)
  • F(-u)1-F(u)

32
Fractiles
  • Loi Normale
  • Valeur de Y
  • pour une probabilité donnée

33
Distributions théoriques courantes
  • Normale (Gauss, Laplace-Gauss)
  • variable continue, /- infini, symétrique
  • 2 paramètres (moyenne, écart-type), courbe en
     S 
  • Student
  • Pour les petits effectifs, queues de distribution
    un peu plus importantes
  • Proche de la loi normale
  • Binomiale 2 options pile-face, 0/1 ou
    Multinomiale (jeu de dés)
  • Khi2 somme de lois Normales au carré
  • F rapport de 2 distributions du Khi²
  • Poisson discrète, comptage, fréquence dun
    comportement
  • Logistique courbe en  S  proche de la loi
    Normale, plus facile à manipuler, éventuellement
    à seuil,  queues  de la distribution un peu
    plus épaisses
  • Beta, Gamma, Weibull lois plus souples

34
Loi de Poisson
  • Http//www.marketing-science-center.com/charge/dis
    tributions.xls
  • 1 seul paramètre (ms), Xgt0, X discret

35
Des distributions particulières
  • Avec plusieurs paramètres Beta, Gamma, Weibull
  • http//www.marketing-science-center.com/charge/loi
    s_continues.xls

36
Les problématiques
  • Prendre en main une base de données
  • Décrire et Interpréter
  • Tester des hypothèses et éclairer des décisions
  • Analyser les relations entre les variables
  • Identifier des groupes de répondants
  • Vérifier un effet de causalité pour une variable
    daction
  • Prévoir des comportements
  • Créer une mesure

37
3. Tester des hypothèses et éclairer des décisions
  • Sur la base des résultats empiriques,
  • Que peut-on conclure qui puisse aider à prendre
    une décision ?
  • Exemples
  • Lâge influence t il le comportement dachat ?
  • Le genre est-il associé à une différence de
    panier moyen ?
  • Une donnée est-elle  aberrante  ?
  • Une distribution est-elle  Normale  ?

38
Etapes dun test
  • Définition du problème
  • Formulation des hypothèses (H0 et H1 Uni ou
    Bilatéral)
  • Choix du niveau de risque / seuil de confiance
  • Sélection du test approprié à la nature des
    variables
  • Analyse
  • Détermination du risque associé à la valeur
    empirique
  • Comparaison de la valeur empirique à la valeur
    critique associée au risque accepté
  • Interprétation
  • Acceptation ou Rejet de lhypothèse

39
Un problème la sélection
  • Exemple
  • On envisage denvoyer un mailing qui coûte 1 euro
    pièce
  • Si la personne répond, la marge est de 15 euros
  • Les adresses dun fichier ont des probabilités de
    réponses différentes
  • Quel est la probabilité seuil que lon retient
    pour sélectionner ladresse ?
  • A partir de ce seuil comment sélectionner les
    adresses ?

40
Des hypothèses claires et précises (testables)
  • Exemples
  • La consommation est influencée par lâge
  • Plus lâge est important, plus la consommation
    est importante
  • Les seniors sont plus préoccupés par les
    questions de santé
  • La variance des réponse des hommes sur la
    variable X est identique à celle des femmes
  • La proportion des femmes est la même dans le
    groupe des acheteurs et dans le groupe des
    non-acheteurs
  • Les femmes ont une intention dachat plus élevée
    que les hommes
  • Il faut pouvoir exprimer lhypothèse en une
    différence à tester

41
Quelles Hypothèses ?
  • Définir les hypothèses (exhaustives)
  • H0 une hypothèse de base
  • Cest la plus plausible, celle en laquelle on
    croît
  • H1 hypothèse adverse (complémentaire)
  • Choix dun risque unilatéral ou bilatéral
  • Bilatéral autour dune valeur cible
  • Unilatéral inférieur ou supérieur à une valeur
    cible
  • On cherche à  rejeter  lhypothèse H0 qui
    correspond à la vision acceptable (plutôt quà
     accepter )
  • Exemples
  • Bilatéral panier moyen (H0) PM 50 et (H1) PM
    / 50
  • Unilatéral (H0) PMlt50 et (H1) PMgt50.

42
Quel risque derreur acceptable?
  • Si lon recommençait un grand nombre de fois le
    test alors
  • Identifier les risques
  • Risque de condamner un innocent (a, alpha, 1ère
    espèce, type I)
  • rejet de H0 alors que H0 est vraie
  • Risque dinnocenter un coupable (b, beta, 2ème
    espèce, type II)
  • non rejet de H0 alors que H1 est vraie
  • Types derreur
  • Risque derreur (a)
  • Seuil de confiance (1- a) (ou robustesse)
  • Puissance (1- b)
  • Définir la tolérance au risque risque
    acceptable
  • Un risque standard 5.
  • Qui peut être adapté en fonction du problème à
    traiter
  • Exemple si H0 20 si H1 -500 risque
    beta plus important

43
Partage du risque
  • Les distributions sont tabulées pour un risque
    bilatéral
  • Par exemple un risque à 5
  • Signifie 2.5 à gauche et 2.5 à droite
  • Il faut donc corriger le risque si le test est
    unilatéral
  • Un risque unilatéral à 5
  • Veut donc dire quil faut lire dans la table à
    une valeur de 10

44
Analyse et interprétation
  • Deux solutions Valeur critique ou Risque
    calculé
  • Valeur critique À un niveau de risque donné,
    lire la valeur critique de la statistique
  • Si valeur calculée gt Valeur critique, REJET de H0
  • Si Z2,4 gt1.96 rejet de H0
  • Risque calculé (p level) Pour la valeur
    calculée, lire le risque derreur qui lui est
    associé
  • Si risque calculé lt risque acceptable REJET de
    H0
  • Si Z2,4, risque 1
  • Risque calculé lt risque acceptable rejet de H0

45
Intervalle de confiance
  • Une valeur empirique simple na pas beaucoup de
    sens
  • 55 des personnes interrogées préfèrent la marque
    A à la marque B
  • Ce nest pas parce quun écart semble important
    (10) quil est significatif !
  • Les valeurs empiriques résultent dune vraie
    valeur et dun aléa
  • m m aléa
  • On cherche donc à conclure que la  vraie 
    valeur se trouve à lintérieur dun intervalle
  • centré sur la valeur empirique
  • dont lamplitude dépend
  • de lécart-type
  • de leffectif de léchantillon
  • du degré de certitude/confiance que lon souhaite
    avoir sur le fait que la  vraie  valeur se
    trouve dans cet intervalle

46
Inférence
  • Dans quel intervalle se situe la vraie valeur du
    paramètre pour la population sachant
    linformation contenue dans léchantillon ?

m1, s1
ES s/ racine(n)
(N, m, s)
Risque a
t
(n, m, s)
Echantillon
  • m
  • s s

mmax mmin smax smin
Population
47
Intervalle de confiance
  • Paramètres
  • Population Taille N Moyenne m Ecart-type
    s
  • Echantillon Taille n Moyenne m Ecart-type
    s
  • Écart-type de la moyenne s(m) (erreur standard
    ES ou SE)
  • Représente la dispersion de la distribution de la
    statistique étudiée si on procède à de nombreux
    tirages déchantillons différents
  • Plus leffectif est important plus ES est faible

48
Intervalle de confiancede la moyenne (m) de la
population
  • Que peut-on dire de (m,s) connaissant (m,s) ?
  • la distribution est symétrique Normale ou
    student (n lt 30)
  • Lécart-type de la population est connu (s) ou
    approximé par (s)
  • Lécart-type de la moyenne (ES de la moyenne) sm
  • Choix dune référence (H0 m m0) souvent 0
  • Choix dun niveau de risque (bilatéral) a -gt
    table -gt valeur t ou z
  • Interprétation on peut dire avec un risque
    derreur a (ou avec un degré de confiance à 1-a)
    que la moyenne de la population se situe dans
    lintervalle ci-dessous
  • (mmin mmax) m/- za/2 sm
  • m/- za/2s/racine(n)
  • Plus le risque accepté est grand, Plus
    lintervalle de confiance est étroit

49
Intervalle de confiancede la proportion (p) de
la population
  • Que peut-on dire de (p) connaissant (p) ?
  • la distribution est symétrique Normale ou
    student (n lt 30)
  • Lerreur standard est calculée par (spracine
    (p(1-p))/n
  • Choix dune référence (H0 p p0) souvent 0
  • Choix dun niveau de risque (bilatéral) a -gt
    table -gt valeur t ou z
  • Interprétation on peut dire avec un risque
    derreur a (ou avec un degré de confiance à 1-a)
    que la proportion de la population se situe dans
    lintervalle ci-dessous
  • (pmin pmax) p/- za/2 sp

50
Exemple intervalle de confiance
  • http//www.marketing-science-center.com/charge/tes
    t.xls
  • Confiance 1 Risque
  • PLUS le risque accepté est élevé, PLUS
    lintervalle de confiance est étroit
  • PLUS le risque accepté est faible, PLUS
    lintervalle de confiance est large

51
Exemple Analyse / Comparer les moyennes /Test
en t pour un échantillon unique
  • Erreur standard (de la) moyenne 102,235/racine
    (10000) 1,022
  • Risque 5 95 confiance (bilatéral) z2,5
    1,96
  • Demi-intervalle 1,961,0222,003
  • Choix dune valeur de référence ici H0 m0
  • Intervalle il y a 95 de chance que la vraie
    valeur de la moyenne de money soit située entre
    205,86 et 209,87
  • 0 nappartient pas à cet intervalle, on peut donc
    conclure au risque de 0,000 (risque nul)
    (sig.(bilatérale)) de se tromper que la valeur
    est différente de 0 (rejet de H0)

52
Exemple Test dune proportion
  • On observe 42 de  oui  sur un échantillon de
    100 personnes
  • Peut-on conclure ?
  • La valeur maximale de p est 0.5 donc Sp racine
    (0.50.5/100 0.05
  • Avec un degré de confiance de 95 (risque 5,
    z1.96), la variation possible de la vraie valeur
    est de /- 9.8
  • On peut donc affirmer que la vraie proportion se
    situe dans lintervalle
  • 32.2 et 51.8
  • Il nest donc pas possible daffirmer que dans la
    population, la proportion des  oui  lemporte
  • Pour un échantillon de 200, la valeur supérieure
    de lintervalle de confiance est 48.9. La
    proportion des  non  est donc supérieure à
    celle des  oui 

53
Normalité dune distribution
  • Q La forme de la distribution correspond-t-elle
    à celle dune loi normale ?
  • Intérêt ?
  • Lhypothèse de normalité est souvent sous-jacente
    aux méthodes statistiques
  • résidu de la régression, analyse discriminante,
  • Tabulée, elle permet de généraliser la
    distribution
  • Symétrie (S) (skewness) - Biais
  • Si lt0 plus à gauche (lepto-kurtique)
  • Aplatissement (K) (Kurtosis)
  • Si lt0 moins concentrée que la loi Normale
  • Attention linformation fournie est souvent le
     Kurtosis excédentaire  (K-3) par rapport à une
    Normale qui a un aplatissement de 3

54
Test de la Normalité
  • La distribution de la variable suit-elle une loi
    normale ?
  • Critère 1 convergence de la tendance centrale
  • Mode Médiane Moyenne
  • Approche graphique (graphique P-P, Q-Q ou
    fréquence)
  • Critère 2 (H0) aplatissement 0 et symétrie 0
  • Etude asymétrie et aplatissement
  • Symétrie (skewness) ou Biais Si gt1 sécarte de
    la Normale
  • gt2, gravement
  • test stat/ES gt2 (ES Erreur standard ou
    Standard Error)
  • problème si gt 2.racine(6/n)
  • Aplatissement (Kurtosis) Si gt4 sécarte de la
    Normale
  • gt7 gravement
  • test si le rapport stat/ES gt2
  • problème si gt 2 . racine(24/n)

55
Tests formels de lécart avec une loi Normale
  • Test de la normalité (Jarque-Bera)
  • JB (n/6)(S2 (1/4)(K-3)2) suit distribution
    c2 avec ddl 2
  • Khi² critique à 5 5.99,
  • Si JB gt Khi² critique rejet de la Normalité
  • Test de Kolmogorov-Smirnov

56
Approches graphiques
57
Exemple Graphes/ diagramme P_P
58
Correction de la Non normalité
  • Correction par des transformations mathématiques
  • Transformation de Box-Cox T(y) (y l 1)/ l
  • Log (si l 0)
  • Si biais positif (mode à gauche de la moyenne)
  • Log(x), Racine carrée, inverse (1/x),
  • Si biais négatif (mode à droite)
  • Mettre en puissance, carré ou

59
Exemple variable monétaire Logarithme
60
Un problème classique
  • Le mélange de deux populations
  • Dont une est non-consommatrice
  • Exemple lintérêt pour la F1 à la télévision
  • (échelle inversée, standardisée)

61
Les problématiques
  • Prendre en main une base de données
  • Décrire et Interpréter
  • Tester des hypothèses et éclairer des décisions
  • Analyser les relations entre les variables
  • Identifier des groupes de répondants
  • Vérifier un effet de causalité pour une variable
    daction
  • Prévoir des comportements
  • Créer une mesure

62
4. Analyser les relations entre les variables
  • Le choix du test dépend de la nature des échelles
    de mesure des variables

63
Tableau croisé et Khi-deux
  • Existe-t-il une relation entre deux variables
    nominales ?
  • Tableau croisé, tri croisé, tableau de
    contingence
  • Distributions marginales
  • fréquences simples des variables (les marges du
    tableau)
  • Khi2 de Pearson (Khi carré, c²)
  • Un tableau à m cases (m c.l , l lignes et c
    colonnes)
  • à v degrés de liberté (ddl) v (c -1)( l -1) ou
    v (c -1) pour une seule ligne
  • Soit Om et Tm les effectifs observés et
    théoriques dans la case m et n la taille de
    léchantillon
  • H0 Les fréquences observées sont identiques aux
    fréquences théoriques
  • c² S ( Om-Tm)²/ Tm
  • Rejet de H0 si le chi2 est supérieur au chi2
    critique (selon le risque)

64
Exemple
  •  Le genre influence-t-il lachat de vidéos ? 
    Homme1
  • Khi 2 Pearson calculé 4,77
  • ddl 1
  • Khi2 critique 3.84
  • La différence est significative,
  • Mais faible
  • Si lon accepte (H0), il y a un risque de 2,9
    que H0 soit fausse

65
Extensions du Khi-deux
  • Le Khi-deux
  • effectif théorique minimal par case 5
  • Le chi2 dépend des effectifs il sera toujours
    significatif pour des effectifs importants
  • Le chi2 dépend de la structure du tableau (v)
  • Ajustements du Khi-2 pour neutraliser ces effets
  • Phi (tableau 2x2) intensité de lassociation
  • (C) Coefficient de contingence effet de taille
  • (V) V de Cramer taille des tableaux
  • (T) T de Tschuprow

66
Problèmes posés par les tableaux croisés
  • Cas dune base incorrecte
  • Cas dune variable modératrice (paradoxe de
    Simpson)

67
Test U de Mann-Whitney
  • Compare les rangs de deux sous-échantillons
    (variable nominale) sur une variable ordinale
  • H0 Les deux échantillons ont des rangs
    identiques
  • Soit
  • R1 la somme des rangs pour léchantillon 1 (sur
    le classement total)
  • U1 n1.n2n1.(n11)/2-R1
  • Statistique U Max U1 U2 suit une loi normale
    (si nigt20)
  • avec m(n1.n2)/2 et s racine n1.n2.(n1n21)/2)
  • Interprétation U dautant plus petit que les
    populations sont différentes
  • Rejet de H0 si Uc lt Ua

68
Test de Kolmogorov-Smirnov (K S )
  • Comparaison de deux distributions pour une
    variable ordinale
  • Test non paramétrique on ne teste pas un
    paramètre (moyenne, écart-type,)
  • Soit
  • Om et Tm les effectifs cumulés observés et
    théoriques et
  • n la taille de léchantillon (ngt35)
  • H0 Les fréquences observées sont identiques aux
    fréquences théoriques
  • Statistique D Max (Om-Tm) pour les m
    modalités
  • Si ngt35 et risque derreur accepté (a) de 1
    Dc 1,63 / Racine(n)
  • Si ngt35 et risque derreur accepté (a) de 5
    Dc 1,36 / Racine(n)
  • Interprétation On rejette H0 si D gt Dc

69
Exemple KS
  • Catégorisation de la variable continue (perte
    dinformation)
  • Test de K-S
  • NON pas de différence dans la distribution
  • (D lt Dc)

70
ExempleAnalyse/ tests non paramétriques/ 2
échantillons indépendants
  • La distribution de  money  (en classes)
    est-elle la même selon que la personne a acheté
    le livre  Florence  ?
  • Z 1,467 (faible) risque 0,027 (lt5)
  • Conclusion on doit rejeter lhypothèse H0 (les
    distributions ne sont pas les mêmes)
  • Ceux qui ont acheté  Florence  dépensent plus

71
Exemple Analyse/ tests non paramétriques/ K-S
pour 1 échantillon
  • La distribution de Money est-elle Normale ?
  • Choix de la distribution de référence
    Normale-gaussienne,
  • (mais aussi sur option uniforme, poisson,
    exponentielle)
  • Z 1,331 (faible) risque 0,058 (gt5)
  • on peut accepter lhypothèse H0
  • la distribution empirique suit la distribution
    théorique

72
Coefficient GAMMA(Goodman et Kruskal, 1954)
  • Existe t il une relation entre deux variables
    ordinales ?
  • Est-ce que les réponses sur X ont tendance à
    augmenter si la réponse à Y augmente ?
  • Test de monotonicité de la relation
  • Concordance discordance de paires de répondants
  • Concordance (XagtXb et YagtYb)
  • Gamma (Concordance-Discordance)/ (Concordance
    Discordance)
  • Simple à interpréter, Étendue -1 1
  • Pour un tableau 2x2 équivalent au Q de Yule
  • Extensions
  • Gamma ne prend pas en compte les  ties 
    (égalités)
  • Kendall Tau b corrige pour les égalités
  • Kendall Tau c corrige des effets de taille
  • Somers D suppose une variable à expliquer et une
    variable explicative (causalité)

73
Relation monotone
  • Il y a une relation monotone positive
    significative
  • avec un risque derreur a lt à 0.000
  • La différence entre le Tau et le Gamma montre
    quil y a beaucoup de  ties  (égalité)

74
Précisions
  • Gamma (Goodman et Kruskal) (équivalent du Q de
    Yule si variables binaires)
  • mesure symétrique -11, 2 variables ordinales,
  • approximation normale pour grand échantillon donc
    test possible de sa signification
  • Différence entre les paires concordantes (P) et
    discordantes (Q) G (P-Q)/(PQ)
  • Si G0,636  connaître le rang de la première
    variable réduit lerreur de prévision sur les
    rangs de la seconde variable de 63,6 
  • Tau de Kendall tableau 2 x2 ou plus, variables
    binaires ou ordinales
  • Mesure symétrique -11
  • Enlève les égalités  ties 
  • Tau b (tableau  carré  même dimension ligne,
    colonne)
  • Tau c (Stuart ou Kendall-Stuart) tableaux non
    carrés et ajustement pour la taille du tableau
  • D de Somers
  • Mesure asymétrique -11 faire la moyenne des
    deux pour la rendre symétrique
  • En savoir plus http//www2.chass.ncsu.edu/garson
    /pa765/assocordinal.htm

75
Exemple Analyse / statistiques descriptives /
tableau croisé
  • H0 association ordinale parfaite
  • Ici D0,353
  • Il y a une certaine association ordinale positive
  • Mais qui nest pas parfaite (sig faible)

76
Relation entre une variable quantitative et une
variable nominale/ordinale
  • Echantillons indépendants (2)
  • Coefficient point bisérial
  • Test de légalité des variances (test en Levene)
  • Test de légalité des moyennes
  • Test de légalité de proportions
  • Un seul échantillon
  • Mesures répétées (échantillons appariés),
    Avant/Après
  • Test en t sur les différences individuelles

77
Coefficient point bisérial
  • Importance de la différence entre deux groupes
    (variable binaire) sur une variable intervalle
  • H0 les deux groupes ont la même moyenne
  • pas de relation entre la variable binaire et la
    variable intervalle
  • Soit
  • m1 et m2 les moyennes des deux groupes
  • n1 et n2 les effectifs de chaque groupe
  • s lécart-type de la variable sur léchantillon
    total
  • Statistique r (m1-m2)racine(n1.n2)/s
  • La différence à 0 peut être testée
  • Interprétation plus r est élevé plus la
    relation entre les deux variables est forte

78
Comparaison de valeurs sur des échantillons
indépendants
  • La comparaison des résultats de 2 groupes est une
    tache fondamentale des études, à la recherche de
    différences de comportements, de sensibilité, de
    croyances
  • On peut comparer
  • de moyennes (panier moyen)
  • des proportions (fréquence des acheteurs)
  • Mais il faut toujours AVANT sassurer que les
    variances peuvent être considérées comme
    identiques.

79
Test de légalité des variances
  • Dabord regarder lhypothèse dégalité des
    variances
  • Les variances sont-elles significativement
    différentes ? H0 s1² s2²
  • Données Echantillon 1 (n1, m1, s1), Echantillon
    2 (n2, m2, s2)
  • Test de Levene (W) (Test en F )
  • F(n1-1, n2-1) s1²/s2² (plus grande variance /
    plus petite) lt 4
  • Si Homogénéité (égalité) des variances, la
    variance globale est
  • s²((n1-1)s1²(n2-1)s2²) / (n1n2-2)
  • Si Non égalité
  • Transformation des variables
  • Correction ou élimination des déviants (trimming,
    windsorisation)
  • Test avec inégalité des variances

80
Exemple Y a-t-il une différence de panier
moyen selon le genre de lacheteur ?
Analyse Comparer les moyennes test en t
pour échantillons indépendants
  • Les écarts-types sont proches (102,5 102,1)
  • La valeur de F est très faible, (sig. très élevé,
    bien supérieur à 5)
  • Lécart entre les variances nest pas
    significatif
  • Conclusion (H0) lhypothèse de variances égales
    (H0) est acceptée
  • Conséquence regarder la première ligne pour la
    suite (comparaison des moyennes)

81
Comparaison de moyennes sur des échantillons
indépendants
  • Les moyennes sont-elles significativement
    différentes ? H0 m1 m2
  • Données Echantillon 1 (n1, m1, s1),
    Echantillon 2 (n2, m2, s2)
  • Selon légalité des variances
  • Si variances égales S(m1 -m2) racine
    s²(1/n1 1/n2)
  • Si variances inégales S(m1 -m2) racine s1²/n1
    s2² /n2)
  • Calcul du z
  • z (m1 - m2)-(m1 - m2)/ S(m1 -m2)
  • on ACCEPTE H0 (les moyennes sont égales) Si
  • t faible ou
  • signification bilatérale élevée ou
  • 0 appartient à lintervalle de confiance de la
    différence des moyennes

82
ExempleAnalyse/Comparer les moyennes/ test en t
pour échantillon indépendants
  • Les moyennes sont proches (208,1 207,7)
  • La valeur de t est très faible, (sig. très élevé,
    bien supérieur à 5)
  • La différence (entre les) moyenne(s) (0,38) elle
    appartient à lintervalle de confiance (-4,02
    4,78)
  • (!!!) Différence écart-type est en fait lerreur
    standard de la différence des moyennes (donc IC
    2,2471,96)
  • Conclusion La différence (entre les) moyenne(s)
    nest pas significativement différente de zéro
    (H0 acceptée)

83
Comparaison de proportionssur des échantillons
indépendants
  • Les proportions sont-elles significativement
    différentes ? H0 p1 p2
  • Paramètres Ech1 (n1, p1), Ech2 (n2, p2)
  • Calcul de la variance globale
  • Pour une proportion s racinep(1-p)/n
  • Calcul de la proportion moyenne p (n1 p1
    n2p2)/(n1n2)
  • Calcul de lerreur standard
  • S(p1 -p2) racine p.(1-p)(1/n1 1/n2)
  • Calcul du z
  • z (p1 - p2)/ S(p1 -p2)

84
Exemple comparaison de proportions
  • Http//www.marketing-science-center.com/charge/dis
    tributions.xls

85
Analyse déchantillons appariés
  • Les individus ont-ils changé davis ?
  • Attention à la terminologie échantillons
     appariés 
  • Mesures répétées sur un même échantillon
  • Traitements dindividus  pairés  et affectés
    aléatoirement
  • Et NON échantillons ayant la même structure sur
    des critères particuliers
  • Tests selon les niveaux de mesure
  • Nominal gt Test Mc Nemar
  • Ordinal gt Test de wilcoxon
  • Intervalle gt Test en t (extension, voir
    ci-dessus)
  • Plus de deux échantillons
  • Tests en Q de Cochran, Test de friedman (non
    traités ici)

86
Test Mc Nemar
  • H0 il ny a pas de différence
  • Principe étude de la compensation du nombre de
    répondants qui modifient leurs réponses dans un
    sens ou dans lautre
  • Statistique Chi2 (A-D-1)/(AD)

87
Test de Wilcoxon
  • Prise en compte de lampleur des changements dans
    les réponses avant/après ou selon les traitements
    des groupes
  • H0 pas de différence entre les groupes
  • Statistique T minT T- avec
  • Calcul des différences individuelles diYi-Xi
  • Détermination des rangs des valeurs absolues di
  • Affectation des rangs selon le signe de la
    variation (T ou T-)
  • Calcul de la somme des rangs T et rangs T-
  • Z (T-m)/s suit une loi normale (si ngt25)
  • avec m n.(n1)/4 et s racine
    n.(n1).(2n1)/24
  • Interprétation à 5 si Zgt1.96 on rejette H0
Write a Comment
User Comments (0)
About PowerShow.com