Title: Explication dune variable dpendante binaire
1Explication dune variable dépendante binaire
Analyse des donnéesappliquée au marketing
2REGRESSION LOGISTIQUE
- Problématique générale
- Régression Logistique
- Courbe Lift
- Courbe ROC
- Les deux méthodes ont une base théorique solide
et donnent des résultats souvent très proches - Analyse discriminante
- plutôt pour une classification
- suppose une normalité, mais est robuste à la
violation de cette hypothèse - donne toujours un résultat mais pas dintervalle
de confiance - Logistique
- plutôt pour un score
- pas dhyp de normalité
- ne donne pas toujours un résultat
3Prévoir des comportements
- Peut-on identifier les facteurs qui influencent
- La décision dachat dun produit ou service
- La décision de ne plus être client (Lattrition)
- Lappartenance à un groupe particulier (Mauvais
payeurs,) - Grandes catégories de méthodes
- Régression logistique / Probit
- Analyse discriminante (hyp de normalité)
4Problématique générale
- Objectif (régression) Yf(X)
- Expliquer des choix individuels (Y)
- À partir de variables explicatives (X)
- Quelle variable dépendante ?
- Choix binaire 0,1 modèle logit
- Achat / non achat
- Choix multinomial A, B, C modèle logit
multinomial (MNL) - Entre des magasins, marques ou conditionnements
- Préférences ordonnées modèle logit ordonné
- B, puis A, puis C
- Des choix imbriqués logit niché (nested)
- Marque, puis parfum, puis conditionnement
5Principe le rapport de cote
- Pour un pari du 10 contre 1
- p / (1-p)
- Il ne se passe pas grand chose aux extrémités
dune distribution en S - Même une forte variation de x ne modifie pas la
probabilité - Par contre au milieu (proche du point
dinflexion) une petite variation de x change
fortement la probabilité - Pour obtenir cela on va
- Rapporter p à (1-p) et non à 100 p/(1-p)
- Transformer par les logarithmes logp/(1-p)
(le logit)
6La valeur dune alternative provient dune
fonction linéaire
- La fonction est compensatoire
- avec i individu, j alternative et k
attribut. - Vj Composante déterministe de l utilité qui
dépend des caractéristiques du produit et du
fournisseur - Xjk valeur de l attribut k de l alternative
j. - wk pondération de lattribut
7Le choix est fonction dune utilité aléatoire
- Parce que
- linformation est imparfaite
- Ses préférences sont mal connues ou se modifient
- Les préférences sont variées au sein de la
population - Un consommateur choisit lalternative qui
maximise son utilité avec un modèle à utilité
aléatoire - avec i individu, j alternative et k
attribut. - Uij Utilité du produit j pour l individu i
- Vj Composante déterministe de l utilité qui
dépend des caractéristiques du produit et du
fournisseur - ?ij Terme d erreur représentant la composante
non-déterministe
8Implication (hypothèse lourde IIA)
- Un MNLogit est soumis à une hypothèse
dindépendance des alternatives non pertinentes
IIA (Independence of irrelevant alternatives) - Le rapport de deux probabilités de choix ne
dépend pas des autres alternatives - Illustration choix entre Taxi et Bus Bleu
60-40. Si on ajoute un Bus Rouge que
devrait-il se passer ? - Aux conséquences importantes
- Une marque tire sa part de marché
supplémentaire de la PdM des concurrents de
manière proportionnelle à leur PdM (proportional
draw) - Pas de proximité concurrentielle des marques
- Hypothèse simplificatrice très utile mais dont il
faut tester la validité - Analyse des résidus
9Modèle Logit binaire
- Le modèle LOGIT suppose que le terme derreur
(?ij) suit une distribution spécifique (double
exponentielle) - Alors
-
- Avec
- pj probabilité que lindividu choisisse
l alternative j - Vj utilité de lalternative j
10Implication
- leffet dune variable explicative nest pas
constant - Une mesure intervalle de lutilité suffit
- L effet marginal dun attribut est variable
selon le niveau actuel des attributs - Il est maximal quand la probabilité de choix
sapproche de 0.5
Effet marginal dun attribut sur la probabilité
de choisir une alternative
Probabilité de choix d une alternative
11Du tableau croisé au Logit
12Extension du Logit
- Le modèle Multinomial Logit (MNL) (linkglogit)
- p1/p4 p2/p4 p3/p4
- Choix entre plusieurs alternatives
- Réponse nominale 1 parmi n
- Estimation de plusieurs fonctions logistiques
pour séparer les options par rapport à une
modalité de référence - Le modèle Logit ordonné (Ordered logit)
(linkclogit) - p1/(p2p3p4) (p1p2)/(p3p4) (p1p2p3)/p4
- Permet de traiter des échelles de réponses
ordinales - Une constante est affectée à chaque niveau
- Hypothèse proportionnalité des rapports de
chance - Effet des variables indépendantes est le même
quel que soit le niveau de réponse sur la
variable dépendante (hyp de à tester)
13Autres modèles selon la distribution choisie pour
les erreurs
- Le modèle PROBIT suppose que le terme derreur
suit une loi normale (normit) - Son estimation est un peu plus complexe (plus
longue) et peut limiter le nombre de variables
explicatives, - mais nest pas soumise à lhypothèse IIA
- Le modèle TOBIT suppose un mélange de deux
processus imbriqués - Lachat ou non (0/1)
- Pour les acheteurs, le choix entre les
alternatives (Logit)
14Mise en oeuvre
- Même principe que la régression
- Attention à mettre 1 pour lévénement que lon
veut prédire (par défaut cest 0 ) - Mais estimation par le maximum de vraisemblance
(et non MCO) ( problème de convergence en cas de
séparation parfaite)
15Qualité globale
- La déviance maximale correspond à la qualité de
lajustement avec une constante seulement (sans
variables indépendantes) (-2 Log L) - Ajustement global
- Test du ratio du Log de vraisemblance (LR)
- Rapport de 2 Log L / Déviance avec les degrés de
liberté - même interprétation quun F global en
régression - pseudo R2 ou R2 de Mac Fadden
- de variation de la vraisemblance par rapport à
un modèle sans variables explicatives - Test d'adéquation d'Hosmer et de Lemeshow
- équivalent du Khi2 sur les données groupées
selon la probabilité prévue). H0 le modèle est
bien adapté aux données. - Ne permet pas de détecter certaines hypothèses
(non linéarité). Prendre plus de 5 groupes. - Matrice de confusion (prédit x réel)
16Signification de chaque variable
- Signification des coefficients
- statistique de Wald carré des t de student
(suit une loi du Khi2) - Interprétation du coefficient
- lexponentielle du coefficient indique de combien
varie le rapport de cote pour une variation
unitaire de la variable - gt0 accroît la probabilité, lt0 réduit la
probabilité - 100exp(b)-1 correspond à laccroissement de la
probabilité de réalisation de lévénement
17SAS LOGIT
- data in
- input sexe age type count _at__at_
- if type"A" then Y1 else Y0
- cards
- G E A 20 G A A 100
- G E B 130 G A B 190
- G E C 130 G A C 30
- F E A 230 F A A 60
- F E B 30 F A B 140
- F E C 80 F A C 160
-
- Proc logistic datain
- freq count
- class sexe(ref'G') age (ref'E') / paramref
- model Y (ref"1") sexe age / linklogit
- output outdata_out predprobsI
18Interprétation
- Le critère de vraisemblance (-2LogL) doit être le
plus petit possible - On teste lapport du modèle par rapport à un
modèle nul (sans variable) avec le likelihood
ratio test - H0 le modèle napporte rien de plus
- ici Problt.0001 rejet de H0 gt lapport du modèle
est significatif
19Interprétation (suite)
- Tous les coefficients sont significatifs
- Khi2 de wald
- Mais leffet est plus fort pour
- Le sexe être une fille multiplie par 0.34 la
probabilité de préférer A - Lage être un adulte multiplie par 2.25 la
probabilité de préférer A
20SAS PROBIT
- model Y (ref"1") sexe age / linkprobit
- Un peu moins bon que le logit
- Mais des résultats très proches
21Exemple Logistique multinomial
- model Type (ref'A') sexe age / linkglogit
- Les fonctions se construisent à partir dune
option de référence - Ref
- Ln(P/P_ref) b0 b1. X1 b2.X2
- Pi exp(bXi)/S exp(bX) et P_réf 1/S exp(bX) 1
S Pi
22Utilisation du modèle
- A partir dun score seuil S , le modèle permet
de classer selon le groupe prévu - Si score(i) gtS alors i appartient au groupe
positif - Mais plus on cherche à bien classer les
positifs plus on y ajoute de faux
positifs (prévu positif, mais négatif) - La qualité de laffectation est déterminée par 2
indicateurs - Sensibilité (a)
- Spécificité (b)
- On cherche S tel quil
- Maximise (a) (vrais positifs)
- Minimise (1-b) (faux positifs)
23Courbe de LIFT
- Abscisses fréquence des scores ( du fichier)
- Ordonnées sensibilité (a) la fréquence des
individus ayant la modalité de référence - En prenant 30 du fichier on a 50 des répondants
- Le lift est le rapport 50/30 1.66
- On utilise laire sous la courbe (AUL)
24Courbe ROC (receiver operating characteristic)
- Abscisses (1- spécificité) (1-b)
- Ordonnées sensibilité a
- Si on sélectionne ceux qui ont un score gt à S,
on trouve - 50 des positifs / 25 de faux positifs
- Laire sous la courbe permet de comparer les
modèles - AUC c statistic dans la table
prévu-réel ou dans le graphique ROC - KS peut aussi être utilisé mais étudie toute
différence entre les distributions (forme et
écart) alors que Wilcoxon se concentre sur
lécart (shift). - Équivalent au test de wilcoxon
idéal
S
hasard
25Utilisation du MNLdans les études de segmentation
- Idée fondamentale segmenter la base des
acheteurs selon la probabilité de choix de la
marque - Fidèles à la marque
- Fidèles au concurrent
- Volages à gagner à perdre
- Modélisation des préférences individuelles
(Guadagni et Little) - Introduction dune variable de fidélité (marque,
conditionnement) - Fidel(t) (1-a).Fidel(t-1) a.Choix (quel
lissage ?) - Mais attention à la relation avec les variables
explicatives - Difficulté dinitialisation
- Durée et forme de linitialisation
- conséquence sur la composition de léchantillon
26ANALYSE DISCRIMINANTE
- Objectif
- Trouver une combinaison linéaire de variables
indépendantes - Permettant de séparer au mieux lappartenance à
deux groupes - Objectif pratique
- Décrire les groupes à partir des variables
- Classification-prédiction des individus
- Utilisation
- Pour lappartenance à un découpage connu achat/
non achat - A la suite dune typologie pour construire une
fonction daffectation une reprenant que les
variables les plus pertinentes pour séparer des
groupes créés
27Conditions dutilisation de lanalyse
discriminante
- En analyse discriminante, la relation Y f(X)
est LINEAIRE - Lanalyse discriminante est assez exigeante en ce
qui concerne les conditions théoriques - Normalité (multi-normalité) des distributions des
variables explicatives - Tests des moments (symétrie, aplatissement)
- Test de forme (K-S)
- Egalité des matrices de Variance-Covariance
- Test de Box, de Bartlett
- Absence de multicolinéarité entre les variables
explicatives - Analyse factorielle
- Conditions empiriques
- Effectifs effectif du plus petit groupe gt 5 le
nombre de variables - En général nest pas recommandée pour les petits
échantillons - Attention lAD doit faire beaucoup mieux que le
hasard !
28Résultats
- Des fonctions discriminantes linéaires permettant
de séparer au moins deux groupes - Zj a1.X1 a2.X2 a3.X3 (ai poids
discriminants) - Il y a min(Nb var, Nb groupes-1) fonctions
- Qui apparaissent dans un ordre décroissant
dimportance des valeurs propres (idem analyse
factorielle) - Test
- Significativité globale de la fonction (H0 la
fonction napporte rien) - (U ou ) Lambda de Wilks (Within / Total), à
minimiser - Pillaï de Bartlett (Between / Total)
- T² de Hotelling (2 groupes seulement)
- Plus la valeur est élevée plus la fonction
apporte quelque chose - Suivent une loi du Khi2
- Degrés de liberté pour (p-k)(g-k-1) p nb
variables explicatives, k nb de fonctions
discriminantes déjà extraites, g nb de groupes
29Qualité de la discrimination
- Pouvoir discriminant
- Relatif valeur propre / somme des VP li
li/S l - Absolu de la variance expliquée par la
fonction - w² pouvoir discriminant total
- PDA li w²
- Matrice de confusion (prédit x réel)
- A comparer par rapport au hasard
- Comparer la performance (validation externe)
- En comparant la qualité prédictive sur un
échantillon non utilisé dans lanalyse - Split half (éch destimation éch de validation)
- Jack-knife (n-1, 1)
- Sur différents échantillons artificiels tirés au
hasard - Bootstrap
30Variantes
- Analyse discriminante canonique (CANDISC) ou de
Fischer - Recherche des fonctions qui séparent au mieux les
centres de classe - (g-1) fonctions si g groupes
- Analyse discriminante générale (DISCRIM) ou
probabiliste - Une fonction par groupe déterminant la similarité
avec le centre du groupe - Les scores peuvent être utilisés pour faire des
probabilité daffectation à un groupe - Options linéaire, quadratique, non paramétrique
(option pool) - Linéaire même matrice de var-covar (poolyes)
- Quadratique matrice de var-covar spécifique à
chaque groupe (No) - Possibilité de tester sur une autre base, faire
de la cross-validation - Analyse discriminante stepwise (STEPDISC)
- Pour pré-sélectionner progressivement les
variables les plus pertinentes - Discriminante sur variables qualitatives DISQUAL
(Saporta, 1977) - Faire dabord une analyse factorielle des
correspondances multiples - (proc corresp)
- sur les indicatrices des modalités (moins une) de
chaque variable - Éventuellement discrétiser les variables
continues par quantile - en essayant de maintenir le même nombre de
modalités par variable - Puis une Analyse Discriminante Linéaire sur les
facteurs
31Application STEPDISC
- proc stepdisc dataech_test
- class achat
- var sex catotal
32Application CANDISC
- proc candisc dataech_test outdiscrim_out
- class achat
- var sex catotal
33Application DISCRIM
- proc discrim
- dataech_test
- methodnormal
- pooltest Wcov / YES si normal NO si non
normal TEST si à tester / - crossvalidate
- outdiscrim_results
- outstatdata_calib
- priors prop
- class achat
- var sex catotal