Title: Modles Variables Dpendantes Qualitatives : Extensions
1Modèles à Variables Dépendantes Qualitatives
Extensions
Ecole Doctorale Marchés et Organisation Droit
Economie - Gestion
GREDEG, Juin 2008
2Plan du Cours
- Maximum de vraisemblance et régression logistique
- La régression logistique multinomiale
- Simple
- Ordinale
- Les modèles de comptage
- Le modèle de Poisson
- Le modèle négatif binomial
3Le modèle LOGIT
4Probabilités, chances et logit
- Nous voulons expliquer la réalisation évènement
la variable à expliquer prend deux valeurs
y0,1. - En fait, on va expliquer la probabilité de
réalisation (ou non) de lévènement
P(YyX)?01. - Il nous faudrait une transformation de P(Y) qui
étendent lintervalle de définition. - Nous allons voir que le calcul des chances permet
denvisager cette transformation. - Nous comprendrons alors les sources de la
fonction logit.
5Les ratios de chance
Ou plus généralement
Plutôt que dexpliquer Y (1 ou 0), on va tenter
dexpliquer le ratio de chance (ou odds ratio)
6Probabilités, chances et logit
7La transformation logit
- Le précédent tableau fait correspondre une liste
de probabilité entre 0 et 1 et son équivalent en
termes de chance au logarithme des chances. - Si la probabilité varie de 0 à 1, la chance varie
de 0 à linfini. Le log de la chance varie de 8
à 8 . - Remarquez que la distribution des chances et des
log est symétrique.
8La distribution logistique
9Le modèle Logit (1)
Modélisons la probabilité en nous assurant que
quelles que soient les valeurs de X, P reste
toujours entre 0 et 1.
10Le modèle Logit (2)
Ecrivons le ratio de chance (odds ratio) et
prenons son log
- Notons deux caractéristiques importantes et
désirées du modèle - Malgré le fait que P soit compris entre 0 et 1,
le logit est un réel compris entre -8 et 8 - La probabilité nest pas linéaire en X
11La méthode du maximum de vraisemblance
- Le problème est que nous nobservons pas le ratio
de chance. Encore une fois, le modèle MCO ne
convient pas. - Pour estimer le modèle LOGIT, on a recours à la
méthode du maximum de vraisemblance. - La méthode MV est une méthode destimation
alternative à la méthode des moindres carrés. - Elle consiste à trouver la valeur des paramètres
qui maximisent la vraisemblance des données. - La vraisemblance en économétrie est définie comme
la probabilité jointe dobserver un échantillon,
étant donné les paramètres du processus ayant
généré les données.
12La méthode du maximum de vraisemblance
- Supposons que nous disposons dun échantillon de
n observations aléatoires. Soit f(Y) la
probabilité que Y1 ou 0. La probabilité jointe
dobserver les n variables de Y est donnée par la
fonction de vraisemblance
- On doit maintenant spécifier la fonction f(.).
Elle découle de la distribution des probabilités
dun événement qui ne peut avoir que deux
occurrences un succès et un échec. Il sagit de
la distribution binomiale
13La fonction de vraisemblance
- En définitive, la fonction de vraisemblance
sécrit
14La fonction de vraisemblance
- Parce quelle est difficile à manipuler, on
utilise généralement le log. Après manipulation,
la fonction log de la vraisemblance sécrit
15La méthode du maximum de vraisemblance
- Le problème est le suivant étant donné la forme
fonctionnelle de f(.) et les N observations,
quelles valeurs des paramètres rendent
lobservation de léchantillon la plus
vraisemblable?
16La maximisation de la vraisemblance
Les estimateurs obtenus en maximisant la
vraisemblance sont efficaces. Ou encore en
maximisant le log de la vraisemblance.
Cette maximisation na pas de solution analytique
et se résout grâce un algorithme ditération.
17Lexemple des chances dinnover
- Les entreprises de biopharmaceutique 373 (81)
ont innover et 84 (19) ne lont pas fait. - La chance dinnover est denviron 4 contre 1.En
effet 373/844.4 - Pour les entreprises de biopharmaceutique, la
probabilité dinnover est quatre fois plus élevée
que la probabilité de ne pas le faire.
18Le modèle de régression logistique
Application sur la base de données OLS
? Instruction Stata logit
logit y x1 x2 x3 xk if weight , options
- Options noconstant estime le modèle sans
constante - robust estime des variances robustes,
même en cas d'hétéroscédasticité - if permet de sélectionner les observations sur
lesquelles portera la régression - weight permet de pondérer les différentes
observations
19Interprétation des coefficients (1)
- Pour avoir la mesure de la variation de
probabilité, il faut utiliser la formule du logit
pour transformer le logit en probabilité
20Interprétation des coefficients (2)
- Tapons un modèle sans variable explicative et
seulement une constante - Tapons logit inno et nous trouvons
- La constante 1.491 sinterprète comme le log
ratio moyen. Calculons la probabilité moyenne
dinnover. - Tapons dis exp(_b_cons)/(1exp(_b_cons))
- Nous trouvons bien la valeur observée 81
21Interprétation des coefficients (3)
- Un signe positif signifie que la probabilité de
succès augmentera avec la variable
correspondante. - Un signe négatif signifie que la probabilité de
succès diminuera avec la variable correspondante.
- Une des difficultés dans linterprétation des
probabilités est leur non linéarité elles ne
varient pas identiquement selon le niveau des
variables indépendantes. - Cest pourquoi il est fréquent de calculer la
probabilité au point moyen de léchantillon.
22Interprétation des coefficients (4)
- Tapons logit inno rdi size spe pharma
- A partir du modèle, on peut calculer la
probabilité conditionnelle moyenne en utilisant
les valeurs moyennes de rdi, size, spe et pharma.
23Les effets marginaux (1)
- Il est souvent utile de connaître leffet
marginal dune variable explicative sur la
probabilité de succès dun évènement. - Puisque la probabilité est une fonction non
linéaire des variables explicatives, la variation
de la probabilité due à un changement dune
variable explicative (ou son effet marginal) ne
sera pas identique selon que les autres variables
sont maintenues à leur niveau moyen, ou médian,
ou au premier quartile, etc. - prvalue produit les probabilité prédites après un
modèle logit (ou autre modèle) - prvalue
- prvalue , x(size10) rest(mean) renvoie pour
p(Y1) 0.1177 - prvalue , x(size11) rest(mean) renvoie pour
p(Y1) 0.2622 - prvalue , x(size12) rest(mean) renvoie pour
p(Y1) 0.4862 - prvalue , x(size10) rest(median) renvoie pour
p(Y1) 0.0309 - prvalue , x(size11) rest(median) renvoie pour
p(Y1) 0.0781 - prvalue , x(size12) rest(median) renvoie pour
p(Y1) 0.1841
24Les effets marginaux (2)
- La commande prchange est bien utile. Elle produit
leffet marginal de chacune des variables
explicatives pour la plupart des variations de
valeurs désirées. - prchange varlist if in range
,x(variables_and_values) rest(stat) fromto - prchange
- prchange, fromto
- prchange , fromto x(size10.5) rest(mean)
25Le modèle LOGIT multinomial
26Le modèle multinomial
- Envisageons maintenant le cas où la variable
dépendante est multinomial. Par exemple, dans la
cadre des activités dinnovation de la firme - Collabore avec université (modalité 1)
- Collabore avec grande firme (modalité 2)
- Collabore avec PME (modalité 3)
- Ne collabore pas (modalité 4)
- Ou dans le cadre de la survie des firmes
- Survie (modalité 1)
- Banqueroute (modalité 2)
- Rachat (modalité 3)
27(No Transcript)
28Introduction au modèle multinomial
Prenons le cas de la survie des firmes. La
première possibilité est denvisager trois
régressions logistiques indépendantes comme suit
Où 1 survie, 2 banqueroute, 3 rachat. 1.
Ouvrez le fichier mlogit.dta 2. Pour chaque
modalité, estimez la probabilité au point moyen
de léchantillon, conditionnelle à - temps
(log_time) - la taille (log labour) -
lâge (entry_age) - lindicatrice
spinout (spin_out) - lindicatrice
cohorte (cohort_)
29Introduction au modèle multinomial
30Le modèle multinomial
Premièrement, la somme des probabilités
conditionnelles doccurrence dévènements
exclusifs doit être égale à lunité.
Deuxièmement, pour k modalités différentes, nous
navons besoin destimer que (k 1) modalités.
Donc
31Le modèle multinomial
Troisièmement, le modèle multinomial est un
modèle destimation simultanée comparant des
ratios de chance pour chaque pair de modalités.
Dans le cas de trois modalités
32Le modèle logit multinomial
Remarquons quil y a redondance dinformation
dans les trois modèles précédents. En effet
Quatrièmement, lestimation dun modèle
multinomial revient à estimer conjointement (k
1) modèles logit en posant la contrainte sur les
paramètres à estimer
33Le modèle logit multinomial
Dans une modélisation logistique à k modalités,
la probabilité doccurrence de la modalité j
sécrit
Par convention, la modalité 0 est la modalité de
base
34Le modèle logit multinomial
Notez que
35Le modèle Logit binomial comme un cas particulier
du logit multinomial
Réécrivons la probabilité de lévènement Y1
On voit bien que le logit binomial est un cas
particulier du cas multinomial où seulement deux
modalités sont analysées.
36La méthode du maximum de vraisemblance
- Supposons que nous disposons dun échantillon de
n observations aléatoires. Soit f(Y) la
probabilité que Yj. La probabilité jointe
dobserver les n variables de Y est donnée par la
fonction de vraisemblance
- On doit maintenant spécifier la fonction f(.).
Elle découle de la distribution des probabilités
dun événement qui peut avoir plusieurs
modalités. Il sagit de la distribution
multinomiale
37La fonction de vraisemblance
- En définitive, la fonction de vraisemblance
sécrit
38La fonction de vraisemblance
- Après manipulation, la fonction log de la
vraisemblance sécrit
39Le modèle de logit multinomial
? Instruction Stata mlogit
mlogit y x1 x2 x3 xk if weight , options
- Options noconstant estime le modèle sans
constante - robust estime des variances robustes,
même en cas d'hétéroscédasticité - if permet de sélectionner les observations sur
lesquelles portera la régression - weight permet de pondérer les différentes
observations
40Le modèle de logit multinomial
- use mlogit.dta, clear
- mlogit type_exit log_time log_labour entry_age
entry_spin cohort_
Bloc des description de lajustement
Dans Stata, la modalité de référence est celle
qui a la plus grande fréquence empirique
41Interprétation des coefficients
Linterprétation des coefficients seffectue
toujours en référence à la catégorie de base.
La probabilité de rachat décroit-elle avec le
temps ?
Non!! Linterprétation correcte est
relativement à la survie, la probabilité de
rachat décroit avec le temps
42Interprétation des coefficients
Linterprétation des coefficients seffectue
toujours en référence à la catégorie de base.
La probabilité de rachat est elle moins forte
pour les spinoffs ?
Non!! Linterprétation correcte est
relativement à la survie, La probabilité de
rachat est moins forte pour les spinoffs
43Interprétation des coefficients
Relativement à la banqueroute, la probabilité de
rachat est plus forte pour les spinoffs
lincom boughtoutentry_spin deathentry_spin
44Croiser les références
- mcross fait le travail pour nous !
Attention à la nouvelle catégorie de référence
!! Rachat relativement à la banqueroute Relative
ment à la banqueroute, la probabilité de rachat
est plus forte pour les spinoffs
45Croiser les références
- mcross fait le travail pour nous !
Et nous retrouvons notre résultat précédent
46Lhypothèse dindépendances des états non
pertinents (IIA)
- Le modèle repose sur lhypothèse que pour chaque
paire de modalités les réalisations sont
indépendantes des autres modalités. Autrement
dit, les autres modalités sont non pertinentes
(irrelevant). - Dun point de vue statistique, cela revient à
faire lhypothèse dindépendance des termes
derreur entres les différentes modalités (doù
le nom IIA Independence of irrelevant
alternatives) - Une façon simple de tester la propriété IIA est
alors destimer le modèle en retirant une
modalité (pour retreindre les choix), et de
comparer les nouveaux paramètres avec deux du
modèle complet - Si IIA est valide, les paramètres ne changent pas
significativement - Si IIA nest pas valide, les paramètres changent
significativement
47Lhypothèse dindépendances des états non
pertinents (IIA)
- H0 La propriété IIA est valide
- H1 La propriété IIA nest pas valide
- La statistique H (H car il sagit en fait dun
test dHausman) suit une distribution du ?² à M
degré de liberté (M étant le nombre de paramètres)
48Application de IIA
- H0 La propriété IIA est valide
- H1 La propriété IIA nest pas valide
mlogtest, hausman
Variable omise
49Application de IIA
- H0 La propriété IIA est valide
- H1 La propriété IIA nest pas valide
mlogtest, hausman
Donc on compare les paramètres du modèle
Banqueroute relativement à Rachat estimé
conjointement avec survie relativement à
rachat avec les paramètres du modèle
Banqueroute relativement à Rachat estimé
sans survie relativement à rachat
50Application de IIA
- H0 La propriété IIA est valide
- H1 La propriété IIA nest pas valide
mlogtest, hausman
La conclusion est que la modalité survie modifie
significativement larbitrage rachat ou
banqueroute. En fait pour une firme, le rachat
peut être vu comme une modalité de rester en
activité avec une perte sur la décision
économique dinvestissement notamment.
51Le LOGIT multinomial ordonné
52Le modèle multinomial ordonné
- Envisageons maintenant le cas où la variable
dépendante est une variable discrète, dont la
valeur indique une intensité. Typiquement, dans
le cadre dune enquête dopinion (genre CIS1-4),
on a des questions dont la réponse est codée par
une échelle de Likert - Obstacles à linnovation (échelle de 1 à
5) - Intensité de collaboration (échelle de 1
à 5) - Enquête de marketing (Napprécie pas (1)
Apprécie (7)) - Note détudiants
- Test dopinion
- Etc.
53La structure ordonnée
Ces variables décrivent des échelles verticale
quantitative, si bien quune façon de modéliser
le problème est de considérer des intervalles
dans lesquels la variables latentes y peut se
trouver
où aj sont des bornes inconnues à estimer,
définissant la frontières des intervalles.
54La structure ordonnée
On pose ensuite lhypothèse que la variable
latente (non observée) y est une combinaison
linéaire des variables explicatives
où ui admet une fonction de répartition F(.). Les
probabilités associées aux réalisations de y (y
?y) sont alors liées à la fonction de
répartition de F(.). Regardons la probabilité que
y 1
55La structure ordonnée
Regardons la probabilité que y 2
Donc dans lensemble, nous avons
56Probabilité dans le modèle ordonné
y3
y2
y1
yk
ui
57La fonction de vraisemblance
- En définitive, la fonction de vraisemblance
sécrit
58La fonction de vraisemblance
- Dans le cas où ui suit une fonction logistique,
la fonction log de la vraisemblance sécrit
59Le logit multinomial ordonnée
? Instruction Stata ologit
ologit y x1 x2 x3 xk if weight , options
- Options noconstant estime le modèle sans
constante - robust estime des variances robustes,
même en cas d'hétéroscédasticité - if permet de sélectionner les observations sur
lesquelles portera la régression - weight permet de pondérer les différentes
observations
60Le modèle de logit multinomial
- use est_var_qual.dta, clear
- ologit innovativeness size rdi spe biotech
Qualité de lajustement
Paramètres estimés
Points seuils
61Interprétation des coefficients
- Un signe positif signifie une relation positive
entre la variable explicative et le rang (ou
lordre) - Une des difficultés dans linterprétation est le
rôle des variables de seuil. Notre modèle est - Quelle est la probabilité que Y 1 P( 1) ?
- Quelle est la probabilité que le score soit
inférieur au premier seuil ?
62Interprétation des coefficients
- Quelle est la probabilité que Y 2 P( Y 2) ?
63Obtenir les probabilité prédites
- prvalue fait le travail pour nous !
64Les modèles de comptagePartie 1. Le modèle de
Poisson
65(No Transcript)
66Les modèles de comptage
Envisageons maintenant le cas où la variable
dépendante est une variable discrète positive qui
décrit un nombre dévènement. Typiquement, dans
le cadre de lanalyse de linnovation, on
dénombre des innovations, de demande de brevets,
des inventions. On pourrait utiliser les MCO
mais les MCO peuvent produire des prédictions
négatives. Pour les cas où les recensement sont
importants (nombre de brevets par pays, et non
par firme), alors les MCO peuvent être
utilisés.On pourrait utiliser le modèle
multinomial ordonné pour le faible
dénombrement. Généralement on utilise les modèle
de comptage, dont la variable à expliquer suit
une loi de Poisson.
67Le modèle de Poisson
Soit Y variable aléatoire de comptage, la
probabilité donnée par la distribution de Poisson
que Y soit égale à un entier yi est
Pour introduire les variables explicatives dans
le modèle, on conditionne ?i en imposant la forme
log-linéaire comme suit
68La distribution de Poisson
69La fonction de vraisemblance
- La fonction de vraisemblance sécrit
70Le modèle de Poisson
? Instruction Stata poisson
poisson y x1 x2 x3 xk if weight ,
options
- Options noconstant estime le modèle sans
constante - robust estime des variances robustes,
même en cas d'hétéroscédasticité - if permet de sélectionner les observations sur
lesquelles portera la régression - weight permet de pondérer les différentes
observations
71Le modèle de Poisson
- use est_var_qual.dta, clear
- poisson poisson PAT rdi size spe biotech
Bloc des description de lajustement
Bloc des paramètres estimés
72Linterprétation des coefficients
Si les variables sont entrées en logarithme, on
peut interpréter les coefficients comme des
élasticités
Laugmentation de 1 de la taille de lentreprise
est associée à une augmentation de 0.51 du
nombre espéré de brevets
73Linterprétation des coefficients
Si les variables sont entrées en logarithme, on
peut interpréter les coefficients comme des
élasticités
Laugmentation de 1 de linvestissement en RD
est associée à une augmentation de 0.79 du
nombre espéré de brevets
74Linterprétation des coefficients
Si la variable explicatives nest pas une
transformé logarithmique, linterprétation change
Laugmentation de 1 point du degré de
spécialisation est associée à une augmentation de
0.74 du nombre espéré de brevets
75Linterprétation des coefficients
Pour les variables muettes, linterprétation est
légèrement différentes
Les entreprises de biotechnologie ont un nombre
espéré de brevets supérieur de 1 aux autres
entreprises.
76Linterprétation des coefficients
Toutes les variables sont extrêmement
significatives
mais hélas
77Les modèles de comptagePartie 2. Le modèle
négatif binomial
78Le modèle négatif binomial
Généralement, le modèle de Poisson est invalidé
par la présence dune surdispersion des données
qui violent lhypothèse dégalité des deux
premiers moments de la distribution la moyenne
et la variance. Le modèle négatif binomial
pallie à ce problème en ajoutant à la forme
log-linéaire un terme dhétérogénéité non
observée
79Le modèle négatif binomial
La densité de yi (la probabilité) est obtenue en
prenant lespérance de lexpression par rapport à
la densité de ui
En supposant que ui suit une loi Gamma de moyenne
1, la densité de yi devient
80La fonction de vraisemblance
Où alpha est le paramètre de surdispersion
81Le modèle négatif binomial
? Instruction Stata nbreg
nbreg y x1 x2 x3 xk if weight , options
- Options noconstant estime le modèle sans
constante - robust estime des variances robustes,
même en cas d'hétéroscédasticité - if permet de sélectionner les observations sur
lesquelles portera la régression - weight permet de pondérer les différentes
observations
82Le modèle de Poisson
- use est_var_qual.dta, clear
- nbreg poisson PAT rdi size spe biotech
Qualité de lajustement
Paramètres estimés
Paramètre de surdispersion
Test de surdispersion
83Linterprétation des coefficients
Si les variables sont entrées en logarithme, on
pouvons toujours interpréter les coefficients
comme des élasticités
Laugmentation de 1 de la taille de lentreprise
est associée à une augmentation de 0.66 du
nombre espéré de brevets
84Linterprétation des coefficients
Si les variables sont entrées en logarithme, on
pouvons toujours interpréter les coefficients
comme des élasticités
Laugmentation de 1 de la taille des dépenses de
RD est associée à une augmentation de 0.86 du
nombre espéré de brevets
85Linterprétation des coefficients
Si la variable explicatives nest pas une
transformé logarithmique, linterprétation
change
Laugmentation de 1 point du degré de
spécialisation est associée à une augmentation de
0.84 du nombre espéré de brevets
86Linterprétation des coefficients
Et pour les variables muettes
Les entreprises de biotechnologie ont un nombre
espéré de brevets supérieur de 1,56 aux autres
entreprises.
87Le test de surdispersion
On utilise le test LR qui compare le modèle
négatif binomial avec le modèle de Poisson
-1481
-4536
-
Le résultat du test (H0 Alpha0) rejette
lhypothèse de nullité de alpha. Il y a de la
surdispersion dans les données. Il faut donc
choisir le modèle binomial négatif.
88Des erreurs standard plus grandesDes valeurs z
plus petites
89Extensions
90Estimateurs MV
- Tous les modèles présentés peuvent être étendus à
la prise en compte de lhétérogénéité non
observée - Effets fixes
- Effets aléatoires
- Le modèle dHeckman
- Biais de sélection
- Deux équations, dont la première estime la
probabilité dêtre observé - Les modèles de survie
- En temps discret log-log complémentaire, logit
- En temps continu