La rйgression multiple - PowerPoint PPT Presentation

1 / 60
About This Presentation
Title:

La rйgression multiple

Description:

La r gression multiple Econom trie appliqu e Cours de M1 deuxi me partie Armand Taranco Quand utiliser la r gression multiple Pour estimer la relation entre une ... – PowerPoint PPT presentation

Number of Views:109
Avg rating:3.0/5.0
Slides: 61
Provided by: vchariteU
Category:

less

Transcript and Presenter's Notes

Title: La rйgression multiple


1
La régression multiple
  • Econométrie appliquée
  • Cours de M1 deuxième partie
  • Armand Taranco

2
Quand utiliser la régression multiple
  • Pour estimer la relation entre une variable
    dépendante (Y ) et plusieurs variables
    indépendantes (X1, X2, )
  • Exemples
  • Expliquer le prix dun appartement par la
    superficie, les prestations, lemplacement,
  • Expliquer les ventes dun magasin par le marché
    total, le prix, linvestissement, la publicité,
  • Expliquer la consommation des véhicules par le
    prix, la cylindrée, la puissance et le poids.

3
Le modèle linéaire de régression multiple
  • Equation de régression multiple
  • Cette équation précise la façon dont la variable
    dépendante est reliée aux variables explicatives
  • où b0, b1, b2, . . . , bp sont les paramètres
    et e est un bruit aléatoire représentant le terme
    derreur.

4
Le modèle linéaire de régression multiple
  • Les termes de léquation

Influence de la variable Xp
Terme constant
ième observation de Y
Influence de la variable X1
Résidu de la ième observation
5
Le modèle linéaire de régression multiple
  • Ecriture matricielle du modèle

6
Le modèle linéaire de régression multiple
  • Les hypothèses du modèle
  • Les hypothèses de nature probabiliste
  • Les variables Xi sont aléatoires
  • E(ei)0 pour tout i
  • V(ei)s2 pour tout 1ip (homoscédasticité des
    erreurs)
  • Cov(ei , ei )0 pour tout i?j
  • Le vecteur aléatoire e suit une loi normale à n
    dimensions N(0, s 2In)
  • Les hypothèses structurelles
  • Det(XTX)?0 (absence de colinéarité entre les
    variables explicatives).
  • ngtp1

7
Le modèle linéaire de régression multiple
  • Interprétation géométrique
  • Le modèle général définit un hyperplan de
    dimension p. Nous illustrons le cas p2.

E(YiX1i, X2i) ?0?1X1i?2X2i
Yi observation
Y
b0
ei
X2
(X1i, X2i)
X1
8
Le processus destimation
Modèle de régression multiple Y ?0 ?1X1
?2X2 . . . ?pXp e Hyperplan de régression
multiple E(YX1,,Xp) ?0 ?1X1 ?2X2 . . .
?pXp Paramètres inconnus b0, b1, b2, . . . , bp
Equation estimée
Estimateurs de b0, b1, b2, . . . , bp
Estimateurs
9
Le processus destimation
  • Interprétation géométrique
  • Illustration du cas p2.

yi observation
Y
X2
(X1i, X2i)
X1
10
Le processus destimation
  • Estimation des coefficients de régression
  • La méthode les moindres carrés ordinairesLe
    principe de lestimation des coefficients de
    régression
  • consiste à minimiser la somme des carrés des
    résidus
  • Le calcul numérique lui-même (calcul matriciel)
    peut seffectuer à laide de logiciels
    statistiques (SAS, SPSS, S, R, Gretl,).

11
Le processus destimation
  • Estimation des coefficients du modèle
  • La méthode des moindres carrés donne pour
    résultat
  • suit une loi
  • est sans biais
  • Parmi les estimateurs de b linéaires par rapport
    à
  • X, sans biais, les éléments de ont la plus
    petite variance.

12
Le processus destimation
  • Interprétation des coefficients de régression
    estimés
  • La pente (k?0)
  • Lestimée de Y varie dun facteur égal à
  • lorsque Xk augmente dune unité, les autres
  • variables étant maintenues constantes.
  • Lordonnée à lorigine
  • Cest la valeur moyenne de Y lorsque toutes les
    Xi sont nulles.

13
Le processus destimation
  • Estimation de la variance des résidus

14
Le processus destimation
  • Les intervalles de confiance
  • On peut calculer pour chaque coefficient du
    modèle un intervalle de confiance de niveau (1-a)
    donné par
  • où ta/2 se calcule à partir de
  • T suivant une de Student à n-p-1 d.d.l.

15
Le processus destimation
  • Les données
  • Taille de léchantillon
  • Les données doivent être suffisamment nombreuses
    15 à 20 par variable au moins.
  • La nature des variables
  • Dans la pratique, Y est une variable
    quantitative et les Xi peuvent être quantitatives
    ou binaires.

16
Qualité de la régression
  • Décomposition de la somme des carrés totale
  • SCT somme des carrés totale
  • SCR somme des carrés des résidus
  • SCE somme des carrés expliqués par le modèle

SCT SSE SCR
17
Qualité de la régression
  • Interprétation géométrique de la décomposition en
    somme de carrés

Théorème de Pythagore
18
Qualité de la régression
  • Les coefficients de détermination
  • Le coefficient de détermination R2
  • Il exprime le pourcentage de la variance de Y
    expliquée par le modèle. Il donne une idée
    globale de l'ajustement du modèle.
  • Le R2 ajusté se calcule en fonction du R2
  • Il traduit à la fois la qualité de lajustement
    (liaison entre Y et les Xi) et la complexité du
    modèle (nombre de variables explicatives).

R2 SCE/SCT
19
Qualité de la régression
  • Remarques sur le R2
  • 0R2 1
  • Lorsque le R2 est proche de 1, cela se signifie
    que la variable dépendante Y est bien expliquée
    par les variables Xi.
  • La racine carrée de R2, R, porte le nom de
    coefficient de corrélation multiple entre Y et
    les Xi.
  • Lorsque lon ajoute de nouvelles variables
    explicatives au modèle, le R2 augmente (même dans
    le cas où les nouvelles variables explicatives
    sont très liées à la variable dépendante).
  • Cest la raison pour laquelle on introduit le R2
    ajusté.

20
Qualité de la régression
  • Le test global de Fisher
  • Il permet de répondre à la question la liaison
    globale entre Y et les Xi est-elle significative
    ?
  • Hypothèses
  • H0 ?1 ?2 ... ?p 0
  • Y ne dépend pas des variables Xi .
  • H1 Au moins un coefficient est non nul
  • Y dépend dau moins une variable Xi .

21
Qualité de la régression
  • Statistique utilisée
  • Règle de décision
  • Au risque a, on rejette H0 si a p-value
  • (calculée avec une loi de Fisher à p et n-p-1
    degrés de liberté)

22
Qualité de la régression
  • R2 et test de Fisher

F bon, R² mauvais
F bon, R² bon
23
Qualité de la régression
  • Le test de Student sur un coefficient de
    régression
  • Il permet de répondre à la question suivante
  • lapport marginal dune variable Xj est-il
    significatif ?
  • Hypothèses
  • H0 ?j 0 (j?0)
  • On peut supprimer la variable Xj
  • H1 ?j ? 0
  • Il faut conserver la variable Xj

24
Qualité de la régression
  • Statistique utilisée sous lhypothèse H0
  • Règle de décision
  • Au risque a, on rejette H0 si a p-value
    (calculée à partir dune loi de Student
  • à n-p-1 degrés de liberté).

25
Analyse des résidus
  • Normalité
  • QQ plot
  • Tests de normalité
  • Homoscédasticité
  • La variance des résidus nest pas stable.
  • Transformation des données
  • Indépendance des résidus
  • Test de Durbin-Watson
  • Détection des valeurs atypiques

26
Les variables indicatrices
  • Variable muette ou indicatrice (dummy variable)
  • Variable prenant les valeurs 0 ou 1 pour
    indiquer que lobservation présente une certaine
    caractéristique, par exemple une périodicité
    (trimestre, mois,).
  • Exemple la consommation de fuel trimestrielle
  • di 1 pour le iéme trimestre
  • di 0 sinon

27
Multicolinéarité
  • Définition
  • Cest lexistence de corrélations élevées (au
    delà de 0.70) entre les variables indépendantes
    (variables explicatives).
  • La multicolinéarité a notamment pour
    conséquences
  • - de fausser la précision de lestimation des
    coefficients de régression
  • - de rendre sensible lestimation des
    coefficients à de petites variations des données.

28
Multicolinéarité
Variables colinéaires
X1
X2
Variables indépendantes
X2
X3
29
Multicolinéarité
  • Détection
  • Examen de la matrice de variance covariance ou de
    corrélation.
  • R2 élevé mais peu de variables significatives.
  • Fortes corrélations entre les Xi
  • Fortes corrélations partielles entre les
    variables indépendantes.

30
Sélection des variables
  • Problématique
  • Comment choisir le modèle comportant la
    meilleure combinaison de variables indépendantes
    expliquant la variable dépendante ?
  • Stratégies
  • Examiner tous les modèles possibles
  • Sélection progressive
  • Régression pas à pas descendante
  • Régression pas à pas ascendante

31
Sélection des variables
  • Examiner tous les modèles possibles
  • Cette stratégie consiste à envisager tous les
    modèles et à retenir le meilleur.
  • Inconvénients
  • Lenteur (2p modèles si p est le nombre de
    variables explicatives) et coût de cette approche
  • Cest quoi le meilleur modèle ?

32
Sélection des variables
  • Le test de Fisher
  • Il permet de tester si le fait dajouter une
    variable indépendante à un modèle comportant déjà
    une variable (ou de supprimer une variable dun
    modèle comportant deux variables) est
    statistiquement significatif.
  • La p-value correspondante est utilisée comme
    critère de décision pou ajouter ou supprimer une
    variable.

33
Régression pas à pas
Calcul de F et de la p-value pour chaque Xi du
modèle
La variable Xi ayant la plus petite p-value
est entrée dans le modèle
p-value gt seuil ?
La variable Xi ayant la plus grande p-value
est supprimée du modèle
Oui
Oui
Non
p-value lt seuil ?
Calcul de F et de la p-value pour chaque Xi ne
se trouvant pas Dans le modèle
Non
Début
Arrêt
34
Régression pas à pas descendante
Au départ toutes les variables Xi sont dans le
modèle
Calcul de F et de la p-value pour chaque Xi
p-value gt seuil ?
La variable Xi ayant la plus grande p-value
est supprimée du modèle
Oui
Non
Arrêt
35
Exemples
  • Deux exemples sont traités en cours
  • à laide du logiciel SPSS
  • lun dentre eux illustre la mise en œuvre dune
    régression multiple et lautre la sélection des
    variables dans un modèle à laide de la méthode
    de régression descendante.

36
Une étude empirique
  • Titre de larticle Reliving the 50s the Big
    Push, Poverty Traps, and Take-offs in Economic
    Development, William Easterly (2005)
  • Données utilisées Maddison, Angus. The World
    Economy Historical Statistics. OECD 2003.

37
Une étude empirique
  • Lauteur William Easterly
  • Expert reconnu du développement économique et de
    l'Afrique
  • Professeur à lUniversité de New York
  • Chercheur au Center for Global Development
    (Washington)
  • Il a travaillé en tant quéconomiste pendant 16
    ans à la Banque Mondiale. Il a dû quitter
    linstitution à la suite de la parution de son
    ouvrage Les pays pauvres sont-ils condamnés à
    le rester ? (juin 2006).

38
Une étude empirique
  • Termes importants dans le titre de larticle
  • Économie du développement
  • Big Push
  • Poverty traps
  • Take-offs

39
Economie du développement
  • Quest ce que léconomie du développement ?
  • Branche de léconomie qui applique les méthodes
    macroéconomiques et microéconomiques à létude
    des problèmes économiques, sociaux,
    environnementaux et institutionnels rencontrés
    par les PVD (Pays en Voie de Développement).
  • Points focaux
  • Déterminants de la pauvreté et du sous
    développement
  • Politiques à mettre en œuvre pour sortir les PVD
    de leur sous-développement.

40
Une étude empirique
  • Le  big push 
  • Les économistes du développement des années 50
    préconisaient la théorie du "Big Push"
  • les pays les plus pauvres se trouvent enfermés
    dans une trappe à pauvreté. Daprès eux, seul un
    effort massif d'investissement financé par l'aide
    internationale peut leur permettre de décoller.

41
Une étude empirique
  • La problématique de larticle
  • Le rapport des Nations unies sur les objectifs
    du millénaire de janvier 2005 et celui de la
    Commission britannique pour l'Afrique de mars
    2005 sont marqués par le retour de lidée quune
    combinaison dinvestissements peut permettre aux
    économies africaines de sortir des trappes à
    pauvreté.
  • William Easterly a voulu tester cette approche
    du  big push  comme réponse aux trappes à
    pauvreté en utilisant des régressions sur le taux
    de croissance.

42
Une étude empirique
  • Comment tester lexistence de trappes à pauvreté
    ?
  • Revue de la littérature
  • Les pays pauvres ont-ils une croissance par tête
    significativement inférieure à celle des autres
    pays et cette croissance est-elle nulle ?
  • Données revenu par tête de 1950 à 2001 pour 137
    pays.

43
Une étude empirique
  • Test de stationnarité sur le taux de croissance
    par tête

44
Une étude empirique
  • Que signifie la stationnarité ?
  • Si lhypothèse dune trappe à pauvreté est
    vraie, alors le Log du revenu par tête pour les
    pays les plus pauvres doit être stationnaire. Le
    revenu va fluctuer dune façon aléatoire autour
    de son niveau moyen.

45
Une étude empirique
  • Formulation dun test de stationnarité
  • Hypothèse H0 le Log du revenu par tête est
    stationnaire.
  • Hypothèse H1 le Log du revenu par tête nest
    pas stationnaire.

46
Une étude empirique
  • Divergence Big Time (Pritchett,1996)
  • Le creusement considérable de lécart de revenu
    entre les pays les plus riches et les plus
    pauvres du monde.
  • Le ratio de revenu par habitant entre le pays le
    plus riche et le plus pauvre du monde a été
    multiplié par 6 au cours du dernier demi-siècle.
  • Selon la Banque Mondiale, le revenu moyen dans
    les 20 pays les plus riches est 37 fois plus
    élevé que le revenu moyen dans les 20 pays les
    plus pauvres, et ce ratio a doublé depuis 1960.

47
Une étude empirique
  • Big time divergence
  • Utilisation dune régression
  • pour expliquer le taux de croissance par tête
    par le revenu initial et des indicateurs de
    démocratie des institutions politiques.

48
Une étude empirique
49
Une étude empirique
  • Les indicateurs de démocratie
  • Lindicateur de Freedom House (ONG) attribue
  • deux notes, lune relative aux droits politiques
    et lautre aux droits civils.
  • une lettre dépendant de la moyenne des deux notes
    précédentes.
  • Lindicateur Polity IV
  • Ce coefficient (qui va de 1, niveau de
    contrainte le plus faible, à 7) rend compte de la
    qualité initiale des institutions politiques,
    mesurée par les contraintes pesant sur le pouvoir
    exécutif.

50
Une étude empirique
  • Take-off (décollage)
  • Une suite continue de régimes à croissance nulle
    suivie dune suite continue de régimes à
    croissance positive.
  • La croissance sera considérée comme nulle dès que
    le taux de croissance se trouve dans lintervalle
    -0.5,0.5.
  • La croissance par tête est considérée comme
    positive et stable lorsquelle est au-dessus de
    1.5 su une période suffisamment longue.

51
Une étude empirique
  • Situation de décollage

Taux de croissance
1.5
0.5
t
-0.5
52
Take-offs dans les pays riches
53
Une étude empirique
  • Take-offs dans les pays riches
  • Parmi les pays riches, seul le Japon répond à la
    définition donnée du décollage.
  • Pour tous les autres pays on observe plutôt une
    accélération graduelle de la croissance plutôt
    quun décollage.
  • Cela nest pas compatible avec la notion dun
  • big push entraînant une transition soudaine
    dune stagnation vers une croissance vigoureuse.

54
Take-offs dans les régions en développement
55
Une étude empirique
  • Take-offs dans les régions en développement
  • Seule la région du sud est asiatique satisfait à
    la définition proposée du take-off.
  • LAmérique latine et les Caraïbes ont connu
    pendant la période 1870-1913 un pré-décollage
    mais il na pas été soutenu.

56
Une étude empirique
  • Take-offs dans les pays
  • Sur les 44 pays étudiés, seuls 5 dentre eux
    satisfont à la définition dEasterly dun
    take-off.

57
Une étude empirique
  • Sur lexistence des trappes à pauvreté
  • Easterly rejette lhypothèse de lexistence des
    trappes à pauvreté sur la base des deux arguments
    suivants
  • - il y a très peu de pays à taux de croissance
    sur lintervalle -0.5, 0.5 pour la période 1950
    2000
  • - le logarithme du revenu par tête nest pas
    stationnaire.
  • Cependant sur le premier point, on peut
    argumenter que cette conclusion est dépendante
    des périodes ou sous périodes considérées.

58
Une étude empirique
  • Conclusions de larticle
  • Aucun des pays testés dans létude nest dans une
    trappe à pauvreté (définie par une absence totale
    et durable de croissance).
  • L'influence de l'aide sur l'investissement et la
    croissance nest pas évidente. Il ne semble pas
    non plus que l'aide soit un facteur déterminant
    pour les rares pays à avoir décollé.
  • Pour Easterly, la qualité des institutions
    politiques est un facteur bien plus important
    pour le développement que lapport dune d'aide
    massive et soudaine.

59
Une étude empirique
  • Remarque importante
  • Ce working paper est controversé sur un certain
    nombre de points par dautres économistes. Donc
    prudence dans les conclusions quen tire
    lauteur.
  • Dans ce cours, cela a surtout servi à introduire
    une problématique de recherche et à mettre en
    évidence un certain nombre de méthodes et outils.

60
Une étude empirique
  • Méthodes et outils
  • Cet article montre la nécessité dutiliser,
    entre autres, des méthodes de régression et des
    tests pour valider des hypothèses dans les études
    empiriques.
  • La régression et les tests dhypothèses sont
    deux outils fondamentaux dans les études
    empiriques.
Write a Comment
User Comments (0)
About PowerShow.com