Rgression linaire STT2400 - PowerPoint PPT Presentation

About This Presentation
Title:

Rgression linaire STT2400

Description:

On dispose d'un jeux de donn es portant sur le prix des maisons dans ... (a) Est-ce que le prix de vente semble affect par le nombre de chambres dans la maison (tous les autres ... – PowerPoint PPT presentation

Number of Views:83
Avg rating:3.0/5.0
Slides: 25
Provided by: pierred3
Category:

less

Transcript and Presenter's Notes

Title: Rgression linaire STT2400


1
Régression linéaire (STT-2400)
  • Section 3
  • Tests dhypothèses et
  • lhypothèse linéaire générale
  • Version 26 janvier 2007

2
Tests dhypothèses
  • On dispose dun jeux de données portant sur le
    prix des maisons dans une certaine région.
    Exemples de variables
  • PRICE, prix en milliers de dollars US variable
    réponse.
  • FLR, surface du plancher en pieds carrés
    préviseur.
  • RMS, nombre de pièces préviseur.
  • BDR, nombre de chambres à coucher préviseur.
  • BTH, nombre de salles de bain préviseur.
  • GAR, présence ou non dun garage (0 aucun
    garage, 1 garage simple, 1.5 garage pour un
    véhicule mais plus grand que le simple, 2 garage
    pour deux véhicules) préviseur.
  • LOT, largeur de la façade du terrain en pieds
    préviseur.
  • FP, nombre de foyers préviseur.
  • ST, présence de contre-fenêtre (storm window)
    préviseur.

3
Ajustement dans lexemple du prix des maisons
  • Un ajustement donne la fonction moyenne suivante
  • Au niveau de linterprétation, il semble y avoir
    une association positive entre lajout dun
    garage et le prix de la maison de lordre de
    1770 US, les autres choses étant égales.
  • On note que laugmentation dune chambre, toutes
    les autres choses étant égales, semble associée à
    une diminution du prix! (mais le coefficient
    porte sur laugmentation dune chambre, sans
    faire augmenter par exemple la superficie ou le
    nombre total de pièces).
  • Quand un grand nombre de préviseurs sont reliés,
    il peut arriver que les signes soient contre
    intuitifs et plus difficiles à interpréter.

4
Dautres questions dintérêt pourraient être
  • (a) Est-ce que le prix de vente semble affecté
    par le nombre de chambres dans la maison (tous
    les autres préviseurs restant fixés)?
  • (b) Est-ce que lajout dun garage semble associé
    à laugmentation du prix de vente de 5000 US?
  • (c) Est-ce que le nombre de chambres et de pièces
    semble affecter le prix de la même manière?
  • (d) Est-ce que le nombre de salles de bains ou de
    garages semblent affecter le prix dune maison?
  • (e) Est-ce quau moins un des préviseurs semble
    utile afin dexpliquer le prix de la maison?

5
Formulation des questions de façon statistique
tests déjà vus!
  • (a) Est-ce que le prix de vente semble affecté
    par le nombre de chambres dans la maison (tous
    les autres préviseurs restant fixés)?
  • (b) Est-ce que lajout dun garage semble associé
    à laugmentation du prix de vente de 5000 US?

6
Formulation des questions de façon statistique
nouveaux tests!
  • (c) Est-ce que le nombre de chambres et de pièces
    semble affecter le prix de la même manière?
  • (d) Est-ce que le nombre de salles de bains ou de
    garages semblent affecter le prix dune maison?

7
Formulation des questions de façon statistique
(suite)
  • (e) Est-ce quau moins un des préviseurs semble
    utile afin dexpliquer le prix de la maison?
  • Ce test correspond bien entendu au test F global
    dans une table dANOVA.

8
Hypothèse linéaire générale
  • Un examen attentif de tous ces tests montre quen
    fait toutes ces questions impliquent des
    contraintes linéaires sur les paramètres
  • En fait toutes ces hypothèses peuvent sexprimer
    comme un cas particulier de lhypothèse linéaire
    générale.

9
Formulation de lhypothèse linéaire générale
  • Considérons le modèle de régression linéaire
    multiple
  • Lhypothèse linéaire générale est
  • La matrice C est de dimension et elle est de
    rang m. Les vecteurs b et g sont de dimension .

10
Exemple (a)
  • Pour (a), il suffit de poser
  • On a m 1. Lhypothèse linéaire générale est
  • Elle se réduit donc à

11
Exemple (b)
  • Pour (b), il suffit de poser
  • On a m 1. Lhypothèse linéaire générale est
  • Elle se réduit donc à

12
Exemple (c)
  • Pour (c), il suffit de poser
  • On a m 1. Lhypothèse linéaire générale est
  • Elle se réduit donc à

13
Exemple (d)
  • Pour (d), il suffit de poser
  • On a m 2. Lhypothèse linéaire générale est
  • Elle se réduit donc à

14
Exemple (e)
  • Pour (e), il suffit de considérer la matrice
  • On a donc m 8. Lhypothèse linéaire générale
    est
  • Elle se réduit donc à

15
Statistique de test pour lhypothèse linéaire
générale
  • Supposons que les erreurs sont iid normales
    . Confrontons les hypothèses
  • C est de dimension et de rang
    .
  • Posons

16
Statistique F pour lhypothèse linéaire générale
  • On pose encore
  • Hypothèses à confronter
  • Règle de décision rejeter H0 si

17
Quelques faits concernant le test F
  • Ce test est en fait le test du rapport de
    vraisemblance pour les hypothèses considérées.
  • Pour obtenir la distribution, on a utilisé la
    normalité et donc il repose sur lestimation des
    paramètres du modèle par la méthode de
    vraisemblance maximale.
  • Même si les erreurs ne sont pas normales, ce test
    est généralement robuste aux écarts à la
    normalité des erreurs.
  • Quest-ce que cela veut dire? Si des écarts
    relativement peu importants de lhypothèse de
    normalité surviennent, alors les estimateurs,
    tests dhypothèses et intervalles de confiance se
    trouvent souvent peu affectés.

18
Test-F dans la situation  modèle plein modèle
réduit 
  • Reconsidérons lexemple (d)
  • (d) Est-ce que le nombre de salles de bains ou de
    garages semblent affecter le prix dune maison?

19
Formalisation de lexemple (d)
  • Considérons , où les matrices composants X
    sont de dimensions
  • On considère la partition suivante du vecteur b

20
Confrontation du modèle plein et du modèle réduit
  • On désire confronter
  • Autrement formulé, on désire tester lhypothèse
    nulle

21
Test F pour tester  modèle plein modèle
réduit 
  • Il est possible de montrer que le test F du
    rapport de vraisemblance se réduit à calculer la
    statistique suivante
  • On compare avec la distribution F suivante

22
Mise en uvre pratique du test pour lhypothèse
 modèle plein-modèle réduit 
  • Ainsi afin de mettre en uvre ce test il suffit
    deffectuer deux régression.
  • On fait la régression incluant tous les
    préviseurs et on récupère la somme des carrés
    résiduelle RSSMP et son nombre de dl associé.
  • On fait la régression incluant les préviseurs
    formant le modèle réduit et on récupère la somme
    des carrés résiduelle RSSMR et ses dl.
  • On calcule la statistique F.

23
Hypothèse linéaire avec SAS dans la procédure
PROC REG
  • proc reg datamaison
  • model price flr rms bdr bth gar lot fp st
  • HypA test bdr 0
  • HypB test gar 5
  • HypC test bdr bth
  • HypD test bth 0, gar 0
  • HypE test flr, rms, bdr, bth, gar, lot, fp,
    st
  • run
  • proc reg datamaison
  • model price flr rms bdr lot fp st
  • run

24
Quelques commentaires sur les tests
  • Pour HypA on avait déjà ce test en regardant la
    statistique-t pour la variable BDR (-4.21)2
    17.70 avec valeur-p de 0.0006.
  • Pour HypE on retrouve le résultat du test
    global, avec une statistique F de 20.11.
  • Pour HypD La statistique-F est de 1.32. On peut
    obtenir cette statistique de lajustement des
    deux régressions, lune incluant tous les
    préviseurs (RSS378.21240, dl17), lautre
    excluant BTH et GAR (RSS436.92812). On vérifie
    que
  • (436.92812-378.21240)/(222.24779) 1.32
Write a Comment
User Comments (0)
About PowerShow.com