Title: Rgression linaire STT2400
1Régression linéaire (STT-2400)
- Section 3
- Tests dhypothèses et
- lhypothèse linéaire générale
- Version 26 janvier 2007
2Tests dhypothèses
- On dispose dun jeux de données portant sur le
prix des maisons dans une certaine région.
Exemples de variables - PRICE, prix en milliers de dollars US variable
réponse. - FLR, surface du plancher en pieds carrés
préviseur. - RMS, nombre de pièces préviseur.
- BDR, nombre de chambres à coucher préviseur.
- BTH, nombre de salles de bain préviseur.
- GAR, présence ou non dun garage (0 aucun
garage, 1 garage simple, 1.5 garage pour un
véhicule mais plus grand que le simple, 2 garage
pour deux véhicules) préviseur. - LOT, largeur de la façade du terrain en pieds
préviseur. - FP, nombre de foyers préviseur.
- ST, présence de contre-fenêtre (storm window)
préviseur.
3Ajustement dans lexemple du prix des maisons
- Un ajustement donne la fonction moyenne suivante
- Au niveau de linterprétation, il semble y avoir
une association positive entre lajout dun
garage et le prix de la maison de lordre de
1770 US, les autres choses étant égales. - On note que laugmentation dune chambre, toutes
les autres choses étant égales, semble associée Ã
une diminution du prix! (mais le coefficient
porte sur laugmentation dune chambre, sans
faire augmenter par exemple la superficie ou le
nombre total de pièces). - Quand un grand nombre de préviseurs sont reliés,
il peut arriver que les signes soient contre
intuitifs et plus difficiles à interpréter.
4Dautres questions dintérêt pourraient être
- (a) Est-ce que le prix de vente semble affecté
par le nombre de chambres dans la maison (tous
les autres préviseurs restant fixés)? - (b) Est-ce que lajout dun garage semble associé
à laugmentation du prix de vente de 5000 US? - (c) Est-ce que le nombre de chambres et de pièces
semble affecter le prix de la même manière? - (d) Est-ce que le nombre de salles de bains ou de
garages semblent affecter le prix dune maison? - (e) Est-ce quau moins un des préviseurs semble
utile afin dexpliquer le prix de la maison?
5Formulation des questions de façon statistique
tests déjà vus!
- (a) Est-ce que le prix de vente semble affecté
par le nombre de chambres dans la maison (tous
les autres préviseurs restant fixés)? - (b) Est-ce que lajout dun garage semble associé
à laugmentation du prix de vente de 5000 US?
6Formulation des questions de façon statistique
nouveaux tests!
- (c) Est-ce que le nombre de chambres et de pièces
semble affecter le prix de la même manière? - (d) Est-ce que le nombre de salles de bains ou de
garages semblent affecter le prix dune maison?
7Formulation des questions de façon statistique
(suite)
- (e) Est-ce quau moins un des préviseurs semble
utile afin dexpliquer le prix de la maison? - Ce test correspond bien entendu au test F global
dans une table dANOVA.
8Hypothèse linéaire générale
- Un examen attentif de tous ces tests montre quen
fait toutes ces questions impliquent des
contraintes linéaires sur les paramètres - En fait toutes ces hypothèses peuvent sexprimer
comme un cas particulier de lhypothèse linéaire
générale.
9Formulation de lhypothèse linéaire générale
- Considérons le modèle de régression linéaire
multiple - Lhypothèse linéaire générale est
- La matrice C est de dimension et elle est de
rang m. Les vecteurs b et g sont de dimension .
10Exemple (a)
- Pour (a), il suffit de poser
- On a m 1. Lhypothèse linéaire générale est
- Elle se réduit donc Ã
11Exemple (b)
- Pour (b), il suffit de poser
- On a m 1. Lhypothèse linéaire générale est
- Elle se réduit donc Ã
12Exemple (c)
- Pour (c), il suffit de poser
- On a m 1. Lhypothèse linéaire générale est
- Elle se réduit donc Ã
13Exemple (d)
- Pour (d), il suffit de poser
- On a m 2. Lhypothèse linéaire générale est
- Elle se réduit donc Ã
14Exemple (e)
- Pour (e), il suffit de considérer la matrice
- On a donc m 8. Lhypothèse linéaire générale
est - Elle se réduit donc Ã
15Statistique de test pour lhypothèse linéaire
générale
- Supposons que les erreurs sont iid normales
. Confrontons les hypothèses - C est de dimension et de rang
. - Posons
16Statistique F pour lhypothèse linéaire générale
- On pose encore
- Hypothèses à confronter
- Règle de décision rejeter H0 si
17Quelques faits concernant le test F
- Ce test est en fait le test du rapport de
vraisemblance pour les hypothèses considérées. - Pour obtenir la distribution, on a utilisé la
normalité et donc il repose sur lestimation des
paramètres du modèle par la méthode de
vraisemblance maximale. - Même si les erreurs ne sont pas normales, ce test
est généralement robuste aux écarts à la
normalité des erreurs. - Quest-ce que cela veut dire? Si des écarts
relativement peu importants de lhypothèse de
normalité surviennent, alors les estimateurs,
tests dhypothèses et intervalles de confiance se
trouvent souvent peu affectés.
18Test-F dans la situation  modèle plein modèle
réduitÂ
- Reconsidérons lexemple (d)
- (d) Est-ce que le nombre de salles de bains ou de
garages semblent affecter le prix dune maison?
19Formalisation de lexemple (d)
- Considérons , où les matrices composants X
sont de dimensions - On considère la partition suivante du vecteur b
20Confrontation du modèle plein et du modèle réduit
- On désire confronter
- Autrement formulé, on désire tester lhypothèse
nulle
21Test F pour tester  modèle plein modèle
réduitÂ
- Il est possible de montrer que le test F du
rapport de vraisemblance se réduit à calculer la
statistique suivante - On compare avec la distribution F suivante
22Mise en uvre pratique du test pour lhypothèse
 modèle plein-modèle réduitÂ
- Ainsi afin de mettre en uvre ce test il suffit
deffectuer deux régression. - On fait la régression incluant tous les
préviseurs et on récupère la somme des carrés
résiduelle RSSMP et son nombre de dl associé. - On fait la régression incluant les préviseurs
formant le modèle réduit et on récupère la somme
des carrés résiduelle RSSMR et ses dl. - On calcule la statistique F.
23Hypothèse linéaire avec SAS dans la procédure
PROC REG
- proc reg datamaison
- model price flr rms bdr bth gar lot fp st
- HypA test bdr 0
- HypB test gar 5
- HypC test bdr bth
- HypD test bth 0, gar 0
- HypE test flr, rms, bdr, bth, gar, lot, fp,
st - run
- proc reg datamaison
- model price flr rms bdr lot fp st
- run
24Quelques commentaires sur les tests
- Pour HypA on avait déjà ce test en regardant la
statistique-t pour la variable BDR (-4.21)2
17.70 avec valeur-p de 0.0006. - Pour HypE on retrouve le résultat du test
global, avec une statistique F de 20.11. - Pour HypD La statistique-F est de 1.32. On peut
obtenir cette statistique de lajustement des
deux régressions, lune incluant tous les
préviseurs (RSS378.21240, dl17), lautre
excluant BTH et GAR (RSS436.92812). On vérifie
que - (436.92812-378.21240)/(222.24779) 1.32