Title: STT-2400 R
1STT-2400Régression linéaire
- Pierre Duchesne
- courriel duchesne_at_dms.umontreal.ca
- téléphone 343-7267
- bureau 4251
- web www.dms.umontreal.ca/duchesne
- Version 28 décembre 2007
2Plan de cours
- 1. Nuages de points et régression.
- 2. Régression linéaire simple.
- 3. Régression linéaire multiple.
- 4. Tester la qualité de lajustement.
- 5. Transformations.
- 6. Choix des variables.
- 7. Diagnostiquer un modèle de régression étude
des résidus. - 8. Valeurs aberrantes et influence des
observations.
3Barème
- Le barème proposé est le suivant
- Examen intra 35.
- Examen final 45.
- Devoirs 20.
Ouvrages de référence
- Weisberg, S. (2005), Applied Linear Regression,
Wiley NY (Obligatoire). - Sen, A. et Srivastava, M. (1990), Regression
Analysis, Springer-Verlag NY (Recommandé).
4Régression linéaire (STT-2400)
- Section 1
- Nuages de points et la régression.
5Quest-ce que lanalyse de régression?
- Lobjectif premier de lanalyse de régression, ou
plus simplement de la régression, est létude des
relations de dépendance. - Est-ce que la distance parcourue, durant une
période donnée, dans une certaine catégorie de
véhicules routiers, est affectée par le prix de
lessence? - Est-ce que le niveau de cholestérol est affecté
si un individu suit une diète? Est-ce que
dautres variables entrent en ligne de compte,
comme lâge, le sexe, le conditionnement physique?
6Une méthode possible la régression linéaire
- La méthode privilégiée dans STT-2400 est la
régression linéaire. - Il existe dautres techniques
- Régression non-linéaire régression
non-paramétrique réseaux de neurones - Etc.
- La majorité des techniques existantes qui
rivalisent avec la régression linéaire reposent
fortement sur la compréhension de la régression
linéaire.
7Objectifs de la régression
- Comme technique statistique, on peut affirmer
quun objectif fondamental de la régression est
de synthétiser linformation disponible. - On recherche un modèle parcimonieux.
- La simplicité est également un objectif pour des
performances comparables, on recherche le modèle
le plus simple.
8Spécification dun modèle
- Parfois un modèle est déjà dicté par des
considérations théoriques - 1. Pour un objet de masse m, on sait que F ma,
cest-à-dire que pour une accélération donnée a,
on peut trouver exactement la force F. - 2. La théorie de la chimie prédit que, pour un
échantillon de gaz à température constante, la
relation suivante est satisfaite pvg c, où p
est la pression et v le volume. Une fois que c
et g sont fixés, pour une pression donnée, on
peut exactement trouver le volume.
9Spécification dun modèle (suite)
- Parfois, on ignore le modèle mais on doit tenter
de relier une variable réponse à des préviseurs. - Exemple est-ce que les pays dont le revenu per
capita est plus élevé ont tendance à afficher un
plus bas taux de natalité que ceux avec un revenu
per capita plus bas? - Variable réponse taux de natalité
- Préviseur revenu per capita.
10Première étape outils graphiques
- Lorsque nous avons à notre disposition une
variable réponse et un seul préviseur, loutil
graphique fondamental est le nuage de points. - Axe vertical variable réponse
- Axe horizontal préviseur.
- En présence de plusieurs préviseurs, la
généralisation de cette idée est le nuage de
points matriciel.
11Exemple héritage de la taille
- Durant la période 1893-1898, Karl Pearson a
étudié lhéritage des traits génétiques dune
génération à lautre. - Population mères au Royaume-Uni dun âge
inférieur à 65 ans et filles adultes âgées de
plus de 18 ans. - Taille de léchantillon n 1375.
- Question dintérêt hérédité de la mère à la
fille. - Préviseur taille de la mère (Mheight).
- Variable réponse taille de la fille (Dheight).
- Est-ce que des mamans grandes (petites) ont
tendance à avoir des filles grandes (petites)?
12En résumé, exemple des tailles
- 1. Si les filles et leur mère avaient exactement
la même taille, les points devraient être
répartis sur la droite y x. - 2. Une question dintérêt est sil semble exister
une relation entre la variable réponse et le
préviseur ici clairement oui! - 3. Le nuage de points est de forme plutôt
elliptique. - 4. Il est important de dégager la tendance
générale suivie par la majorité des points. - 5. Il est également important de faire un examen
des points plus isolés (points ayant un effet de
levier, valeurs aberrantes sujet traité dans la
dernière partie du cours).
13Exemple jeux de données de Forbes
- James D. Forbes était un physicien écossais de la
fin du 19ième siècle. - Il a étudié la relation entre la pression
atmosphérique et le point débullition de leau. - Laltitude peut être obtenu à partir de la
pression atmosphérique en utilisant un baromètre
(pression plus faible correspondant à une
altitude plus élevée). - Fragilité des baromètres du milieu du 19ième
siècle a incité Forbes a considérer la
possibilité dutiliser la température
débullition de leau comme un substitut pour une
lecture directe de la pression atmosphérique.
14Exemple (suite)
- Données récoltées dans les Alpes et en Écosse.
- Les données ont été recueillies en mesurant la
pression locale en pouces de mercure avec un
baromètre, et le point débullition de leau en
degrés Fahrenheit avec un thermomètre. - Au niveau de la mer, leau bout à 100 degrés
Celsius (degrés C (degrés F - 32)5/9) mais
cela décroît avec des altitudes plus élevées (ou
des pressions atmosphériques plus faibles). - Cela prend plus de temps faire cuire un œuf à la
coque en haute altitude! (la température nest
pas aussi forte!)
15En résumé, données de Forbes
- 1. La taille échantillonnale est beaucoup plus
faible que dans lexemple sur les tailles. - 2. Les points semblent fortement répartis autour
dune droite pour une température donnée, ceci
suggère peu de variation dans la pression
atmosphérique. - 3. Cependant, un examen visuel fait ressortir
une erreur systématique.
16Retrait de la tendance linéaire, ou première
analyse des résidus
- Pour une droite y mx b où le coefficient de
pente (m) et dordonnée à lorigine (b) sont
fournis, on peut retirer la tendance linéaire de
la pression atmosphérique en considérant - On fait le graphique du résidu versus la
température laxe vertical est sur une échelle
plus petite, augmentant ainsi la résolution. - Un effet de courbure est nettement présent.
17Transformation pour améliorer la linéarité
- Afin que les méthodes de régression linéaire
fonctionnent bien, il faut habituellement quun
lien linéaire soit présent. - Lorsque ce nest pas le cas, on peut envisager de
transformer la variable réponse, ou encore le
préviseur. - On peut refaire les analyses pour voir si les
transformations améliorent la qualité du lien
linéaire. - Dans le cas des données de Forbes, une théorie
issue de la physique suggérait de considérer
log(Pression) versus log(Température).
18Exemple, Smallmouth bass
- Cest un poisson populaire dans les sports de
pêche. - Lors de létude de la croissance des populations
de poissons, on pourrait vouloir comprendre la
dépendance de la longueur du poisson en fonction
de lâge du poisson. - Variable réponse longueur en mm.
- Préviseur âge à la capture (déterminé en
comptant des anneaux). - Taille de léchantillon n 439.
- Cest une étude transversale (i.e. que toutes les
observations ont été prises au même moment), par
opposition à une étude longitudinale.
19Utilisation dun smoother (procédure SAS PROC
LOESS)
- On remarque sur le graphique une ligne pleine et
une ligne pointillée qui nest pas tout à fait
une droite. - Essentiellement, lidée consiste à calculer des
moyennes à chaque valeur du préviseur (ici âge)
et de relier les points obtenus. - Si on ne dispose pas de valeurs répétées pour une
valeur du préviseur x (disons), on peut prendre
des valeurs dans un voisinage de x. - Cest un exemple de régression dite
nonparamétrique. - En SAS la procédure qui permet de calculer des
smoother est PROC LOESS.
20PROC LOESS pour lexemple sur les tailles
- Dans cette situation, le smoother a été obtenu en
calculant la meilleure droite dans des
voisinages de chacun des x. - Le smoother LOESS et la ligne droite sont en
accord pour le centre du préviseur Mheight (la
moyenne du préviseur), et sont moins en accord
aux extrémités (cest souvent le cas que les
smoothers sont moins fiables aux extrémités du
graphique). - Ce genre de graphique tend à révéler de
linformation sur ce que lon appellera la
fonction moyenne.
21Exemple, prévision de la température
- Les données portent sur la chute de neige à Fort
Collins, Colorado (USA). - La question dintérêt porte sur la prévision des
chutes de neige du 1er janvier au 30 juin sachant
les précipitations du 1er septembre au 31
décembre.
22En résumé, exemple des chutes de neige
- On note que la force de la relation (linéaire ou
autre) semble beaucoup plus faible. - Cest un exemple de situation ou lon pourrait
penser que la variable réponse et le préviseur ne
sont pas corrélés. - Éventuellement, nous voudrons tester lhypothèse
que les deux variables sont non-corrélées versus
la contre-hypothèse quil existe une corrélation. - Lidée sera de comparer les deux ajustements
dune façon à préciser plus tard durant le
semestre.
23Exemple, croissance des dindons
- Des dindons contenus dans des enclos clairement
identifiés sont élevés avec une diète identique,
à lexception que pour un enclos donné, de la
méthionine (cest un acide aminé) est ajoutée
(elle est comptabilisée comme un pourcentage de
la diète des dindons). - La méthionine a été fournies de trois façons
différentes. - Pour la dose 0, il y avait 10 enclos.
- Pour les autres doses, cinq enclos ont reçu une
certaine dose selon un certain procédé.
24En résumé, exemple des dindons
- De manière générale, le poids semble augmenter
avec la dose. - Si on ignore pour linstant les trois sources de
méthionine, on peut dire que de manière générale,
une relation linéaire est plus ou moins
satisfaisante.
25Fonctions moyennes
- Considérons que la variable réponse est Y, et que
le préviseur est X. - On veut savoir comment la distribution de Y est
affectée lorsque lon fait varier X. - On définit la fonction moyenne de la manière
suivante - Cest une fonction qui dépend de manière générale
de x.
26Un exemple de fonction moyenne la droite
- Dans lexemple sur les tailles, on pourrait
penser que la relation est linéaire entre la
variable réponse (Dheight) et le préviseur
(Mheight) et postuler - Il y a donc deux paramètres, lordonné à
lorigine et le paramètre de pente.
27Origine du terme régression
- On a déjà mentionné que si y x, cest-à-dire si
b0 0 et b1 1, alors les filles auraient la
même taille que leur mère. - La droite pointillée a été déterminé selon la
technique des moindres carrés, technique qui fera
lobjet de la prochaine section. - Cette droite est déterminée par les données.
- On note que la pente est inférieure à un.
28Origine du terme régression (suite)
- Ainsi, les mères qui sont grandes ont tendance à
avoir des filles qui sont plus grandes que la
moyenne, mais plus petites que leur mère (en
effet la pente est inférieure à un). - Les mères qui sont petites ont tendance à avoir
des filles qui sont petites (par rapport à la
moyenne), mais plus grandes que leur mère. - Le phénomène illustré ici suggère une régression
des valeurs extrêmes dune génération donnée vers
la moyenne la génération qui suit.
29Un autre exemple de fonction moyenne régression
non-linéaire
- Dans lexemple des dindons, nous aurions pu faire
appel à un modèle de croissance. - Exemple
- Interprétation des paramètres Dose 0 donne le
baseline b0 (croissance de base sans traitement).
Si x est grand, alors la fonction moyenne
approche b0 b1, qui peut-être perçu comme la
limite de croissance. On aura alors b2 comme un
terme qui détermine à quel rythme la croissance
maximale est atteinte.
30Fonctions variances
- Définition
- Cest la variance de la variable réponse lorsque
lon fixe le préviseur X à la valeur particulière
x. - Exemples
- Dheight étant donné Mheight variance plutôt
constante pour chaque valeur de Mheight. - Exemple des poissons plutôt plausible également.
- Exemple des dindons il faut faire attention,
puisque chaque chiffre est une moyenne pour un
groupe denclos et on ne peut apprécier la
variabilité entre les enclos.
31Hypothèse courante en régression linéaire
- Souvent lon supposera une hypothèse de variance
constante, que lon résumera comme suit
32En résumé, exemple classique de Anscombe
- Ce quil faut retenir avec cet exemple est que
lutilisation des graphiques est souvent
essentiel. - Il faut rappeler que les statistiques décrivant
lajustement sont toutes fins pratiques
identiques. - Premier cas situation idéale
- Second cas ligne droite nest peut-être pas la
fonction moyenne courbe lisse, peut-être
quadratique? - Troisième cas une valeur semble aberrante
(outlier) - Quatrième cas il y a peu dinformation sur la
fonction moyenne un seul point dicte lallure de
la régression il est rare que lon veut quune
seule observation possède une telle influence.
33Exemple, consommation dessence
- Lorsque lon dispose de plusieurs préviseurs, le
nuage de points matriciel peut savérer
particulièrement utile. - Le jeu de données porte sur la consommation
dessence, et plus particulièrement sur la
variation de la consommation dans les 50 états et
le District de Columbia. - Drivers nombre de permis de conduire dans
létat - FuelC Essence vendue pour usage routier
(milliers de gallons) - Income Revenu personnel par personne (année
2000, en milliers de dollars) - Miles Distance totale des autoroutes en miles
dans létat - Pop population 2001 des individus de plus de 16
ans - Tax Taxe sur lessence dans létat
- State nom de létat
- Essence 1000 x FuelC / Pop
- PermisCon 1000 x Drivers / Pop
- logMiles logarithme en base 2 du préviseur
Miles.
34En résumé, exemple sur la consommation dessence
- Chaque graphique est pertinent dans lélaboration
dune régression dune variable réponse en
fonction dun préviseur. - Il semble que la variable Essence a tendance à
diminuer en moyenne à mesure que la variable Taxe
augmente, mais il y a beaucoup de variation. - Globalement, la variable essence semble au mieux
peu reliée avec chacune des variables dans le
nuage de points matriciel.
35En résumé, exemple sur la consommation dessence
(suite)
- Linformation dans un nuage de point matriciel
est marginale, puisque lon regarde la variable
réponse en fonction de chaque préviseur pris un à
la fois. - Une étude simultanée entre la variable réponse et
lensemble des préviseurs pourrait mener à des
conclusions différentes. - Les relations existantes entre les préviseurs est
également importante. - Il est attendu que si ces derniers ne sont pas
reliés entre eux, que linformation contenue dans
un nuage de points matriciel soit assez complète.