STT-2400 R - PowerPoint PPT Presentation

About This Presentation
Title:

STT-2400 R

Description:

Population: m res au Royaume-Uni d'un ge inf rieur 65 ans et filles adultes g es de plus de 18 ans. Taille de l' chantillon: n = 1375. ... – PowerPoint PPT presentation

Number of Views:141
Avg rating:3.0/5.0
Slides: 36
Provided by: pierred3
Category:

less

Transcript and Presenter's Notes

Title: STT-2400 R


1
STT-2400Régression linéaire
  • Pierre Duchesne
  • courriel duchesne_at_dms.umontreal.ca
  • téléphone 343-7267
  • bureau 4251
  • web www.dms.umontreal.ca/duchesne
  • Version 28 décembre 2007

2
Plan de cours
  • 1. Nuages de points et régression.
  • 2. Régression linéaire simple.
  • 3. Régression linéaire multiple.
  • 4. Tester la qualité de lajustement.
  • 5. Transformations.
  • 6. Choix des variables.
  • 7. Diagnostiquer un modèle de régression étude
    des résidus.
  • 8. Valeurs aberrantes et influence des
    observations.

3
Barème
  • Le barème proposé est le suivant
  • Examen intra 35.
  • Examen final 45.
  • Devoirs 20.

Ouvrages de référence
  • Weisberg, S. (2005), Applied Linear Regression,
    Wiley NY (Obligatoire).
  • Sen, A. et Srivastava, M. (1990), Regression
    Analysis, Springer-Verlag NY (Recommandé).

4
Régression linéaire (STT-2400)
  • Section 1
  • Nuages de points et la régression.

5
Quest-ce que lanalyse de régression?
  • Lobjectif premier de lanalyse de régression, ou
    plus simplement de la régression, est létude des
    relations de dépendance.
  • Est-ce que la distance parcourue, durant une
    période donnée, dans une certaine catégorie de
    véhicules routiers, est affectée par le prix de
    lessence?
  • Est-ce que le niveau de cholestérol est affecté
    si un individu suit une diète? Est-ce que
    dautres variables entrent en ligne de compte,
    comme lâge, le sexe, le conditionnement physique?

6
Une méthode possible la régression linéaire
  • La méthode privilégiée dans STT-2400 est la
    régression linéaire.
  • Il existe dautres techniques
  • Régression non-linéaire régression
    non-paramétrique réseaux de neurones
  • Etc.
  • La majorité des techniques existantes qui
    rivalisent avec la régression linéaire reposent
    fortement sur la compréhension de la régression
    linéaire.

7
Objectifs de la régression
  • Comme technique statistique, on peut affirmer
    quun objectif fondamental de la régression est
    de synthétiser linformation disponible.
  • On recherche un modèle parcimonieux.
  • La simplicité est également un objectif pour des
    performances comparables, on recherche le modèle
    le plus simple.

8
Spécification dun modèle
  • Parfois un modèle est déjà dicté par des
    considérations théoriques
  • 1. Pour un objet de masse m, on sait que F ma,
    cest-à-dire que pour une accélération donnée a,
    on peut trouver exactement la force F.
  • 2. La théorie de la chimie prédit que, pour un
    échantillon de gaz à température constante, la
    relation suivante est satisfaite pvg c, où p
    est la pression et v le volume. Une fois que c
    et g sont fixés, pour une pression donnée, on
    peut exactement trouver le volume.

9
Spécification dun modèle (suite)
  • Parfois, on ignore le modèle mais on doit tenter
    de relier une variable réponse à des préviseurs.
  • Exemple est-ce que les pays dont le revenu per
    capita est plus élevé ont tendance à afficher un
    plus bas taux de natalité que ceux avec un revenu
    per capita plus bas?
  • Variable réponse taux de natalité
  • Préviseur revenu per capita.

10
Première étape outils graphiques
  • Lorsque nous avons à notre disposition une
    variable réponse et un seul préviseur, loutil
    graphique fondamental est le nuage de points.
  • Axe vertical variable réponse
  • Axe horizontal préviseur.
  • En présence de plusieurs préviseurs, la
    généralisation de cette idée est le nuage de
    points matriciel.

11
Exemple héritage de la taille
  • Durant la période 1893-1898, Karl Pearson a
    étudié lhéritage des traits génétiques dune
    génération à lautre.
  • Population mères au Royaume-Uni dun âge
    inférieur à 65 ans et filles adultes âgées de
    plus de 18 ans.
  • Taille de léchantillon n 1375.
  • Question dintérêt hérédité de la mère à la
    fille.
  • Préviseur taille de la mère (Mheight).
  • Variable réponse taille de la fille (Dheight).
  • Est-ce que des mamans grandes (petites) ont
    tendance à avoir des filles grandes (petites)?

12
En résumé, exemple des tailles
  • 1. Si les filles et leur mère avaient exactement
    la même taille, les points devraient être
    répartis sur la droite y x.
  • 2. Une question dintérêt est sil semble exister
    une relation entre la variable réponse et le
    préviseur ici clairement oui!
  • 3. Le nuage de points est de forme plutôt
    elliptique.
  • 4. Il est important de dégager la tendance
    générale suivie par la majorité des points.
  • 5. Il est également important de faire un examen
    des points plus isolés (points ayant un effet de
    levier, valeurs aberrantes sujet traité dans la
    dernière partie du cours).

13
Exemple jeux de données de Forbes
  • James D. Forbes était un physicien écossais de la
    fin du 19ième siècle.
  • Il a étudié la relation entre la pression
    atmosphérique et le point débullition de leau.
  • Laltitude peut être obtenu à partir de la
    pression atmosphérique en utilisant un baromètre
    (pression plus faible correspondant à une
    altitude plus élevée).
  • Fragilité des baromètres du milieu du 19ième
    siècle a incité Forbes a considérer la
    possibilité dutiliser la température
    débullition de leau comme un substitut pour une
    lecture directe de la pression atmosphérique.

14
Exemple (suite)
  • Données récoltées dans les Alpes et en Écosse.
  • Les données ont été recueillies en mesurant la
    pression locale en pouces de mercure avec un
    baromètre, et le point débullition de leau en
    degrés Fahrenheit avec un thermomètre.
  • Au niveau de la mer, leau bout à 100 degrés
    Celsius (degrés C (degrés F - 32)5/9) mais
    cela décroît avec des altitudes plus élevées (ou
    des pressions atmosphériques plus faibles).
  • Cela prend plus de temps faire cuire un œuf à la
    coque en haute altitude! (la température nest
    pas aussi forte!)

15
En résumé, données de Forbes
  • 1. La taille échantillonnale est beaucoup plus
    faible que dans lexemple sur les tailles.
  • 2. Les points semblent fortement répartis autour
    dune droite pour une température donnée, ceci
    suggère peu de variation dans la pression
    atmosphérique.
  • 3. Cependant, un examen visuel fait ressortir
    une erreur systématique.

16
Retrait de la tendance linéaire, ou première
analyse des résidus
  • Pour une droite y mx b où le coefficient de
    pente (m) et dordonnée à lorigine (b) sont
    fournis, on peut retirer la tendance linéaire de
    la pression atmosphérique en considérant
  • On fait le graphique du résidu versus la
    température laxe vertical est sur une échelle
    plus petite, augmentant ainsi la résolution.
  • Un effet de courbure est nettement présent.

17
Transformation pour améliorer la linéarité
  • Afin que les méthodes de régression linéaire
    fonctionnent bien, il faut habituellement quun
    lien linéaire soit présent.
  • Lorsque ce nest pas le cas, on peut envisager de
    transformer la variable réponse, ou encore le
    préviseur.
  • On peut refaire les analyses pour voir si les
    transformations améliorent la qualité du lien
    linéaire.
  • Dans le cas des données de Forbes, une théorie
    issue de la physique suggérait de considérer
    log(Pression) versus log(Température).

18
Exemple, Smallmouth bass
  • Cest un poisson populaire dans les sports de
    pêche.
  • Lors de létude de la croissance des populations
    de poissons, on pourrait vouloir comprendre la
    dépendance de la longueur du poisson en fonction
    de lâge du poisson.
  • Variable réponse longueur en mm.
  • Préviseur âge à la capture (déterminé en
    comptant des anneaux).
  • Taille de léchantillon n 439.
  • Cest une étude transversale (i.e. que toutes les
    observations ont été prises au même moment), par
    opposition à une étude longitudinale.

19
Utilisation dun smoother (procédure SAS PROC
LOESS)
  • On remarque sur le graphique une ligne pleine et
    une ligne pointillée qui nest pas tout à fait
    une droite.
  • Essentiellement, lidée consiste à calculer des
    moyennes à chaque valeur du préviseur (ici âge)
    et de relier les points obtenus.
  • Si on ne dispose pas de valeurs répétées pour une
    valeur du préviseur x (disons), on peut prendre
    des valeurs dans un voisinage de x.
  • Cest un exemple de régression dite
    nonparamétrique.
  • En SAS la procédure qui permet de calculer des
    smoother est PROC LOESS.

20
PROC LOESS pour lexemple sur les tailles
  • Dans cette situation, le smoother a été obtenu en
    calculant la  meilleure droite  dans des
    voisinages de chacun des x.
  • Le smoother LOESS et la ligne droite sont en
    accord pour le centre du préviseur Mheight (la
    moyenne du préviseur), et sont moins en accord
    aux extrémités (cest souvent le cas que les
    smoothers sont moins fiables aux extrémités du
    graphique).
  • Ce genre de graphique tend à révéler de
    linformation sur ce que lon appellera la
    fonction moyenne.

21
Exemple, prévision de la température
  • Les données portent sur la chute de neige à Fort
    Collins, Colorado (USA).
  • La question dintérêt porte sur la prévision des
    chutes de neige du 1er janvier au 30 juin sachant
    les précipitations du 1er septembre au 31
    décembre.

22
En résumé, exemple des chutes de neige
  • On note que la force de la relation (linéaire ou
    autre) semble beaucoup plus faible.
  • Cest un exemple de situation ou lon pourrait
    penser que la variable réponse et le préviseur ne
    sont pas corrélés.
  • Éventuellement, nous voudrons tester lhypothèse
    que les deux variables sont non-corrélées versus
    la contre-hypothèse quil existe une corrélation.
  • Lidée sera de comparer les deux ajustements
    dune façon à préciser plus tard durant le
    semestre.

23
Exemple, croissance des dindons
  • Des dindons contenus dans des enclos clairement
    identifiés sont élevés avec une diète identique,
    à lexception que pour un enclos donné, de la
    méthionine (cest un acide aminé) est ajoutée
    (elle est comptabilisée comme un pourcentage de
    la diète des dindons).
  • La méthionine a été fournies de trois façons
    différentes.
  • Pour la dose 0, il y avait 10 enclos.
  • Pour les autres doses, cinq enclos ont reçu une
    certaine dose selon un certain procédé.

24
En résumé, exemple des dindons
  • De manière générale, le poids semble augmenter
    avec la dose.
  • Si on ignore pour linstant les trois sources de
    méthionine, on peut dire que de manière générale,
    une relation linéaire est plus ou moins
    satisfaisante.

25
Fonctions moyennes
  • Considérons que la variable réponse est Y, et que
    le préviseur est X.
  • On veut savoir comment la distribution de Y est
    affectée lorsque lon fait varier X.
  • On définit la fonction moyenne de la manière
    suivante
  • Cest une fonction qui dépend de manière générale
    de x.

26
Un exemple de fonction moyenne la droite
  • Dans lexemple sur les tailles, on pourrait
    penser que la relation est linéaire entre la
    variable réponse (Dheight) et le préviseur
    (Mheight) et postuler
  • Il y a donc deux paramètres, lordonné à
    lorigine et le paramètre de pente.

27
Origine du terme régression
  • On a déjà mentionné que si y x, cest-à-dire si
    b0 0 et b1 1, alors les filles auraient la
    même taille que leur mère.
  • La droite pointillée a été déterminé selon la
    technique des moindres carrés, technique qui fera
    lobjet de la prochaine section.
  • Cette droite est déterminée par les données.
  • On note que la pente est inférieure à un.

28
Origine du terme régression (suite)
  • Ainsi, les mères qui sont grandes ont tendance à
    avoir des filles qui sont plus grandes que la
    moyenne, mais plus petites que leur mère (en
    effet la pente est inférieure à un).
  • Les mères qui sont petites ont tendance à avoir
    des filles qui sont petites (par rapport à la
    moyenne), mais plus grandes que leur mère.
  • Le phénomène illustré ici suggère une régression
    des valeurs extrêmes dune génération donnée vers
    la moyenne la génération qui suit.

29
Un autre exemple de fonction moyenne régression
non-linéaire
  • Dans lexemple des dindons, nous aurions pu faire
    appel à un modèle de croissance.
  • Exemple
  • Interprétation des paramètres Dose 0 donne le
    baseline b0 (croissance de base sans traitement).
    Si x est grand, alors la fonction moyenne
    approche b0 b1, qui peut-être perçu comme la
    limite de croissance. On aura alors b2 comme un
    terme qui détermine à quel rythme la croissance
    maximale est atteinte.

30
Fonctions variances
  • Définition
  • Cest la variance de la variable réponse lorsque
    lon fixe le préviseur X à la valeur particulière
    x.
  • Exemples
  • Dheight étant donné Mheight variance plutôt
    constante pour chaque valeur de Mheight.
  • Exemple des poissons plutôt plausible également.
  • Exemple des dindons il faut faire attention,
    puisque chaque chiffre est une moyenne pour un
    groupe denclos et on ne peut apprécier la
    variabilité entre les enclos.

31
Hypothèse courante en régression linéaire
  • Souvent lon supposera une hypothèse de variance
    constante, que lon résumera comme suit

32
En résumé, exemple classique de Anscombe
  • Ce quil faut retenir avec cet exemple est que
    lutilisation des graphiques est souvent
    essentiel.
  • Il faut rappeler que les statistiques décrivant
    lajustement sont toutes fins pratiques
    identiques.
  • Premier cas situation idéale
  • Second cas ligne droite nest peut-être pas la
    fonction moyenne courbe lisse, peut-être
    quadratique?
  • Troisième cas une valeur semble aberrante
    (outlier)
  • Quatrième cas il y a peu dinformation sur la
    fonction moyenne un seul point dicte lallure de
    la régression il est rare que lon veut quune
    seule observation possède une telle influence.

33
Exemple, consommation dessence
  • Lorsque lon dispose de plusieurs préviseurs, le
    nuage de points matriciel peut savérer
    particulièrement utile.
  • Le jeu de données porte sur la consommation
    dessence, et plus particulièrement sur la
    variation de la consommation dans les 50 états et
    le District de Columbia.
  • Drivers nombre de permis de conduire dans
    létat
  • FuelC Essence vendue pour usage routier
    (milliers de gallons)
  • Income Revenu personnel par personne (année
    2000, en milliers de dollars)
  • Miles Distance totale des autoroutes en miles
    dans létat
  • Pop population 2001 des individus de plus de 16
    ans
  • Tax Taxe sur lessence dans létat
  • State nom de létat
  • Essence 1000 x FuelC / Pop
  • PermisCon 1000 x Drivers / Pop
  • logMiles logarithme en base 2 du préviseur
    Miles.

34
En résumé, exemple sur la consommation dessence
  • Chaque graphique est pertinent dans lélaboration
    dune régression dune variable réponse en
    fonction dun préviseur.
  • Il semble que la variable Essence a tendance à
    diminuer en moyenne à mesure que la variable Taxe
    augmente, mais il y a beaucoup de variation.
  • Globalement, la variable essence semble au mieux
    peu reliée avec chacune des variables dans le
    nuage de points matriciel.

35
En résumé, exemple sur la consommation dessence
(suite)
  • Linformation dans un nuage de point matriciel
    est marginale, puisque lon regarde la variable
    réponse en fonction de chaque préviseur pris un à
    la fois.
  • Une étude simultanée entre la variable réponse et
    lensemble des préviseurs pourrait mener à des
    conclusions différentes.
  • Les relations existantes entre les préviseurs est
    également importante.
  • Il est attendu que si ces derniers ne sont pas
    reliés entre eux, que linformation contenue dans
    un nuage de points matriciel soit assez complète.
Write a Comment
User Comments (0)
About PowerShow.com