Rgression multiple - PowerPoint PPT Presentation

1 / 13
About This Presentation
Title:

Rgression multiple

Description:

Utilis e chaque fois qu'une variable observ e, dite variable d pendante, doit ... Le cas le plus simple est celui o les variables explicatives sont des variables ... – PowerPoint PPT presentation

Number of Views:75
Avg rating:3.0/5.0
Slides: 14
Provided by: fkoh2
Category:

less

Transcript and Presenter's Notes

Title: Rgression multiple


1
Régression multiple
  • C1 Bio-statistiques
  • F. KOHLER

2
Régression multiple
  • Conditions dapplication
  • Utilisée chaque fois quune variable observée,
    dite variable dépendante, doit être exprimée en
    fonction de 2 ou plusieurs autres variables
    observées, dites indépendantes ou mieux
    explicatives.
  • Le cas le plus simple est celui où les variables
    explicatives sont des variables non aléatoires,
    leurs valeurs étant toutes choisies a priori de
    façon arbitraire (dose dun médicament).
  • On suppose que la relation est linéaire et que
    les différentes valeurs de la variable dépendante
    sont extraites de distributions normales,
    indépendantes de même variance
  • Modèle théorique
  • Yx B0 B1 x1a B2X2a . Bpxpa da B0 Bx
    dx
  • Les conditions peuvent être exprimées en
    affirmant que les résidus aléatoires da relatif
    aux différents individus a doivent tous posséder
    une même distribution normale de moyenne nulle et
    de variance constante et quils doivent être
    indépendants les uns des autres.
  • Dautre part les p variables explicatives peuvent
    être des variables aléatoires dont les valeurs
    sont observées dans des conditions analogues à
    celle de la variable dépendante.
  • On suppose alors généralement que les p1
    variables possèdent une distribution normale à
    p1 dimensions ou que la relation est linéaire et
    que toutes les distributions conditionnelles de
    la variable dépendante sont normales à une
    dimension, indépendantes et de même variance
  • On suppose que les échantillons sont aléatoires
    simples.

3
Cas particulier de 2 variables explicatives
  • SPE, SCE

SPE sum of products deviate somme des
produits des écarts aux moyennes
SCE somme des carrés des écarts à la moyenne
4
Cas particulier de 2 variables explicatives
  • Équation recherchée

Y b0 b1x1 b2x2
  • Estimation et intervalle de confiance des
    paramètres
  • Coefficient de régression partielle b1 et b2
  • Les indices 1 et 2 correspondent aux variables
    explicatives x1 et x2 et y à la variable
    expliquée.


  • Ordonnée à lorigine

  • Les résidus sont les différences entre la
    réalité et la représentation
  • Variance résiduelle

DDL n-3 n-p-1
5
Tests de conformité et de signification des
coefficients de régression partielle
  • Test de conformité
  • H0 b1 b1théo

Test de signification b1théo 0 DDL n-3
  • Analyse de la variance
  • Strictement équivalent au test t
  • Permet de tester globalement la signification des
    2 coefficients de régression partielle
  • H0 b1 b2 0

6
Tableau de lanalyse de la variance
Principe Décomposition de la somme des carrés
des écarts totale SCEy, en une somme des carrés
des écarts résiduelles SCEy.1p ou SCEy.x et une
somme des écarts factorielle SCEy(1..p) ou
SCEyx- SCEy.x qui possède p degrés de liberté
Coefficient de corrélation multiple
Somme des carrés des écarts résiduelle
Somme des carrés des écarts y
R2 Coefficient de détermination multiple
part de variance expliquée
DDL p n-p-1
7
Coefficient de corrélation partielle
  • Cas de 3 variables x, y, z
  • Le coefficient de corrélation partielle entre y
    et z est le coefficient de corrélation entre les
    résidus y-y(x) et z-z(x) des régressions
    linéaires à deux dimensions
  • On définit de la même façon les coefficients de
    corrélation partielle x et y et x et z.
  • Ils mesurent lintensité de la relation qui
    existe entre deux variables indépendamment de
    linfluence de la troisième.
  • Ces notions sétendent à p variables

8
Exemple
Exprimer le rendement en fonction des
précipitations de décembre et de la température
de juillet.
9
Solution
-572,139
0,02655
0,9800
11,924
10
Solution suite
Variance résiduelle

1,596
Équation
Y 11,92 0,0266 x1 0,980 x2
  • Remarques
  • Attention il ne faut pas de corrélation entre x1
    et x2
  • On peut déduire les limites de confiance de b1 et
    b2

11
Cas général p variables explicatives
  • Deux problèmes
  • Choix du modèle
  • linéaire
  • Autres (polynomiale, curvilinéaire)
  • Estimation des paramètres
  • Calculs complexes
  • Choix des variables explicatives
  • Choisir des variables explicatives fortement
    corrélées à la variable dépendante et faiblement
    corrélées entre elles.
  • Méthode de régression pas à pas
  • Introduction successives de variables de telle
    sorte quavant toute introduction dune variable
    supplémentaire, la signification des variables
    explicatives déjà présentes dans léquation soit
    testée. Les variables qui napportent pas de
    contribution significatives sont éliminées.

12
Régression multiple et analyse discriminante
  • Y variable qualitative à deux modalités codée 1
    et 0
  • Le vecteur y est composé uniquement de 1 et de 0
  • Les variables explicatives peuvent prendre toutes
    les valeurs
  • Dans ce cas particulier, la régression multiple
    pas à pas est identique à lanalyse discriminante.

13
SAS et Régression multiple
  • GLM procedure general linear models
  • Simple regression
  • Multiple regression
  • Anova
  • Analysis of covariance
  • Response surface models
  • Weighted regression
  • Polynomial regression
  • Partial correlation
  • Manova
  • Repeated measures analysis of variance
Write a Comment
User Comments (0)
About PowerShow.com