Title: La r
1La régression simpleMichel Tenenhaus
2La régression simple
Étude de la liaison linéaire entre deux variables
numériques - une variable explicative X -
une variable à expliquer Y
3Étude du lien entre deux variables X et Y
Variable X explicative
Variable Y à expliquer
4Cas Prix dun appartement
5Cas Prix dun appartement
6Identification des outliersau niveau du Prix au
mètre carré
9000
Ile saint-louis
8000
Panthéon (10)
7000
Jardins de l'observatoire
6000
5000
4000
3000
2000
28
N
Prix du mètre carré
7La droite des moindres carrés
8Les données
- Y
- Variable à expliquer
- numérique
- (ou dépendante)
- X
- Variable explicative
- numérique ou binaire
- (ou indépendante)
X
Y
1
x
y
1
1
M
M
M
i
x
y
i
i
M
M
M
n
x
y
n
n
Le tableau des données
9La droite des moindres carrés
On cherche minimisant
valeur observée
yi
erreur ei
valeur prédite
xi
10Résultats SPSS
11Résultats SPSS
Modèle Prix calculé -29.466 5.353
Surface
Pour le modèle avec constante on a aussi
12Coefficient de détermination R2,Coefficient de
corrélation R
13Résultats SPSS
14Le R2 mesure la force de la liaison linéaire
entre X et Y
1) 0 ? R2 ? 1
3) R2 0
2) R2 1
Y
Y
X
X
15Le R2 mesure la force de la liaison linéaire
entre X et Y
Modèle non linéaire Y aX2 bX
16La corrélation R mesure la force et le sens de
la liaison linéaire entre X et Y
Y
Y
X
X
17Calcul direct de R
Résultat SPSS
18La corrélation R est-elle significative au risque
? 0.05 ?
- Notations
- - ? Corrélation au niveau
- de la population
- - R Corrélation au niveau de
léchantillon - Test
- H0 ? 0
- H1 ? ? 0
-
- Règle de décision
- On rejette H0 au risque ? 0.05
- de se tromper si
-
- (Bonne approximation pour n gt 20)
19La corrélation R est-elle significative au risque
? ?
- Notations
- - ? Corrélation au niveau
- de la population
- - R Corrélation au niveau de
léchantillon - Test
- H0 ? 0
- H1 ? ? 0
-
- Règle de décision
- On rejette H0 au risque ? de se tromper si
-
- Niveau de signification
- Plus petit ? conduisant au rejet de H0.
20Exemple de corrélationnon significative
On a 30,9 chances sur 100 de se tromper en
affirmant quil existe une liaison linéaire
entre le prix au m2 et la surface. On considère
donc que la corrélation (.199) entre le prix au
m2 et la surface nest pas significative.
En rouge la droite des moindres carrés, en bleu
la droite y prix au m2 moyen
21Le modèle statistique de la régression simple
- Chaque valeur observée yi est considérée comme
une - réalisation dune variable aléatoire Yi définie
par - Yi axi b ?i
- où ?i est un terme aléatoire suivant une loi
normale - N(0, ?).
- On suppose que les les aléas ?i sont indépendants
les uns des autres.
22Le modèle de la régression simple
Modèle Y aX b ? , avec ? ? N(0, ?)
Y
y ax b
?x 1.96?
Loi de Y
?x axb
95 des valeurs de Y
?x - 1.96?
x
X
Lécart-type ? représente à peu près le quart de
lépaisseur du nuage
23Estimation de a, b et ?
- Estimation de a et b
- Estimation de ?
24Prévision de Y
- Modèle Y aX b ? , avec ? ? N(0, ?)
- ?x E(Y X x) ax b
- Problème 1 Calculer une estimation et un
intervalle de confiance au niveau de confiance 95
de la moyenne ?x de Y lorsque X est fixé à x. - Soit y une future valeur de Y pour X fixé à x.
- Problème 2 Calculer une prévision et un
intervalle contenant 95 des futures valeurs de
Y lorsque X est fixé à x.
25Résultat pour ?x
- Estimation de ?x E(Y Xx)
- Intervalle de confiance de ?x au niveau 95
Formule approchée
26Résultats SPSS
Surface moyenne 82.32
Variance de la surface 3266.3
27Résultat graphique pourles intervalles de
confiance
Prix vs Surface (28 obs.) Intervalle de
confiance à 95
28Intervalle de confiance de la moyenne?x ax b
pour une liaison non significative
La droite y appartient à la zone de
confiance des Y moyens. Donc la liaison entre Y
et X nest pas significative.
29Résultat pour y
- Prévision de y pour x fixé
- Intervalle de prévision de y à 95 pour x fixé
Formule approchée
30Résultat graphique pourles intervalles de
prévision
Intervalle de prévision individuelle à 95
31Observation atypique
- Une observation est atypique (outlier) si elle
nappartient pas à son propre intervalle de
prévision - En utilisant la formule approchée
- Conclusion Une observation i est un outlier si
son résidu standardisé est supérieur à 2
en valeur absolue.
32Résultats SPSS
33Élimination des observations atypiques
- Pour rendre la prévision plus opérationnelle, on
peut restreindre le champ dapplication du modèle
en éliminant des observations atypiques, mais en
le justifiant par des considérations
extra-statistiques. - Compléter le tableau suivant jusquà élimination
de toutes les données atypiques
Nombre
Corrélation
Écart-type
Observations
Intervalle de prévision à
R
2
dobservations
du résidu
atypiques
95 du prix dun 100 m
28
26
M