PPT – Mod PowerPoint presentation | free to download

About This Presentation

Title:

Mod

Description:

Title: colin arit dans le mod le lin aire. r gression born e Last modified by: Thierry FOUCART Document presentation format: Affichage l' cran – PowerPoint PPT presentation

Number of Views:184

Avg rating:3.0/5.0

Slides: 73

Provided by: free2334

Category:

more less

Transcript and Presenter's Notes

Title: Mod

1
Modèle linéaire.Analyse numérique dune matrice
de corrélation.Transitivité et Colinéarité.

Thierry Foucart
UMR 6086, Mathématiques, SP2MI, Bd Marie et
Pierre Curie, BP 30179 86962 FUTUROSCOPE
CHASSENEUIL CEDEX.

2
1. introduction au modèle linéaire.
3
1.1 un exemple

étude des liaisons entre le revenu, lâge, la
CSP, le niveau de diplôme, lorientation
politique, le sexe au sein dune population
délecteurs.
Grand nombre de tableaux croisés impuissance
des tests classiques du c2 et de Fisher
modélisation expression mathématique des
liaisons.

4
1.2 modèle linéaire.
Y b0 b1 X1 b2 X2 b3 X3 b4 X4 ?

Y revenu
X1 âge
X2 CSP
X3 diplôme
X4 orientation politique
variable dajustement

hypothèses rigides (linéarité, indépendance des
observations, normalité et homoscédasticité de la
variable dajustement e).
5
1.3 interprétation du modèle

toutes choses égales par ailleurs.
recherche dun effet propre de Xj sur Y bj ? 0.
lâge X1 augmente dun an le revenu moyen Y
augmente toujours de b1, quelle que soient la
CSP, le diplôme, lorientation politique.
démarche implicite on suppose a priori
lexistence dun effet propre et on le contrôle.

6
1.4 analyse en quatre points

Analyse numérique de la matrice des corrélations
transitivité, corrélation partielle.
Colinéarité instabilité des estimations
Evaluation de la régression bornée.
Régression orthogonale. Sélection des composantes
principales.

7
2. Analyse numérique dune matrice de corrélation
8
2.1 Modèle linéaire.

Y b0 b1 X1 bj Xj ... bp Xp ?

E(Xj) 0, V(Xj) 1

bj coefficients de régression théoriques
e variable résiduelle E(e) 0, V(e) s2

X matrice des observations des Xj (en
colonnes) Y matrice des observations de Y (en
colonne) R matrice symétrique p x p des
corrélations entre les variables Xj
9
2.2 Estimateur MCO

B estimateur sans biais de variance minimale
(efficace) défini par
(B1, B2, ..., Bp)t.
Bj estimateur du coefficient bj
Les propriétés des estimateurs dépendent de R-1

10
2.3. Factorisation de Cholesky.

Le calcul de R-1 consiste à factoriser R puis
àinverser T.
Factorisation de Cholesky
T matrice triangulaire supérieure
La matrice R étant symétrique définie positive
est inversible la matrice T existe et est
inversible.

R T T t
L
11
2.4 Calcul de la matrice T

i 1,..., p ti,1 r1,i / r1,1 ½ (1)
i-1
"i 2, ..., p ti,i ri,i - ? ti,k2
1/2 (2)
k1
i-1
ri,j - ? ti,k tj,k
k 1
"i2,...,p-1 "ji1,...p tj,i
___________________ (3)
ti,i

12
2.5 Encadrement dun terme

-1 ? ap,p1lt rp,p1 lt bp,p-1? 1

ap,p1 tp1,p1 1 ? tp,k21/2 ? tp1,k
tp,k bp,p1 tp1,p1 1 ??tp,k21/2 ?
tp1,k tp,k
p-2
p-2
k 1
k 1
p-2
p-2
k 1
k 1
généralisation par permutation
ai,j lt ri,j lt bi,j
13
2.6 terme diagonal

cp,p ? tp,k2 rp,p gt cp,p
rj,j gt cj,j
cj,j Rj2

p-1
k 1
Rj2 coefficient de détermination obtenu dans la
régression de Xj par les autres variables
explicatives
14
2.6 Exemple numérique

X1 X2 X3 X4
X1 1
X2 0.5 1
X3 0.5 0.5 1
X4 -0.5 0.4 0.3 1

r1,2 ? -0.3697771 , 0.5126343
r4,4 ? .98 , ? R42 0.98
15
3. Relations entre les corrélations
16
3.1 Transitivité de la corrélation.

X Y Z
X 1
R Y 0.8 1
Z r3,1 r3,2 1

Forte corrélation entre X et Y r1,2 0.8

Une forte corrélation entre Y et Z (r3,2 0.8)
implique-t-elle une forte corrélation entre X et
Z (r3,1 élevé) ?

17
3.2 Evaluation de la transitivité

X Y Z
X 1
R Y 0.8 1
Z r3,1 r3,2 1

r3,2 -0.2 r3,1 ? -0.75, 0.43
r3,2 0.6 r3,1 ? 0, 0.96
r3,2 0.746 r3,1 ? 0.196, 1 (gtgt0 pour
n100)
r3,2 0.919 r3,1 ? 0.499, 1

18
3.3 Représentation graphique
ensemble des couples (r3,2, r3,1) tels que la
matrice soit définie positive (r1,2 0.8)
19
3.4 Généralisation

cas dune matrice p x p

X1 X2 X3 X4 X1 1 X2
0.5 1 X3 0.5 0.5 1 X4 -0.5 0.4 0.3 1

relation entre r1,2 et r3,4 quelle est la
conséquence de la liaison entre la CSP et le
diplôme (r1,2) sur la liaison entre lâge et le
revenu (r3,4) ?

20
3.5 Représentation graphique
21
3.6 Représentation graphique
22
3.7 Positionnement du coefficient de corrélation
Evaluation de la position de ri,j dans son
intervalle a, b à laide dun indice variant
de 1 à 1
- 1 ? (ri,j (ab)/2) / (b a)/2 ? 1
23
3.8 corrélation partielle
On obtient le coefficient de corrélation
partielle
rpi,j (ri,j (ab)/2) / (b a)/2

ri,j (a b)/2 si et seulement si rpi,j 0

rpi,j fonction linéaire croissante de ri,j

ri,j tend vers a ou b si et seulement rpi,j
tend vers 1 en v.a.

relation entre rk,l et rpi,j rk,l tend vers a
(ou b) implique que rpi,j tend vers 1 en v.a.
(sous conditions)

24
4. Colinéarités statistiques.
25
4.1 Application du modèle

Domaine dapplication D ensemble des valeurs
vraisemblables des variables explicatives.
forte liaison entre la CSP et le diplôme un
employé a rarement un diplôme BAC5. Le modèle ne
permet pas destimer le revenu dun employé
titulaire dun BAC5.
Plus les variables explicatives sont nombreuses
plus le risque de colinéarité est élevé.
moins la colinéarité est visible.
plus le domaine dapplication est restreint.

26
4.2 Colinéarités statistiques

entre deux variables leur coefficient de
corrélation linéaire est proche de 1 en valeur
absolue .
entre plusieurs variables il existe une
combinaison linéaire de ces variables de variance
faible (doù lACP).

27
4.3 Conséquences numériques

Les termes de la matrice R-1 sont élevés, en
particulier les termes diagonaux.

Termes diagonaux de VB variances des
estimateurs Bj
28
4.4 Effets de la colinéarité statistique

Variances des estimateurs MCO des bj élevées
doù valeurs des coefficients estimés parfois
élevées.
Coefficients de corrélation entre les Bj proches
de ? 1 compensation entre les estimations
Conséquence coefficients estimés parfois
opposés aux coefficients théoriques
Coefficient de détermination instable.

29
4.5 modèle simulé.

Y 0.5 X1 0.5 X2 0.5 X3 0.5 X4 ?
n 100 R??????? ?2 1
X1 X2 X3 X4
X1 1
X2 0.5 1
X3 0.5 0.5 1
X4 -0.5 0.4 0.3 1

30
4.6 Interprétation du modèle

Le modèle théorique correspond aux propriétés
suivantes
lâge et la CSP ont un effet propre positif sur
le revenu (b1 b2 0.5 )
le diplôme et lorientation politique un effet
propre négatif sur le revenu (b3 b4 - 0.5 ).

31
4.7 Estimations suivant les MCO(premier
échantillon, n 100)

Estimation écart-type t vraie valeur

b1 1.6339 0.8739 1.870 0.5
b2 -0.1482 0.5659 -0.262 0.5
b3 -1.0375 0.4153 -2.498 -0.5
b4 0.4439 0.7848 0.566 -0.5
b0 -0.1650 0.1110 -1.486 0
R2 0.49
32
4.8 Estimations suivant les MCO(deuxième
échantillon, n 100)

Estimation écart-type t vraie valeur

b1 0.4638 0.7832 0.592 0.5
b2 0.3674 0.5072 0.724 0.5
b3 -0.5204 0.3722 -1.398 -0.5
b4 -0.5594 0.7033 -0.795 -0.5
b0 -0.0985 0.0995 -0.990 0
R2 0.50
33
4.9 Coefficient de déterminationTroisième exemple

X1 X2 X3 Y
X1 1
X2 0.6 1
X3 -0.279 0.6 1
Y 0.0446 0 0 1

R2 0.99536 (r1,2 0.600)
R2 0.45260 (r1,2 0.599)
34
4.10 Variation du coefficient de détermination
R42 en fonction de r1,2
35
5. Détection de la colinéarité.
X1 X2 X3 X4 X1 1 X2 0.5 1 X3
0.5 0.5 1 X4 -0.5 0.4 0.3 1
36
5.1 Facteurs dinflation

Facteurs dinflation

fj 1 / (1 Rj2)
(termes diagonaux de la matrice R-1)

Indice de multicolinéarité (Tomassonne)

I (1/p) ?? fj
(moyenne des facteurs dinflation)
En labsence totale de colinéarité, les facteurs
dinflation et lindice I sont égaux à 1
37
5.2 Valeurs propres

On note l1, l2, , lp les valeurs propres de R
classées suivant les valeurs décroissantes.

Faibles valeurs propres colinéarité statistique

Lindice de conditionnement ? (Belsley et al.)

k 1/ ?p (ou ?1/ ?p)

Lindice de multicolinéarité

I (1/p) ?? 1/ ?j
38
5.3 Application au modèle simulé

Facteurs dinflation

b1 f1 62 b2 f2 26 b3 f3 14 b4 f4
50

Valeurs propres

l12.019 l21.47 l30.5 l4 0.007
I 38

Indice de multicolinéarité

? 148.83

Indice de conditionnement

39
6. Application de la régression bornée.
40
6.1 Estimateur biaisé dun paramètre m
E(X m )2 V(X) E(X) m2 E(X m )2
V(X) gt E(X m )2
41
6.2 Estimateur de la régression bornée
critère des MC sous la contrainte ??B ??2 ? M
(Pour k 0, on retrouve lestimateur des MCO)
42
6.3 Application.

On fait varier k de 0 à 1.
on estime les coefficients de régression par
lestimateur de la régression bornée.
On construit la représentation graphique des bj
en fonction de k appelée ridge trace.
On choisit k de façon que leurs valeurs soient
stabilisées.

43
6.4 Premier exemple
44
6.5 estimations (k 0.1)
45
6.6 Deuxième exemple
46
6.7 estimations (k 0.02).
47
6.8 Distances entre vecteur observé et vecteur
réeld2?b??, B? ? (bj bj)2(erreur
quadratique)

50 échantillons de taille 100 50 distances1)
par la régression des MCO k 02) par la
régression bornée k 0.013) par la régression
bornée k 0.05

48
6.9 Résultats numériques
Carrés des distances entre vecteurs estimés et
vecteur vrai (50 vecteurs estimés)
49
6.10 Les 20 plus mauvais résultats par les MCO
50
6.11 fonction de répartition des carrés des
distances (MCO)
51
6.12 Variation de la moyenne des B - b2
52
6.13 Optimisation

Meilleure Moyenne des Variance
valeur de k carrés des distances
k 0.078 0.039 0.001

Forte stabilité de lerreur quadratique pour
0.05 lt k lt 0.1
53
6.14 Critique de la régression bornée

amélioration considérable des estimations

résultats discutables dans le cas de
coefficients de régression théoriques élevés en
valeur absolue. Doù la nécessité de les évaluer
a priori.

mise en oeuvre nécessitant une démarche
critique danalyse des coefficients de
régression.

54
6.15 Développements

Régression bornée partielle on calcule les
dérivées des coefficients de régression par
rapport à chaque terme diagonal de R, et on on
ajoute une constante à ceux dont la dérivée est
la plus grande en v.a.
Détection de valeurs influentes les valeurs
observées influentes sont celles par rapport
auxquelles les dérivées des coefficients de
régression sont les plus grandes en v.a.

55
7. régression orthogonale
56
7.1 Méthode

ACP du tableau de données X
U tableau des vecteurs principaux, vecteurs
propres unitaires de R.
C tableau des composantes principales Cl
(n lignes et q colonnes)

C X U
On considère les composantes principales comme
variables explicatives.
57
7.2 Modélisation et estimateurs
Y b0 b1 C1 bl Cl ... bp Cp ?
bl cov (Y, Cl) / ll
B 1/n D1/l Ct Y

estimateur B des coefficients de régression des
variables initiales

B U B
VB U VB Ut
58
7.3 Choix des composantes principales

Algorithme descendant
On sélectionne la composante principale Cl en
fonction de son coefficient de régression bl
avec la variable expliquée Y.
?bl ? gt b0 on sélectionne la composante
principale.
?bl ? lt b0 on écarte la composante principale.
Le test sur le coefficient de corrélation
partielle rpl est équivalent on fixe alors une
valeur limite rp0.

59
7.4 Premier type derreur
Y b0 b1 C1 bl Cl ... bp Cp
? (théo.)
Y b0 b1 C1 bl Cl ... bp Cp
e (obs.)
erreur possible introduire Cl avec bl nul
la moyenne des carrés des erreurs est égale à
bl2 ll (erreur de type I)
60
7.5 Second type derreur
Y b0 b1 C1 bl Cl ... bp Cp
? (théo.)
Y b0 b1 C1 bl Cl ... bp Cp
e (obs.)

erreur possible éliminer Cl avec bl non nul
(erreur de type II)
La moyenne des carrés des erreurs est égale à
bl2 ll

61
7.6 évaluation de lerreur de type II

bl inconnu Démarche baysienne
Probabilité a priori sur lensemble contenant le
coefficient de régression bl
E(bl2 ll ) mesure de lerreur de type II.
En pratique on étudie le coefficient de
corrélation partielle (loi normale tronquée).

62
7.7 Algorithme

On choisit la région critique du test en fixant
un coefficient de corrélation partielle limite.

On calcule la somme des deux erreurs

On recommence le calcul en faisant varier le
coefficient de corrélation partielle limite de
-1 à 1.

on en déduit celui qui minimise la moyenne des
deux erreurs.

On applique cet algorithme aux deux exemples
précédents.
63
7.8 Application (1e simulation).
Pour chaque valeur du coefficient de corrélation
partiel limite rp entre 0 et 1, on calcule la
somme des deux erreurs
64
7.9 Résultats numériques
Valeur limite du coefficient de corrélation
partielle 0.0991 Valeur du coefficient de
corrélation correspondant 0.0709 Valeur
limite du F 0.9422 vraisemblance
P(Fgtf) 0.3389
65
7.10 Exemple 1 conclusion

toutes les composantes principales sont
conservées.

les coefficients de régresion sont égaux aux
coefficients de régression initiaux (MC).

la régression bornée et la régression
orthogonale donnent des résultats très différents.

Doù la nécessité dune réflexion a priori sur
les coefficients de régression théoriques.

66
7.11 Application (2e simulation).

Valeur limite 0.149, observée 0.002. On élimine
C4.
On élimine également C1, et les prédicteurs
retenus sont C2 et C3 (variance résiduelle
estimée minimale).

67
Exemple 2 conclusion
Régression orthogonale des moindres carrés
estimation écart-type estimation écart-type
0.464 0.367 -0.520 -0.559
0.783 0.507 0.372 0.703
0.047 0.094 0.104 0.065
b1 0.449 b2 0.323 b3 -0.561 b4 -0.556
La régression orthogonale diminue
considé-rablement les écarts-types des
estimateurs.
68
7.13 Commentaires sur lalgorithme

Le choix des composantes principales à éliminer
dépend de r(Y,Cl) 2 / ll .

Eliminer une composante principale de faible
variance nest pas toujours une bonne décision.

Conserver une composante principale de variance
relativement élevée nest pas toujours une bonne
décision.

Risque de 1e espèce correspondant à la valeur
limite largement supérieur à 5.

69
CONCLUSION

Le modèle linéaire compense limpuissance des
tests classiques en recourant à des hypothèses
rigides.

Ces hypothèses mathématiques sont vérifiées dans
les simulations effectuées, mais jamais dans la
réalité.

Une réflexion non statistique sur la nature des
données est indispensable pour appliquer le
modèle linéaire et en interpréter correctement
les résultats.

70
BIBLIOGRAPHIE

Colinéarité et régression linéaire, Math. Sci.
hum. Mathematics and Social Sciences (43e année,
n 173, 2005(4), p. 5-25).
évaluation de la régression bornée. Revue des
Nouvelles Technologies de lInformation, éd.
Cépaduès sous presse.
Limites de linformatisation des sciences de
lhomme et de la société. Contribution à
louvrage collectif Les sciences humaines et
sociales à lheure des technologies de
linformation et de la communication, dir. B.
Reber C. Brossaud , publication prévue juin 2007,
Hermès, Paris.

71
Compléments