Title: Mod
1Modèle linéaire.Analyse numérique dune matrice
de corrélation.Transitivité et Colinéarité.
- Thierry Foucart
- UMR 6086, Mathématiques, SP2MI, Bd Marie et
Pierre Curie, BP 30179 86962 FUTUROSCOPE
CHASSENEUIL CEDEX.
21. introduction au modèle linéaire.
31.1 un exemple
- étude des liaisons entre le revenu, lâge, la
CSP, le niveau de diplôme, lorientation
politique, le sexe au sein dune population
délecteurs. - Grand nombre de tableaux croisés impuissance
des tests classiques du c2 et de Fisher - modélisation expression mathématique des
liaisons.
41.2 modèle linéaire.
Y b0 b1 X1 b2 X2 b3 X3 b4 X4 ?
- Y revenu
- X1 âge
- X2 CSP
- X3 diplôme
- X4 orientation politique
- variable dajustement
hypothèses rigides (linéarité, indépendance des
observations, normalité et homoscédasticité de la
variable dajustement e).
51.3 interprétation du modèle
- toutes choses égales par ailleurs.
- recherche dun effet propre de Xj sur Y bj ? 0.
- lâge X1 augmente dun an le revenu moyen Y
augmente toujours de b1, quelle que soient la
CSP, le diplôme, lorientation politique. - démarche implicite on suppose a priori
lexistence dun effet propre et on le contrôle.
61.4 analyse en quatre points
- Analyse numérique de la matrice des corrélations
transitivité, corrélation partielle. - Colinéarité instabilité des estimations
- Evaluation de la régression bornée.
- Régression orthogonale. Sélection des composantes
principales.
72. Analyse numérique dune matrice de corrélation
82.1 Modèle linéaire.
- Y b0 b1 X1 bj Xj ... bp Xp ?
E(Xj) 0, V(Xj) 1
- bj coefficients de régression théoriques
- e variable résiduelle E(e) 0, V(e) s2
X matrice des observations des Xj (en
colonnes) Y matrice des observations de Y (en
colonne) R matrice symétrique p x p des
corrélations entre les variables Xj
92.2 Estimateur MCO
- B estimateur sans biais de variance minimale
(efficace) défini par - (B1, B2, ..., Bp)t.
- Bj estimateur du coefficient bj
- Les propriétés des estimateurs dépendent de R-1
102.3. Factorisation de Cholesky.
- Le calcul de R-1 consiste à factoriser R puis
àinverser T. - Factorisation de Cholesky
- T matrice triangulaire supérieure
- La matrice R étant symétrique définie positive
est inversible la matrice T existe et est
inversible.
R T T t
L
112.4 Calcul de la matrice T
- i 1,..., p ti,1 r1,i / r1,1 ½ (1)
- i-1
- "i 2, ..., p ti,i ri,i - ? ti,k2
1/2 (2) - k1
- i-1
- ri,j - ? ti,k tj,k
- k 1
- "i2,...,p-1 "ji1,...p tj,i
___________________ (3) - ti,i
122.5 Encadrement dun terme
- -1 ? ap,p1lt rp,p1 lt bp,p-1? 1
ap,p1 tp1,p1 1 ? tp,k21/2 ? tp1,k
tp,k bp,p1 tp1,p1 1 ??tp,k21/2 ?
tp1,k tp,k
p-2
p-2
k 1
k 1
p-2
p-2
k 1
k 1
généralisation par permutation
ai,j lt ri,j lt bi,j
132.6 terme diagonal
- cp,p ? tp,k2 rp,p gt cp,p
- rj,j gt cj,j
- cj,j Rj2
p-1
k 1
Rj2 coefficient de détermination obtenu dans la
régression de Xj par les autres variables
explicatives
142.6 Exemple numérique
- X1 X2 X3 X4
- X1 1
- X2 0.5 1
- X3 0.5 0.5 1
- X4 -0.5 0.4 0.3 1
r1,2 ? -0.3697771 , 0.5126343
r4,4 ? .98 , ? R42 0.98
153. Relations entre les corrélations
163.1 Transitivité de la corrélation.
- X Y Z
- X 1
- R Y 0.8 1
- Z r3,1 r3,2 1
- Forte corrélation entre X et Y r1,2 0.8
- Une forte corrélation entre Y et Z (r3,2 0.8)
implique-t-elle une forte corrélation entre X et
Z (r3,1 élevé) ?
173.2 Evaluation de la transitivité
- X Y Z
- X 1
- R Y 0.8 1
- Z r3,1 r3,2 1
- r3,2 -0.2 r3,1 ? -0.75, 0.43
- r3,2 0.6 r3,1 ? 0, 0.96
- r3,2 0.746 r3,1 ? 0.196, 1 (gtgt0 pour
n100) - r3,2 0.919 r3,1 ? 0.499, 1
183.3 Représentation graphique
ensemble des couples (r3,2, r3,1) tels que la
matrice soit définie positive (r1,2 0.8)
193.4 Généralisation
X1 X2 X3 X4 X1 1 X2
0.5 1 X3 0.5 0.5 1 X4 -0.5 0.4 0.3 1
- relation entre r1,2 et r3,4 quelle est la
conséquence de la liaison entre la CSP et le
diplôme (r1,2) sur la liaison entre lâge et le
revenu (r3,4) ?
203.5 Représentation graphique
213.6 Représentation graphique
223.7 Positionnement du coefficient de corrélation
Evaluation de la position de ri,j dans son
intervalle a, b à laide dun indice variant
de 1 à 1
- 1 ? (ri,j (ab)/2) / (b a)/2 ? 1
233.8 corrélation partielle
On obtient le coefficient de corrélation
partielle
rpi,j (ri,j (ab)/2) / (b a)/2
- ri,j (a b)/2 si et seulement si rpi,j 0
- rpi,j fonction linéaire croissante de ri,j
- ri,j tend vers a ou b si et seulement rpi,j
tend vers 1 en v.a.
- relation entre rk,l et rpi,j rk,l tend vers a
(ou b) implique que rpi,j tend vers 1 en v.a.
(sous conditions)
244. Colinéarités statistiques.
254.1 Application du modèle
- Domaine dapplication D ensemble des valeurs
vraisemblables des variables explicatives. - forte liaison entre la CSP et le diplôme un
employé a rarement un diplôme BAC5. Le modèle ne
permet pas destimer le revenu dun employé
titulaire dun BAC5. - Plus les variables explicatives sont nombreuses
- plus le risque de colinéarité est élevé.
- moins la colinéarité est visible.
- plus le domaine dapplication est restreint.
264.2 Colinéarités statistiques
- entre deux variables leur coefficient de
corrélation linéaire est proche de 1 en valeur
absolue . - entre plusieurs variables il existe une
combinaison linéaire de ces variables de variance
faible (doù lACP).
274.3 Conséquences numériques
- Les termes de la matrice R-1 sont élevés, en
particulier les termes diagonaux.
Termes diagonaux de VB variances des
estimateurs Bj
284.4 Effets de la colinéarité statistique
- Variances des estimateurs MCO des bj élevées
doù valeurs des coefficients estimés parfois
élevées. - Coefficients de corrélation entre les Bj proches
de ? 1 compensation entre les estimations - Conséquence coefficients estimés parfois
opposés aux coefficients théoriques - Coefficient de détermination instable.
294.5 modèle simulé.
- Y 0.5 X1 0.5 X2 0.5 X3 0.5 X4 ?
- n 100 R??????? ?2 1
- X1 X2 X3 X4
- X1 1
- X2 0.5 1
- X3 0.5 0.5 1
- X4 -0.5 0.4 0.3 1
304.6 Interprétation du modèle
- Le modèle théorique correspond aux propriétés
suivantes - lâge et la CSP ont un effet propre positif sur
le revenu (b1 b2 0.5 ) - le diplôme et lorientation politique un effet
propre négatif sur le revenu (b3 b4 - 0.5 ).
314.7 Estimations suivant les MCO(premier
échantillon, n 100)
- Estimation écart-type t vraie valeur
b1 1.6339 0.8739 1.870 0.5
b2 -0.1482 0.5659 -0.262 0.5
b3 -1.0375 0.4153 -2.498 -0.5
b4 0.4439 0.7848 0.566 -0.5
b0 -0.1650 0.1110 -1.486 0
R2 0.49
324.8 Estimations suivant les MCO(deuxième
échantillon, n 100)
- Estimation écart-type t vraie valeur
b1 0.4638 0.7832 0.592 0.5
b2 0.3674 0.5072 0.724 0.5
b3 -0.5204 0.3722 -1.398 -0.5
b4 -0.5594 0.7033 -0.795 -0.5
b0 -0.0985 0.0995 -0.990 0
R2 0.50
334.9 Coefficient de déterminationTroisième exemple
- X1 X2 X3 Y
- X1 1
- X2 0.6 1
- X3 -0.279 0.6 1
- Y 0.0446 0 0 1
R2 0.99536 (r1,2 0.600)
R2 0.45260 (r1,2 0.599)
344.10 Variation du coefficient de détermination
R42 en fonction de r1,2
355. Détection de la colinéarité.
X1 X2 X3 X4 X1 1 X2 0.5 1 X3
0.5 0.5 1 X4 -0.5 0.4 0.3 1
365.1 Facteurs dinflation
fj 1 / (1 Rj2)
(termes diagonaux de la matrice R-1)
- Indice de multicolinéarité (Tomassonne)
I (1/p) ?? fj
(moyenne des facteurs dinflation)
En labsence totale de colinéarité, les facteurs
dinflation et lindice I sont égaux à 1
375.2 Valeurs propres
- On note l1, l2, , lp les valeurs propres de R
classées suivant les valeurs décroissantes.
Faibles valeurs propres colinéarité statistique
- Lindice de conditionnement ? (Belsley et al.)
k 1/ ?p (ou ?1/ ?p)
- Lindice de multicolinéarité
I (1/p) ?? 1/ ?j
385.3 Application au modèle simulé
b1 f1 62 b2 f2 26 b3 f3 14 b4 f4
50
l12.019 l21.47 l30.5 l4 0.007
I 38
- Indice de multicolinéarité
? 148.83
- Indice de conditionnement
396. Application de la régression bornée.
406.1 Estimateur biaisé dun paramètre m
E(X m )2 V(X) E(X) m2 E(X m )2
V(X) gt E(X m )2
416.2 Estimateur de la régression bornée
critère des MC sous la contrainte ??B ??2 ? M
(Pour k 0, on retrouve lestimateur des MCO)
426.3 Application.
- On fait varier k de 0 à 1.
- on estime les coefficients de régression par
lestimateur de la régression bornée. - On construit la représentation graphique des bj
en fonction de k appelée ridge trace. - On choisit k de façon que leurs valeurs soient
stabilisées.
436.4 Premier exemple
446.5 estimations (k 0.1)
456.6 Deuxième exemple
466.7 estimations (k 0.02).
476.8 Distances entre vecteur observé et vecteur
réeld2?b??, B? ? (bj bj)2(erreur
quadratique)
- 50 échantillons de taille 100 50 distances1)
par la régression des MCO k 02) par la
régression bornée k 0.013) par la régression
bornée k 0.05
486.9 Résultats numériques
Carrés des distances entre vecteurs estimés et
vecteur vrai (50 vecteurs estimés)
496.10 Les 20 plus mauvais résultats par les MCO
506.11 fonction de répartition des carrés des
distances (MCO)
516.12 Variation de la moyenne des B - b2
526.13 Optimisation
- Meilleure Moyenne des Variance
- valeur de k carrés des distances
- k 0.078 0.039 0.001
Forte stabilité de lerreur quadratique pour
0.05 lt k lt 0.1
536.14 Critique de la régression bornée
- amélioration considérable des estimations
- résultats discutables dans le cas de
coefficients de régression théoriques élevés en
valeur absolue. Doù la nécessité de les évaluer
a priori.
- mise en oeuvre nécessitant une démarche
critique danalyse des coefficients de
régression.
546.15 Développements
- Régression bornée partielle on calcule les
dérivées des coefficients de régression par
rapport à chaque terme diagonal de R, et on on
ajoute une constante à ceux dont la dérivée est
la plus grande en v.a. - Détection de valeurs influentes les valeurs
observées influentes sont celles par rapport
auxquelles les dérivées des coefficients de
régression sont les plus grandes en v.a.
557. régression orthogonale
567.1 Méthode
- ACP du tableau de données X
- U tableau des vecteurs principaux, vecteurs
propres unitaires de R. - C tableau des composantes principales Cl
- (n lignes et q colonnes)
C X U
On considère les composantes principales comme
variables explicatives.
577.2 Modélisation et estimateurs
Y b0 b1 C1 bl Cl ... bp Cp ?
bl cov (Y, Cl) / ll
B 1/n D1/l Ct Y
- estimateur B des coefficients de régression des
variables initiales
B U B
VB U VB Ut
587.3 Choix des composantes principales
- Algorithme descendant
- On sélectionne la composante principale Cl en
fonction de son coefficient de régression bl
avec la variable expliquée Y. - ?bl ? gt b0 on sélectionne la composante
principale. - ?bl ? lt b0 on écarte la composante principale.
- Le test sur le coefficient de corrélation
partielle rpl est équivalent on fixe alors une
valeur limite rp0.
597.4 Premier type derreur
Y b0 b1 C1 bl Cl ... bp Cp
? (théo.)
Y b0 b1 C1 bl Cl ... bp Cp
e (obs.)
erreur possible introduire Cl avec bl nul
la moyenne des carrés des erreurs est égale à
bl2 ll (erreur de type I)
607.5 Second type derreur
Y b0 b1 C1 bl Cl ... bp Cp
? (théo.)
Y b0 b1 C1 bl Cl ... bp Cp
e (obs.)
- erreur possible éliminer Cl avec bl non nul
- (erreur de type II)
- La moyenne des carrés des erreurs est égale à
bl2 ll
617.6 évaluation de lerreur de type II
- bl inconnu Démarche baysienne
- Probabilité a priori sur lensemble contenant le
coefficient de régression bl - E(bl2 ll ) mesure de lerreur de type II.
- En pratique on étudie le coefficient de
corrélation partielle (loi normale tronquée).
627.7 Algorithme
- On choisit la région critique du test en fixant
un coefficient de corrélation partielle limite.
- On calcule la somme des deux erreurs
- On recommence le calcul en faisant varier le
coefficient de corrélation partielle limite de
-1 à 1.
- on en déduit celui qui minimise la moyenne des
deux erreurs.
On applique cet algorithme aux deux exemples
précédents.
637.8 Application (1e simulation).
Pour chaque valeur du coefficient de corrélation
partiel limite rp entre 0 et 1, on calcule la
somme des deux erreurs
647.9 Résultats numériques
Valeur limite du coefficient de corrélation
partielle 0.0991 Valeur du coefficient de
corrélation correspondant 0.0709 Valeur
limite du F 0.9422 vraisemblance
P(Fgtf) 0.3389
657.10 Exemple 1 conclusion
- toutes les composantes principales sont
conservées.
- les coefficients de régresion sont égaux aux
coefficients de régression initiaux (MC).
- la régression bornée et la régression
orthogonale donnent des résultats très différents.
- Doù la nécessité dune réflexion a priori sur
les coefficients de régression théoriques.
667.11 Application (2e simulation).
- Valeur limite 0.149, observée 0.002. On élimine
C4. - On élimine également C1, et les prédicteurs
retenus sont C2 et C3 (variance résiduelle
estimée minimale).
67Exemple 2 conclusion
Régression orthogonale des moindres carrés
estimation écart-type estimation écart-type
0.464 0.367 -0.520 -0.559
0.783 0.507 0.372 0.703
0.047 0.094 0.104 0.065
b1 0.449 b2 0.323 b3 -0.561 b4 -0.556
La régression orthogonale diminue
considé-rablement les écarts-types des
estimateurs.
687.13 Commentaires sur lalgorithme
- Le choix des composantes principales à éliminer
dépend de r(Y,Cl) 2 / ll .
- Eliminer une composante principale de faible
variance nest pas toujours une bonne décision.
- Conserver une composante principale de variance
relativement élevée nest pas toujours une bonne
décision.
- Risque de 1e espèce correspondant à la valeur
limite largement supérieur à 5.
69CONCLUSION
- Le modèle linéaire compense limpuissance des
tests classiques en recourant à des hypothèses
rigides.
- Ces hypothèses mathématiques sont vérifiées dans
les simulations effectuées, mais jamais dans la
réalité.
- Une réflexion non statistique sur la nature des
données est indispensable pour appliquer le
modèle linéaire et en interpréter correctement
les résultats.
70BIBLIOGRAPHIE
- Colinéarité et régression linéaire, Math. Sci.
hum. Mathematics and Social Sciences (43e année,
n 173, 2005(4), p. 5-25). - évaluation de la régression bornée. Revue des
Nouvelles Technologies de lInformation, éd.
Cépaduès sous presse. - Limites de linformatisation des sciences de
lhomme et de la société. Contribution à
louvrage collectif Les sciences humaines et
sociales à lheure des technologies de
linformation et de la communication, dir. B.
Reber C. Brossaud , publication prévue juin 2007,
Hermès, Paris.
71Compléments
- http//foucart.thierry.free.fr
72Matrices de corrélation
- X1 X2 X3 X4 Y
- X1 1.000
- X2 0.500 1.000
- X3 0.500 0.500 1.000
- X4 -0.500 0.400 0.300 1.000
- Y1 0.540 0.216 -0.107 -0.491 1.000
- Y2 0.486 0.084 -0.199 -0.584 1.000