Title: Estimations sur un cluster
 1- Estimations sur un cluster 
 - J. Macario 
 
  2Plan
- Les choses 
 - Les questions 
 - Une escroquerie 
 - Une vieille recette 
 - Maximum de Vraisemblance 
 - mise en uvre 
 - résultats 
 - Développements
 
  3The reference complètement in French 
- J.L. Foulley, C. Delmas, C. Robert-Granié 
 - Méthodes du Maximum de Vraisemblance en Modèle 
linéaire Mixte  - Journal de la Société Française de Statistique 
(2002)  - 143 (1-2),pp 5-52 
 -  très complet 
 -  très matheux 
 -  77 réf. , 3 annexes 
 
  4Estimations sur un cluster
  5Pour chaque sujet, des "lectures" 
 620 "sujets", 4 "lectures" 
 7Le modèle 
 8La variance pour un sujet complet  Vi 
 9Estimations sur un cluster
- Les questions 
 - (pour quoi faire ?)
 
  10Estimations 
- Valeur de m 
 - Variance de l'estimation 
 - ou intervalle de confiance 
 - Variance intersujet 
 - et la précision de l'estimation 
 - variance de (l'estimation) de la variance 
 - Même chose pour la variance de la lecture
 
  11Et plus loin, les BLUP
- Reconstituer les effets sujets 
 - qui ont été abandonnés au profit de la variance 
 
le modèle de départ a été
remplacé par une écriture ne dépendant que de 
ces paramètres
Peut-on (re)trouver ? 
 12Le modèle de départ et sa reformulation
20 sujets
1 moyenne
21 paramètres
3 paramètres 
 13Le critère d'ajustement
- Méthode de Moindres Carrés 
 - ordinaires 
 - pondérés 
 - généralisés 
 - Maximum de Vraisemblance 
 - REML 
 - Resticted Estimation Maximum Likelihood 
 - REsidual Maximum Likelihood
 
  14Bref ...
- MMCO 
 - MMCP 
 - MMCG 
 - MV 
 - REML 
 - et BLUP
 
  15Estimations sur un cluster
  16Négliger les deux niveaux d'erreur
- Traiter toutes les valeurs comme des observations 
indépendantes  - Résultat 
 - Estimation de m correcte ! 
 - Variance résiduelle fausse 
 - Variance de l'estimation de m fausse
 
  17Modèle implicite 
 18Modèle implicite 
 19Estimations sur un cluster
  20L'Anova
Anova 1 facteur
Facteur sujet à 20 modalités
avec 4 répétitions dans chaque colonne
à noter  N  80 
 21La table d'Anova
Inter-sujets
3631,25
19
191,118421
Résiduelle
629,5
60
10,4916667
Totale
4260,75
79 
 22Méthode de Henderson de type1
- Simple et de bon goût 
 - Sans biais 
 - Mais peut donner des estimations négatives (!) 
 - le prix à payer pour le "sans biais" (?) 
 - Pas d'estimation disponible de la variance de 
(l'estimation de) la variance 
  23Estimation de 
 24Détails sur l'escroquerie
- ddl  19 et pas 79 
 - Escroquerie  Var(m)  0,67417 
 - Avec l'Anova  Var(m)  2,38898 
 
100 IC(95)simulés
pas mal ! 
 25Estimations sur un cluster
- Maximum de Vraisemblance 
 - mise en uvre
 
  26Formulation 
 27Variance pour un sujet 
 28Formulation 
 29Formulation de V pour plusieurs sujets 
 30Formulation de det V 
 31Formulation de la somme des carrés 
 32Formulation de la somme des carrés 
 33Estimations sur un cluster
- Maximum de Vraisemblance 
 - résultats
 
  34Estimations des paramètres
Résultats du MV
Résultats de l'Anova
m  75,62497
m  75,62500
s2(sujet)  42,76763
s2(sujet)  45,15669
s2(lecture)  10,49167
s2(lecture)  10,49167 
 35Un autre problème - MV  test de Wald
Résultats de l'Anova
Résultats du MV
m  75,62500
m  75,62497
s2(m)  2,38898
s2(m)  0,88124
IC(95)  ( 72,38995  78,86005 )
t Student 19 ddl  2,093 
IC(95)  ( 75,09592  76,15402 )
t Normal  1,96 
 36Une forme de solution(log du) Rapport de 
Vraisemblance
IC(95)  ( 72,67232  78,57767 )
Rappel  Anova IC(95)  ( 72,38995  78,86005 )
Rappel  Wald IC(95)  ( 75,09592  76,15402 ) 
 37W W W ?
328,908
3,841
325,067 
 38W W W ?
78,58
72,67 
 39W W W ?
approximation paraboliquede -2LV
Test deWald 
 40W W W (2) ?
Anova s2(sujet)  45,16
MV s2(sujet)  42,77
Variation relative  5,29 
 41Le MV n'a pas que des désavantages
Résultats de l'Anova
Résultats du MV
s2(sujet)  45,16
s2(sujet)  42,77
s2 s2(sujet)   ?
mais
s2 s2(sujet)  0,00971
(IC à construire par RV) 
 42Tentative (?) d'amélioration (?) du test de Wald
- Bidouiller le ddl 
 - En principe on est asymptotique 
 - estim/s(estim) loi Normale 
 - SAS 
 - estim/s(estim) loi de Student à n ddl 
 - plusieurs choix pour n ddl, aucun indiscutable 
 - préconisation Satterthwaite 
 - Vraie Préconisation RV !
 
  43Estimations sur un cluster
- Un test un peu particulier sur les bords 
 
  44Test d'une composante de la variance  0
- Le Problème 
 - test de l'hypothèse H0  s2(machin)  0 
 - la valeur à tester se trouve sur le bord de 
l'intervalle de définition  - à l'évidence les valeurs négatives pour s2 ne 
sont pas possibles 
- La solution 
 - modifier le test du rapport de vraisemblance pour 
le rendre unilatéral 
  45Modification du test du rapport de vraisemblance 
 46Loi modifiée
c2 à 1 ddl 
 47Construction
c2 0 ddl
c2 1 ddl
la demi somme 
 48Calcul connaissant la valeur trouver la p-value 
 49Trouver le c2 limite pour un seuil a donné 
 50Pour un cas plus compliqué 
 51MV ou REML
- Les tests RV sont utilisables avec la 
vraisemblance standard ou avec le REML  - Si on utilise le REML 
 - bien prendre garde de ne comparer que des modèles 
avec LES MÊMES EFFETS FIXES 
  52Estimations sur un cluster
  53Le REML - principe
observations dans Rn
 résidus dans Rn-p
 modèle dans Rp 
 54Dans notre cas
observations dans R20
 résidus dans R19
 modèle dans R1 
 55Question et réponse
Comment passer de R20 à R19 ?
 dans R20
 dans R19 
 56REML - résultats
Résultats de l'Anova
Résultats du MV
s2(sujet)  42,77
s2(sujet)  45,16
s2 s2(sujet)  0,00971
Résultats du REML
s2(sujet)  45,15661
s2 s2(sujet)   0,008323
(IC à construire par R-REML) 
 57Pourquoi REML marche ? 
 58Pourquoi REML marche ? 
 59Le BLUP
- Best Linear Unbiased Predictor 
 - par analogie avec BLUE 
 - Best Linear Unbiased Estimator 
 - estimateur MMCP ou MV 
 - Le résultat théorique
 
  60Rétrécissement ou Shrinkage
 moyennes brutes
s2(sujet)  45,15669
s2(lecture)  10,49167
BLUP 
 61Shrinkage
 moyennes brutes
s2(sujet)  5,665
s2(lecture)  25,688
BLUP 
 62Une promenade dans les lois de proba 
 63Une promenade dans les lois de proba 
 64Au prix d'une ellipse ... 
 65Les formules du BLUP 
 66Estimations sur un cluster
  67Les méthodes apparentées
- MMCP ou MMCG 
 - GEE 
 - Two Stage 
 - EM