Title: Diapositive 1
1Le modèle linéaire et l'approche multivariée en
statistique
2I Le modèle linéaire II Approche multivariée en
statistique III Utilisation IV Rapprochements
3A la base du modèle linéaire la comparaison de
moyennes
Population 2
Population 1
M1,s1
M2, s2
Echantillonnage
m1,s1
m2,s2
? Comment comparer les deux populations à partir
d'un échantillon réduit?
? Comparaison de moyennes
4Construction du test
? On suppose que X1?N(M1,s) X2
?N(M2,s)
? On en déduit (propriété de variables suivant
des lois normales indépendantes) que
? Test de Student
5La comparaison de moyennes, vision intuitive
Distribution A
Distribution B
M1?M2
sB?sA
M1M2
? Que conclure?
6Les statistiques univariées statistiques
paramétriques
? On fait des hypothèses sur les lois
statistiques des variables mesurées
? Il faut vérifier ces hypothèses avant de
construire les tests
? Il existe parfois des solutions (transformation
des variables)
? Il existe des tests non-paramétriques, moins
puissants, moins souples
7Le modèle linéaire
n observations
Variable expliquée
Variables/facteurs explicatifs
Paramètres
Erreur
Prediction?
8Exemple régression à deux variables
n observations
Variable expliquée
Variables/facteurs explicatifs
Paramètres
Erreur
9Les hypothèses du modèle linéaire
Les erreurs, ei, sont des variables aléatoires
? Les ei sont indépendants
? Les ei suivent des lois normales
? Les ei ont des espérances nulles
? Les ei ont une variance commune s2
? ei ,ei ?N (0, s2) et les ei sont indépendants
10Estimation des paramètres
Régression
ANOVA
Trt 1
Trt 2
Trt 3
Observées
Prédites
Erreurs
? Quels sont les paramètres sur ces figures?
? Pour déterminer les paramètres du modèle on
cherche à minimiser la somme des carrés des
erreurs
? Pourquoi utiliser les carrés?
11Estimation des paramètres
? Il existe une formule générale basée sur
l'expression matricielle du problème
? L'existence et la multiplicité des solutions
dépendent des propriétés algébriques de X
? Rang de X et nombre de paramètres
12Tests
Trt 1
Trt 2
Trt 3
? Le traitement a un effet significatif si la
variabilité due au traitement est
suffisamment élevée par rapport à la
variabilité résiduelle
? Sous H0
13Notion de degré de liberté ANOVA un facteur, 3
modalités
4
5
4
Trt 1
Trt 2
Trt 3
? Degré de liberté pour le modèle nb de
paramètres à estimer-1 3 -1 2
? Degré de liberté total nb observations-1
544-112
? Degré de liberté résiduel dl total dl
modèle10
14Degré de liberté
? Plus on estime de paramètres plus la
variabilité intra (expliquée) augmente /
variabilité inter (résiduelle)
? A l'extrême si on estime autant de paramètres
que d'observation le modèle explique toute
la variabilité mais le trt ne peux plus être
significatif parce qu'on divise par le dl
modèle
? Attention au sur-paramétrage, importance du
nombre de répétitions
15PAS DE PANIQUE!!!
16Un exemple de sortie analyse de la densité
apparente du sol des pâturages amazoniens
17ATTENTION!!!!!!!!!!!
Prévoir le bon dispositif expérimental
Utiliser/prévoir le bon modèle statistique
18ANOVA variable continue f(facteur discret)
Un facteur
Trt 1
Trt 2
Trt 3
Décomposition à volonté de la variance
Supposons le trt1 ayant un effet significatif ?
Quelle information manque-t-il?
? Comparaison multiple de moyenne
19Comparaison de moyenne multiple
Conclusion C, FM gt FP
20La notion d'interaction
Engrais 1
Engrais 2
DL
Herbicide 1
Herbicide 2
Ecriture conventionnelle du modèle ? production
engrais herbicide engrais X herbicide
Problème avec cette représentation du plan
d'expérience
21Régression variable continue f(variable
continue)
22ANCOVA Analyse de Covariance variable continue
f(facteur discret,variable continue)
Exemple effet de vers de terre sur la biomasse
végétale Ecriture conventionnelle du modèle ?
production engrais vers engrais X vers
23Modèles plus compliqués
? Il existe des modèles adaptés à tous les plans
d'expérience
? Exemple de l'ANOVA hiérarchisée
Parcelle 1
Parcelle 2
Parcelle 3
SOL 1
Parcelle 4
Parcelle 5
Parcelle 6
SOL 2
Ecriture du modèle
? densité sol parcelle X sol
24Le modèle linéaire généralisé
Quel type de variable expliquée n'a pas été
traité?
? Variable qualitative!!
Pourquoi ne pas utiliser un modèle linéaire
classique?
? Les résidus ne peuvent pas suivre une loi
normale ? La variance des résidus ne peut être
constante
Variable binaire
25Estimation et tests
Estimation basée par maximisation de la
vraisemblance par itérations successives
Tests basés sur le chi2
26La régression logistique distribution
binomiale probabilité logistique(variable
continue)
1
Variable qualitative
Variable qualitative
0
Variable explicative x
Variable explicative x
Autres possibilités ? Plus d'une modalité
? Plusieurs variables explicatives
27Analyse logit des tableaux de contingence
distribution binomiale
On échantillonne des individus qui sont classés
en fonction de plusieurs facteurs discrets ?
Comment ces variables influencent-elles la
quantité d'individus trouvés?
? "Analyse de variance" pour variables discrètes
? On peut combiner les variables explicatives
discrètes et continues
28Exemple effet du sexe, du nb de feuille et du
milieu sur la maturité sexuelle d'un palmier
(Barot et al. 2005)
Attalea speciosa Mart. Babaçu
29Résultats
30I Le modèle linéaire II Approche multivariée en
statistique III Utilisation IV Rapprochements
Statistique exploratoire multidimensionnelleLeb
art et al. Dunod 2000 3ième édition
31Type de données
Exemples?
Relevés faune/flore Caractérisation d'espèces Ca
ractérisation du milieu physique
32D'abord un problème de représentation
3 dimensions
?
n dimensions
33Initialement deux approches
34Résumer un jeu de données compliqués
Comment choisir les axes de projections?
35Classer des observations Classification
hiérarchique
On regroupe 2 à 2 les observations et les groupes
d'observations
2 dimensions à n dimension
Problèmes?
Position des groupes d'observations
36Analyse en Composantes Principales variables
continues
Calcul de distance (p variables)
On choisit F1 de façon à maximiser
F1
F2
Puis F2 ...
37Analyse en Composantes Principales variables
continues
V3
V2
V1
. . . .
0.5
0.1
0.5
. . . .
Obs 1
Obs 2
0.9
0.4
1.9
. . . .
Obs 3
1.9
1.1
. . . .
1.1
Obs 4
. . . .
1.2
0.3
1.9
... .
... .
... .
... .
... .
38Projections dans les plans factoriels (nouveau
repère)
X3
F3
F1
F2
X1
F3
X2
F2
F1
F1
39Le cercle des corrélations
X3
F3
F1
F2
Projections des axes initiaux (variables
observées)
X1
F2
X2
X3
X1
F1
X4
X3
40Passer d'une représentation à l'autre
41Choix du nombre d'axes factoriel
Inertie
Inertie
Axes factoriels
Axes factoriels
Inertie
Axes factoriels
42Analyse Factorielle des Correspondances
variables discrète
V3
V2
V1
. . . .
0
1
0
. . . .
Obs 1
Les colonnes et les lignes jouent un rôle
symétrique!
Obs 2
0
0
1
. . . .
Obs 3
1
1
. . . .
1
Obs 4
. . . .
1
0
0
... .
... .
... .
... .
... .
43Analyse Factorielle des Correspondances
variables discrète
Utilisation de la distance du chi2
44Projection des variables et des observation dans
le même espaces
F2
V3
V1
V2
F1
V4
Observations
45Analyse discriminante
X3
F1
X1
X2
On cherche la combinaison linéaire des variables
continues observées qui "discriminent" le mieux
les observations en fonction d'un critère discret
? Ex Détermination "automatique" d'espèces
46Analyse multi-tableau
Recherche d'une structure commune, Analyse de
coinertie
47I Le modèle linéaire II Approche multivariée en
statistique III Utilisation IV Rapprochements
48Modèle linéaire
? Tests ? Statistiques paramétriques ? Modèles
adaptés pour chaque plan d'expérience /
d'échantillonnage ? Séparation des sources de
variance à volonté
Statistiques multivariées
? Pas de tests, statistiques descriptives ?
Statistiques non paramétriques ? Tient peu compte
du plan d'expérience ? Indispensable pour des
données fondamentalement multivariées
49La réalité est fondamentalement multivariée!!!!
Modèle linéaire
? Parfaitement adapté à la méthode
expérimentale ? Tests planifiés d'hypothèses
simples ? On connaît a priori les facteurs clefs
Statistiques multivariées
? Méthodes exploratoires ? On connaît mal le
système étudié
50I Le modèle linéaire II Approche multivariée en
statistique III Utilisation IV
Rapprochements Le mutltivarié et le modèle
linéaire on tendance à converger
51ANOVA après une analyse multivariée
? On effectue une expérience ? On mesure de
nombreuses variables dans chaque unités
expérimentales ? On ne sait pas a priori quelle
est la variable la plus sensible aux
différents traitements ni comment les
variables covarient ? On effectue une Analyse en
Composantes Principales sur l'ensemble de
variables ? On applique un modèle linéaire
classique aux coordonnés suivant les
premiers axes factoriels
52MANOVA Analyse de Variance Multivariée
? On applique le même modèle d'ANOVA à toutes les
variables mesurées ? Il existe un test
composite testant l'effet global des facteurs
inclus dans l'ANOVA sur l'ensemble des
variables
53Tests par randomisation
? Test de permutation On souhaite faire une ANOVA
mais la variable ne vérifie pas les hypothèses
(normalité, égalité des variance)
X 1000
ANOVA
Variable
Traitement
A
0.4
1000 valeur de F
B
0.8
Permutations aléatoires
A
0.6
B
0.4
A
0.3
5
...
...
Fréquence
F
? Rééchantillonnage
54Tests de permutation en analyse multivariée
Variables
Traitement
On regarde dans quel cas la somme des "inerties"
par traitement est la plus faible
A
...
0.4
0.4
1000 Permutations aléatoires
B
0.8
0.8
A
0.6
0.6
B
0.4
...
0.4
0.3
A
0.3
..
..
X3
X3
F1
F1
X1
X1
X2
X2
Permuté
Observé
55Experience augmenter la biodiversité dans les
pâturages amazoniens
56Experience augementer la biodiversité dans les
pâturages amazoniens
Légumineuse
Herbacée
A Arachis pintoi
B Brachiaria brizantha pasture Poaceae
Ligneuse
L Leucaena leucocephala
S Solanum rugosum
57- Dsispositif expérimental
- ? Toutes combinaisons de 1, 2,3 ou 4 espèces
17 parcelles, 10 X 10 m chacune
Pas de bétail
Bétail
? Dispositif répété 3 fois, dans 3 pâturages
? Plusieurs répétitions pour toutes les variables
mesurées dans chaque parcelle macrofaune,
sol ...
58Traitements
ort
dip
hem
iso
div
col
lar
gas
for
chi
ara
ver
ter
Plt0.01
59Pâturages
Plt 0.01
60Biodiversité
Plt0.13
61Possibilité de faire des statistiques univariées
sur les mêmes données?
Intérêt de faire des statistiques univariées?