Title: Statistiques, licence
1Statistiques, licence
2Analyse de variance pour plans factoriels
3Plan de la séance
- Quand utiliser lanova factorielle ?
- Les différents effets
- Exemple Eysenck again
- Comment utiliser lanova factorielle ?
- Interprétation
- Exemple par ordinateur
41. Quand ?
- Situation, conditions dapplication, modèle
sous-jacent
5Situation statistique
- On utilise lanalyse factorielle de variance
quand on dispose de - Deux facteurs catégoriels
- Une variable quantitative
- Et que lon cherche un lien entre les VI et la VD
- Il est nécessaire davoir plusieurs valeurs de la
VD pour chaque couple de niveaux des VI
- Il est préférable davoir des groupes de même
taille. Si ce nest pas le cas, les procédures
diffèrent légèrement (en particulier pour les
tests Post Hoc) - Les observations doivent être indépendantes.
6Présentation des données
cellule
La cellule comporte 8 individus. Elle correspond
à un niveau de F1 (A) et de F2 (d).
7Conditions dapplication
- On vérifiera quil est raisonnable de supposer
les variances égales, par exemple grâce au test
de Levene. - On vérifie que les observations sont bien
indépendantes
- On supposera que la VD (X) est normale dans
chaque cellule si on a des raisons de poser cette
hypothèses. Sinon, on pourra utiliser un test de
Kolmogorov-Smirnov.
82. Les différents effets
9Généralités
- Contrairement au cas de lanova simple, nous
pouvons ici étudier de nombreux  effets - On appelle  effet la variation de la VD
(désormais X) attribuée à un facteur ou à une
 cause particulière - Lajout dune seconde variable indépendante
complique énormément les données, mais les
enrichit également
10Effets principaux
- On peut étudier leffet de lun des deux facteurs
(disons F1) sur X, en prenant en compte
lensemble de léchantillon. - On est ainsi ramené presque à une analyse de
variance simple. - Cependant, si on peut attribuer une partie de la
variation indifféremment à F1 et F2, on
nobtiendra pas les mêmes résultats. - On parle dans ce cas deffet principal de F1.
11Effets simples
- On peut également étudier leffet de F1 pour un
niveau fixé de F2 - Ou de F2 pour un niveau fixé de F1.
- On parle alors deffet simple.
- Là encore, on pourrait se ramener à une analyse
de variance simple, avec les mêmes limites que
pour les effets principaux.
12Remarques
- Ces effets, accessibles quoique différemment
directement par lanova simple, ont rarement
dintérêt seuls. - Les effets combinant les deux variables sont
souvent beaucoup plus instructifs, et en général
nous nétudions queux.
13Effet du croisement
- On appelle croisement des facteurs F1 et F2 la
variable F1xF2 dont les modalités sont les
couples (a,A) de niveaux de F1 et F2
respectivement - Autrement dit, chaque cellule correspond à un
niveau du croisement. - Exemple Si F1 est le bruit et F2 la pollution
visuelle, F1xF2 peut être le  confort , défini
comme la donnée des pollutions sonore et visuelle.
14Effet de linteraction
- Leffet le plus passionnant auquel donne accès
lanova factorielle est leffet de linteraction. - Il est difficile à définir. Nous y reviendrons
plus loin. - Mais il correspond à la trace sur X de ce quon
appelle habituellement une  interaction  .
15Interaction exemple
- Supposons donnés deux médicaments A et B baissant
la température de 1 et 2 degrés respectivement. - Si on prend le médicament A, on passe de 37 Ã
36, de 35 à 34 (très théorique, bien entendu) - Si on prend le médicament B, on passe de 37 Ã
35, de 36 Ã 34, etc.
16Interaction exemple
- Si les deux médicaments ne sont pas en
interaction (et agissent donc indépendamment lun
de lautre), AB baisse la température de 3. - En revanche, si B annule A ou renforce son
action, il y a interaction (positive ou
négative), et AB ne fait pas baisser la
température de 3
17Interaction exemple
- Graphiquement, cela peut se lire assez simplement.
18Interaction exemple
Effet de A sans B (effet simple) 1
Effet simple de B sans A 2.
Effet simple de B avec A 2.
19Interaction exemple
- Dire quil ny a pas interaction (ou que
linteraction na pas deffet sur la
température), cest dire que leffet de AB est
la somme des effets (3) - Cest dire que leffet de B ne dépend pas de la
prise éventuelle de A - Cest dire que les deux courbes représentant les
liens simples de B sur X (température) sont
parallèles.
20Interaction exemple
Interaction positive ayant un effet sur la baisse
de température
21Interaction exemple
Interaction négative ayant un effet sur la baisse
de température
223. Létude dEysenck
23Présentation
- Létude dEysenck étudiait en réalité, en plus de
la profondeur de traitement, lâge des sujets. - Il y avait deux groupes de sujets  jeune et
 âgé . - Nous avons étudié avec lanova simple le cas des
sujets jeunes il sagit en fait de létude dun
effet simple
24Situation
- Nous avons en effet ici une VD numérique X
(nombre de mots rappelés) - Et deux facteurs catégoriels C (condition de
rétention, ou groupe, ou profondeur de
traitement) et A (âge) - Létude du groupe jeune était donc létude de
leffet de C sur X pour le niveau  jeune de la
VI A.
25Données
26Données
274. Utilisation de lanova
28Principe
- Le principe est le même que pour lanova simple
on raisonne sur les SC et les CM, qui se
calculent comme précédemment - La décomposition est un peu différente.
- Les dl se décomposent toujours de la même manière
que les SC
29Décomposition des dl
Nombre de groupes pour A
30Remarques
- La décomposition des SC est exactement la même
- Pour calculer les SC Ã la main, il faudrait
refaire le raisonnement valable en anova simple,
cest-à -dire considérer des groupes que lon
compare. - Bien entendu, on laissera lordinateur soccuper
de tout ça.
31SC(total)
- Le SC total est la variation totale, on lobtient
en comparant les 100 (N) valeurs de X. - Les groupes sont de taille 1, et les sommes sont
simplement les valeurs.
32SC(AxC)
- Il sagit de la variation due aux deux facteurs
pris simultanément, donc entre les cellules. - Les groupes sont de taille 10, et les sommes sont
les totaux de cellules
33SC(erreur)
- Il sagit du terme derreur
- Il sobtient par différence, tout simplement
34SC(A)
- Cest la variation due à lâge on compare donc
les deux groupes dâge - Si bien que la taille des groupes est de 50, et
les totaux sont donnés en dernière colonne
35SC(C)
- Cest la variation due à la condition on
compare donc les cinq groupes de rétention - Si bien que la taille des groupes est de 20, et
les totaux sont donnés en dernière ligne
36SC(AC)
- Cest la variation due à linteraction entre
lâge et la condition. - Elle sobtient très facilement par différence
37Répartition des SC
38Présentation des résultats
On divise toujours par CM(erreur).
395. Interprétation
40Les F
- Chaque F est calculé en divisant un CM par le
CM(erreur). - Les degrés de liberté pour le numérateur et le
dénominateur sont donnés dans le tableau résumé - Les tables de F se lisent comme pour le cas
simple.
41Interprétation
- Dans notre cas, les trois F sont significatifs Ã
5 - Donc nous pouvons écrire
42!!!!
- On peut affirmer au risque de 5, que lâge a un
effet sur la rétention (i.e. le nombre moyen de
mots rappelés diffère selon lâge) - On peut affirmer au risque de 5 que la
profondeur de traitement (i.e. la condition) a un
effet sur X - On peut affirmer au risque de 5 que
linteraction de lâge et de la profondeur de
traitement a un effet sur X, ce qui signifie que
la condition na pas le même effet pour les
sujets des groupes  jeune et  âgé .
43!!!!
- Mais on ne peut pas dire
-  Au risque de 5, on a prouvé que A, C et
linteraction ont un effet sur X.Â
44Erreur de lensemble
- Intuitivement, si la probabilité derreur Ã
chacune des trois propositions est de 5, il y a
une probabilité supérieure à 5  de se tromperÂ
sur la conjonction des trois (on appelle
conjonction des deux hypothèses A et B
lhypothèse  A et B ) - On pourra considérer, dans les cas courants, que
le risque derreur de lensemble (risque de la
conjonction) est la somme des risques
45Erreur de lensemble
- Ici, cela donnerait un risque de
- 15
- Ce qui est beaucoup trop. (Le risque est en fait
un peu différent) - Quand on veut une conclusion composée, il faut
toujours choisir un risque petit (ici, 1 donne
un risque totale denviron 3, ce qui reste
acceptable)
46Remarques
- Il est important de choisir avant lexpérience
(indépendamment des données elles-mêmes) les F Ã
calculer. - Si lon sintéresse, comme cest souvent le cas,
à linteraction, on aurait pu ne calculer que le
F correspondant, soit 5.93. - Calculé avec 4 et 90 dl, il doit être comparé
avec 3.48 pour un risque de 1. - Linteraction de lâge et de la condition a un
effet sur la rétention.
47Quest-ce à dire ?
- Linteraction de lâge et de la profondeur de
traitement a un effet sur la rétention - Comment comprendre ce résultat ?
- Graphiquement, cela signifie que les courbes des
moyennes de X par condition (moyennes
conditionnelles) ne sont par parallèles.
48Quest-ce à dire ?
49Quest-ce à dire ?
- Autrement dit, cela signifie
- Que les effets de lâge et de la condition ne
sadditionnent pas - Que la condition na pas le même effet sur la VD
selon que lon est jeune ou âgé (donc selon les
modalités de lautre facteur) - Ici, le graphique suggère que les personnes plus
âgés appliquent spontanément un traitement
approfondi même quand la consigne ne limpose
pas, ce qui compense pour les premiers groupes la
faiblesse due à lâge.
50Grandeur des effets
- Comme dans le cas simple, on pourra calculer des
rapports de SC pour mesurer la taille de tel ou
tel effet - On parle souvent de taille deffet en pourcentage
du total, - Mais également  indépendamment de lerreur ,
cest-Ã -dire en pourcentage de SC(AxC)
51Grandeur des effets
- Par exemple, dans notre cas, linteraction
explique 7 de la variation totale, car
52Grandeur des effets
- Mais on peut dire également que linteraction
explique 9.8 de la variation totale,
indépendamment de lerreur (cest-à -dire sans
compter la variation que le modèle nexplique
pas)
536. Obésité et dépression
- Coeuret-Pelissier,M. et al. (2002). Association
between obesity and depressive symptoms in
general population. Observatoire des habitudes
alimentaires et du poids.
54Les données
- On relève les facteurs GENRE (féminin, masculin)
et OBESITE (témoin, faible, fort), ainsi que la
variable DEP (score de symptômes dépressifs). - Il sagit dun plan croisé (factoriel) on a 6
groupes distincts. - Les observations sont indépendantes.
- On cherche à déterminer leffet des deux facteurs
sur la VD, ainsi quune éventuelle interaction.
Nous navons pas dhypothèse précise a priori,
qui nous aurait indiqué ce quil faut calculer.
On utilise lanova pour plans factoriels.
55le test de Levene se fonde sur une statistique F.
le test de Levene nest pas significatif (pgt.10),
on peut poser lhypothèse que les variances sont
égales, et donc utiliser lanova (on suppose les
variables normales
56précise le caractère plus ou moins convaincant de
nos conclusions. Restez méfiants.
les effets principaux ainsi que celui de
linteraction sont significatifs.
grandeurs des effets expérimentaux. Les valeurs
sont  partielles car on enlève à chaque fois
les effets annexes. Linteraction a le plus
effet, malgré F.
il y a plusieurs manières de répartir les SC
entre les facteurs. Le type le plus courant est
le type III
interaction
57les obésités témoin et faible ne se distinguent
pas entre elles, mais ce distinguent du groupe
 fort .
les groupes sont formés en utilisant
léchantillon entier, et sont fondés sur les
effets principaux. Il nest pas clair que cela
soit la bonne méthode, puisque linteraction est
significative
le test de Tukey permet de former des groupes
homogènes a posteriori
58il serait intéressant de comparer a posteriori
les groupes fondés sur lobésité en séparant les
genres. On trouverait probablement que lobésité
na pas deffet significatif chez les hommes,
mais en a chez les femmes, ce que laisse
dailleurs penser linteraction.