Title: Ma
1(No Transcript)
2Programmes de maîtrise et de doctorat en
démographieModèles de risque et de duréeCours
7Séance du 14 mars 2013
Benoît Laplante, professeur
3Lanalyse de la causalité
- Expérimentation, observation et causalité
- La décomposition de la variance
- Létude des relations entre plusieurs variables
4Expérimentation, observation et causalité
- On utilise un modèle linéaire lorsque lon juge
raisonnable de représenter leffet dune variable
indépendante sur une variable dépendante par une
relation linéaire. - Dans ce contexte, linéaire veut dire
- proportionnel et
- additif.
5Expérimentation, observation et causalité
- En sciences sociales, on distingue habituellement
deux objectifs différents de la modélisation
statistique - prédire et
- expliquer.
- Si lobjectif est de prédire, on cherche à
construire léquation qui prédit le mieux la
variable dépendante. - On cherche à maximiser lajustement ou la
proportion de variance expliquée et on ne se
préoccupe pas de la précision ou de la qualité de
lestimation des effets des variables
indépendantes. - Si lobjectif est dexpliquer, les choses sont
plus compliquées.
6Expérimentation, observation et causalité
- Si lobjectif est dexpliquer, les choses sont
plus compliquées. - On sintéresse aux effets des variables
indépendantes et donc - on se préoccupe de la précision et de la
qualité de lestimation de leurs effets. - Le problème tient au fait quen sciences
sociales, on utilise généralement des données qui
sont recueillies par lobservation plutôt que par
lexpérimentation. - Tout le problème de létude des processus sociaux
au moyen des méthodes statistiques tient au fait
que les données quon y utilise ne sont pas le
résultat de la manipulation expérimentale, mais
celui de lobservation. - Les relations empiriques que lon constate entre
les caractères dans la population sont le produit
des processus que lon étudie et non de la
manipulation expérimentale.
7Expérimentation, observation et causalité
- La méthode expérimentale moderne est due à Claude
Bernard. - En gros, elle consiste à considérer quon peut
établir une relation de cause à effet lorsquon
constate que la variation de la variable
dépendante est reliée à la variation dune
variable indépendante unique dont les valeurs
sont fixées par le chercheur et de manière telle
quune autre source potentielle de variation de
la variable dépendante ne peut agir sur elle. - On entend souvent que les sciences de
lobservation ne peuvent pas établir des
relations de cause à effet parce quelles
utilisent des données qui ne sont pas le fruit de
la manipulation expérimentale et on en renvoie
notamment à Claude Bernard pour sen convaincre. - Le fait est que la pensée de Claude Bernard est
autrement plus nuancée.
8(No Transcript)
9(No Transcript)
10BERNARD, Claude. Introduction à l'étude de la
médecine expérimentale Paris J.-B. Baillière,
1865. (p. 28-32).
11Expérimentation, observation et causalité
- Dans Le Suicide, Durkheim suit une démarche qui
sapparente à celle que décrit Bernard, mais pour
des données qui résultent de lobservation. - Il sassure de lexistence du lien entre deux
variables en examinant leur relation à
lintérieur des modalités dune autre variable.
Au sens moderne, il examine la relation entre
deux variables en posant quelle peut être
conditionnelle à leffet dune troisième. - On trouve une démarche analogue chez Weber. Elle
sera systématisée par P. Lazarsfeld. - On peut appliquer cette démarche aux relations
estimées au moyen de modèles linéaires.
12Expérimentation, observation et causalité
- Cette démarche est également ce qui fonde
notamment - le path analysis du biologiste Sewall Wright, dès
1921, - The American occupational structure de P. Blau et
M. Duncan, en 1967, - Constructing social theories dArthur Stinchcombe
en 1968. - ainsi que
- Causality de Judea Pearl en 2000.
Wright, S. 1921. Correlation and causation .
Journal of Agricultural Research, 20,
557-585. Wright, S. 1934. The method of path
coefficients . Annals of Mathematical
Statistics, 5(3), 161-215.
13Expérimentation, observation et causalité
- Le path analysis de S. Wright
14Expérimentation, observation et causalité
- Le XXe siècle a connu le développement des
méthodes qui permettent létude des processus
sociaux en se fondant sur la modélisation des
relations complexes dans lensemble des sciences
sociales. - Parmi les plus connus, on trouve les systèmes
déquations structurales ( Structural equation
modelling ) qui résultent de la combinaison du
path analysis de S. Wright et de lanalyse
factorielle de Thurstone, et questiment
notamment - le Lisrel de Karl Jöreskog et Dag Sörbom,
- lEQS de Peter Bentler,
- le Mplus de Muthén et Muthén,
- Amos, distribué avec le SPSS dIBM
- proc CALIS de SAS,
- gllamm si on est patient
- depuis lété 2011, -sem- de Stata et depuis lété
2013, -gsem-.
15Expérimentation, observation et causalité
- La fin du XXe siècle a vu le rejet de ces
approches par les économistes, notamment parce
quon leur reprochait - de ne pas estimer des paramètres stables et
- parce quon sest aperçu quil est toujours
possible de proposer au moins deux modèles
différents qui sajustent aux données et - parce que les études fondées sur lobservation
ne peuvent pas permettre détablir des liens de
cause à effet .
Heckman, James J. 2000. Causal parameters and
policy analysis in economics a twentieth century
retrospective The Quarterly Journal of
Economics, 115, 45-97.
16Expérimentation, observation et causalité
- À lheure actuelle, en économétrie, la mode est
- aux expériences et
- aux expériences naturelles.
- Ces approches permettent destimer leffet dune
variable à la fois, mais ne permettent pas
détudier des processus complexes. - Les autres sciences sociales nont pas suivi les
économètres et continuent dutiliser et de
développer des méthodes détudes des systèmes de
relations complexes. - Pearl (2009) propose une synthèse poussée des
développements philosophiques, méthodologiques et
techniques et des conditions qui permettent de
tirer des conclusions valides sur les relations
causales établies notamment à partir de données
recueillies par observation.
Pearl, Judea. 2009. Causality, 2nd edition.
Cambridge University Press, New York.
17Expérimentation, observation et causalité
- Pearl attribue aux statisticiens le refus de
toute interprétation causale des liens entre
variables observées. - Il montre de manière assez convaincante que le
refus de la causalité remonte à K. Pearson et - que la seule forme dinterprétation causale
légitime dans le monde de la statistique est
celle qui se démontre au moyen de lexpérience
aléatoire au sens de R. Fisher. - Les économistes se sont simplement ralliés à
cette vison. - On peut lire un dialogue imaginaire entre un
étudiant qui soutient sa thèse et un examinateur
externe statisticien assez amusant à lurl
suivant - http//bayes.cs.ucla.edu/BOOK-2K/jw.html
18La décomposition de la variance
- On représente la variance dune variable par un
surface, généralement un cercle. - On représente les relations entre deux variables
en superposant les cercles qui représentent la
variance de chacune.
La représentation graphique des covariances
19La décomposition de la variance
- La portion du cercle de la variable indépendante
qui se superpose au cercle de la variable
dépendante sans se superposer à celui de lautre
variable indépendante représente leffet net de
la variable indépendante sur la variable
dépendante.
Les effets bruts et les effets nets
20La décomposition de la variance en analyse de la
variance
- Lanalyse de la variance a été inventée par R.
Fisher (1921). - Elle a été développée à lorigine pour étudier
les causes de la variation dun caractère
quantitatif selon les modalités dun caractère
qualitatif en situation expérimentale. - On peut voir lanalyse de la variance comme la
généralisation du test de différence des moyennes
au cas où le caractère qualitatif a plus de deux
modalités. - Elle a été généralisée au cas de plusieurs
caractères qualitatifs, toujours en situation
expérimentale.
Fisher, R. 1921. Studies in Crop Variation. I.
An examination of the yield of dressed grain from
Broadbalk . Journal of Agricultural Science, 11,
107-135.
21La décomposition de la variance en analyse de la
variance
- La décomposition de la variance de lanalyse de
la variance repose sur le fait que par
définition, en situation expérimentale, les
variables indépendantes ne sont pas
corrélées. - On peut donc décomposer exactement la variance de
la variable dépendante en - variance interclasses (ou variance des moyennes
conditionnelles), c.-à-d. la variance de la
variable dépendante qui provient de la différence
entre les moyennes de cette variable calculée
dans les classes qui correspondent aux
différentes modalités de la variable indépendante
et en - variance intraclasses (ou moyenne des variances
conditionnelles), c.-à-d. la variance de la
variable dépendante au sein de chacune des
classes qui correspondent aux différentes
modalités de la variable indépendante et qui est
comprise comme la variance résiduelle ou
inexpliquée.
22La décomposition de la variance en analyse de la
variance
- Lorsquon utilise lanalyse de la variance avec
deux variables indépendantes - et que lon croit que les effets des deux
variables indépendantes ne sont pas
simplement additifs, - on peut construire ce qui se nomme une
interaction dans le jargon de lanalyse de la
variance et quon nomme plus proprement une
relation conditionnelle. - Techniquement, la relation conditionnelle est
représentée en ajoutant les produits des
variables dichotomiques qui représentent les
modalités des variables indépendantes - et réalisée en décomposant la variance comme
dans le cas plus simple, - mais entre toutes les modalités générées par la
construction des produits.
23La décomposition de la variance en analyse de la
variance
- Se pose alors un problème qui nexiste pas
lorsquon nutilise que les variables
indépendantes originales - Par définition, les variables indépendantes
originales ne sont pas corrélées. - Par contre, les produits des variables
indépendantes sont corrélés aux variables
indépendantes dont ils sont les produits. - À cause de cette corrélation, on ne peut plus
attribuer de manière certaine chaque portion de
la variance de la variable dépendante à une
modalité (ou une combinaison de modalités) des
variables originales.
24La décomposition de la variance en analyse de la
variance
- Lanalyse de la variance résout ce problème grâce
à une convention. - La variance commune
- à une modalité qui résulte du produit des
modalités de deux variables originales et - à une modalité dune variable originale
- est attribuée à la modalité de la variable
originale.
25La décomposition de la variance en analyse de la
variance
- Cette convention permet de résoudre le problème
de la relation conditionnelle dans lanalyse de
la variance - En permettant de construire un test qui compare
- la quantité de la variance de la variable
dépendante qui est expliquée par les seules
variables indépendantes à - la quantité de la variance de la variable
dépendante qui est expliquée par les variables
indépendantes et leur interaction . - Si la quantité de variance qui est expliquée par
les variables indépendantes et leur interaction
est statistiquement supérieure à celle qui est
expliquée par les variables indépendantes seules - on a la preuve que la relation entre les
variables indépendantes et la variable dépendante
nest pas linéaire (additive), mais bien
conditionnelle (multiplicative).
26La décomposition de la variance en régression (et
dans les modèles linéaires en général)
- La régression a été développée principalement
pour étudier des données recueillies par
observation - dans lesquelles les variables indépendantes
sont presque toujours corrélées jusquà un
certain point. - Par définition, en régression, leffet dune
variable indépendante est toujours un effet net. - Ceci signifie que lorsquune portion de la
variance de la variable dépendante ne peut pas
être attribuée à une seule variable indépendante
parce que cette portion est partagée par au moins
deux variables indépendantes qui sont corrélées,
cette portion nest attribuée à aucune variable
indépendante. - On peut donc très bien obtenir une équation de
régression dont le coefficient de détermination
(R2) est élevé alors quaucune des variables
indépendantes na deffet net significatif.
27La décomposition de la variance en régression (et
dans les modèles linéaires en général)
- Lusage de données issues de lobservation pose
toujours le problème de lattribution de la
variance de la variable dépendante à une seule
variable indépendante. - Ce problème peut être nommé de différentes
manières selon les disciplines et selon la
manière dont on lenvisage. - En économétrie, on nomme ce problème
endogénéité lorsquon suppose quil est dû au
fait quune des variables indépendantes a un
effet sur une autre variable indépendante. - La solution la plus générale au problème consiste
à admettre que les processus sociaux sont
complexes, que les variables indépendantes sont
corrélées naturellement et à utiliser des
modèles ou des approches qui permettent de tenir
compte de ce fait.
28Létude des relations entre plusieurs variables
- La corrélation
- La relation bivariée asymétrique
- Les relations trivariées
- Deux causes indépendantes
- Effets dinhibition et de distorsion
- Variable antécédente et variable intermédiaire
- Cause commune ou corrélation fallacieuse
- Relation conditionnelle
29La simple corrélation
- Le cas le plus simple de la relation bivariée
- deux variables sont corrélées sans que lon
présume que lune explique lautre. - Relation symétrique.
- Exemple deux indicateurs de la même variable
latente.
30Une seule variable indépendante
- On pose quune variable en explique une
autre. - Statistiquement, la relation est réciproque.
- La direction de leffet est un choix.
31Deux variables indépendantes ayant des effets
indépendants
- On suppose que deux variables indépendantes
expliquent une variable dépendante - que leurs effets sont additifs et
- que leur corrélation est sans importance.
32Deux variables indépendantes ayant des effets
indépendants
- Les effets bruts ne doivent pas être nuls.
- Les effets nets ne doivent pas être nuls.
- Les effets nets ne doivent pas être
significativement différents des effets bruts.
33Deux variables indépendantes ayant des effets
indépendants
- On peut construire ce genre déquation avec des
modèles de risque. - Voici différentes manières dexprimer la même
chose
34Deux variables indépendantes ayant des effets
indépendants
- Si les effets nets sont significativement
différents des effets bruts, il est probable que
lon se trouve dans un cas de figure différent - où la corrélation entre les deux variables
indépendantes nest pas sans conséquence.
35Inhibition et distorsion
- Il existe des cas spéciaux qui sont des
variations sur le cas des deux variables
indépendantes - Linhibition
- Leffet brut dune variable indépendante est nul,
mais pas son effet net lorsquon contrôle leffet
dune autre variable indépendante. - La distorsion
- Leffet brut dune variable indépendante est dun
signe, mais son effet net est du signe inverse
lorsquon contrôle leffet dune autre variable
indépendante. - Linhibition et la distorsion se produisent
généralement lorsque les deux variables
indépendantes - sont corrélées et
- que leurs effets sur la variable dépendante sont
de signes opposés.
36La variable intermédiaire
- On suppose quune variable indépendante exogène
(parfois dite variable antécédente) exerce son
effet sur la variable dépendante (par définition
endogène) par lintermédiaire dune variable
indépendante endogène (la variable intermédiaire).
37La variable intermédiaire
- Les effets bruts ne doivent pas être nuls.
- Leffet net de la variable antécédente doit être
nul. - Leffet net de la variable intermédiaire ne doit
pas être significativement différent de son
effet brut.
38Interprétation de la variable intermédiaire
- Le secteur en vert représente la covariance de la
variable antécédente (en jaune) et de la variable
dépendante (en bleu). - La variable antécédente (en jaune) a un effet
brut sur la variable dépendante (en bleu) - Elle na pas deffet net lorsquon contrôle
leffet de la variable intermédiaire (en rouge). - Il ne reste plus que leffet net (en mauve) de la
variable intermédiaire.
39La cause commune
- La corrélation entre deux variables est due à ce
que chacune dépend de la même cause. - Cest ce cas que lon nomme corrélation
fallacieuse .
40Interprétation de la cause commune
- Le secteur en vert représente la covariance des
deux variables ( la jaune et la bleue ) qui
dépendent de la même cause - Ce secteur disparaît lorsquon contrôle
leffet de la cause commune (en rouge). - Il ne reste plus que les effets nets (en orange
et en mauve) de la cause commune sur chacune des
deux autres variables.
41La cause commune
- Les effets bruts ne doivent pas être nuls.
- Leffet net de la variable antécédente doit être
nul. - Leffet net de la variable intermédiaire ne doit
pas être significativement différent de son
effet brut. - Autrement dit, les mêmes conditions que pour la
variable intermédiaire. - Les deux cas ne peuvent être distingués que par
la théorie.
42La relation conditionnelle
- Leffet dune variable indépendante sur la
variable dépendante dépend dune autre variable
dépendante.
43La relation conditionnelle
- Le coefficient de cette variable varie selon les
valeurs dune autre variable indépendante.
44La relation conditionnelle
- Autrement dit, leffet de cette variable
indépendante est une fonction de lautre variable
indépendante.
45La relation conditionnelle
- Le test se fait généralement en comparant la
capacité dexplication de léquation qui
correspond aux effets linéaires des variables
indépendantes à la capacité dexplication de
léquation qui correspond à la relation
conditionnelle.
46La relation conditionnelle
- Dans une relation conditionnelle, leffet dune
variable indépendante sur la variable dépendante
est une fonction linéaire dune autre variable
indépendante.
47La relation conditionnelle
48La relation conditionnelle
- On peut mieux comprendre ce que sont les
coefficients dune équation qui comprend une
relation conditionnelle en réfléchissant au
coefficient à partir de sa définition.
49Relation conditionnelle
- Lorsque la relation est conditionnelle, le vrai
coefficient (leffet) de chacune des deux VI
impliquées dans la relation conditionnelle est
une fonction de lautre VI.