Ma - PowerPoint PPT Presentation

1 / 49
About This Presentation
Title:

Ma

Description:

On peut voir l analyse de la variance comme la g n ralisation du test de diff rence des moyennes au cas o le caract re qualitatif a plus de deux modalit s. – PowerPoint PPT presentation

Number of Views:108
Avg rating:3.0/5.0
Slides: 50
Provided by: Beno94
Category:
Tags: analyse | variance

less

Transcript and Presenter's Notes

Title: Ma


1
(No Transcript)
2
Programmes de maîtrise et de doctorat en
démographieModèles de risque et de duréeCours
7Séance du 15 mars 2013
Benoît Laplante, professeur
3
Lanalyse de la causalité
  • Expérimentation, observation et causalité
  • La décomposition de la variance
  • Létude des relations entre plusieurs variables

4
Expérimentation, observation et causalité
  • On utilise un modèle linéaire lorsque lon juge
    raisonnable de représenter leffet dune variable
    indépendante sur une variable dépendante par une
    relation linéaire.
  • Dans ce contexte, linéaire veut dire
  • proportionnel et
  • additif.

5
Expérimentation, observation et causalité
  • En sciences sociales, on distingue habituellement
    deux objectifs différents de la modélisation
    statistique
  • prédire et
  • expliquer.
  • Si lobjectif est de prédire, on cherche à
    construire léquation qui prédit le mieux la
    variable dépendante.
  • On cherche à maximiser lajustement ou la
    proportion de variance expliquée et on ne se
    préoccupe pas de la précision ou de la qualité de
    lestimation des effets des variables
    indépendantes.
  • Si lobjectif est dexpliquer, les choses sont
    plus compliquées.

6
Expérimentation, observation et causalité
  • Si lobjectif est dexpliquer, les choses sont
    plus compliquées.
  • On sintéresse aux effets des variables
    indépendantes et donc
  • on se préoccupe de la précision et de la
    qualité de lestimation de leurs effets.
  • Le problème tient au fait quen sciences
    sociales, on utilise généralement des données qui
    sont recueillies par lobservation plutôt que par
    lexpérimentation.
  • Tout le problème de létude des processus sociaux
    au moyen des méthodes statistiques tient au fait
    que les données quon y utilise ne sont pas le
    résultat de la manipulation expérimentale, mais
    celui de lobservation.
  • Les relations empiriques que lon constate entre
    les caractères dans la population sont le produit
    des processus que lon étudie et non de la
    manipulation expérimentale.

7
Expérimentation, observation et causalité
  • La méthode expérimentale moderne est due à Claude
    Bernard.
  • En gros, elle consiste à considérer quon peut
    établir une relation de cause à effet lorsquon
    constate que la variation de la variable
    dépendante est reliée à la variation dune
    variable indépendante unique dont les valeurs
    sont fixées par le chercheur et de manière telle
    quune autre source potentielle de variation de
    la variable dépendante ne peut agir sur elle.
  • On entend souvent que les sciences de
    lobservation ne peuvent pas établir des
    relations de cause à effet parce quelles
    utilisent des données qui ne sont pas le fruit de
    la manipulation expérimentale et on en renvoie
    notamment à Claude Bernard pour sen convaincre.
  • Le fait est que la pensée de Claude Bernard est
    autrement plus nuancée.

8
(No Transcript)
9
(No Transcript)
10
BERNARD, Claude. Introduction à l'étude de la
médecine expérimentale Paris J.-B. Baillière,
1865. (p. 28-32).
11
Expérimentation, observation et causalité
  • Dans Le Suicide, Durkheim suit une démarche qui
    sapparente à celle que décrit Bernard, mais pour
    des données qui résultent de lobservation.
  • Il sassure de lexistence du lien entre deux
    variables en examinant leur relation à
    lintérieur des modalités dune autre variable.
    Au sens moderne, il examine la relation entre
    deux variables en posant quelle peut être
    conditionnelle à leffet dune troisième.
  • On trouve une démarche analogue chez Weber. Elle
    sera systématisée par P. Lazarsfeld.
  • On peut appliquer cette démarche aux relations
    estimées au moyen de modèles linéaires.

12
Expérimentation, observation et causalité
  • Cette démarche est également ce qui fonde
    notamment
  • le path analysis du biologiste Sewall Wright, dès
    1921,
  • The American occupational structure de P. Blau et
    M. Duncan, en 1967,
  • Constructing social theories dArthur Stinchcombe
    en 1968.
  • ainsi que
  • Causality de Judea Pearl en 2000.

Wright, S. 1921. Correlation and causation .
Journal of Agricultural Research, 20,
557-585. Wright, S. 1934. The method of path
coefficients . Annals of Mathematical
Statistics, 5(3), 161-215.
13
Expérimentation, observation et causalité
  • Le path analysis de S. Wright

14
Expérimentation, observation et causalité
  • Le XXe siècle a connu le développement des
    méthodes qui permettent létude des processus
    sociaux en se fondant sur la modélisation des
    relations complexes dans lensemble des sciences
    sociales.
  • Parmi les plus connus, on trouve les systèmes
    déquations structurales ( Structural equation
    modelling ) qui résultent de la combinaison du
     path analysis  de S. Wright et de lanalyse
    factorielle de Thurstone, et questiment
    notamment
  • le Lisrel de Karl Jöreskog et Dag Sörbom,
  • lEQS de Peter Bentler,
  • le Mplus de Muthén et Muthén,
  • Amos, distribué avec le SPSS dIBM
  • proc CALIS de SAS,
  • gllamm si on est patient
  • et depuis lété 2011, -sem- de Stata.

15
Expérimentation, observation et causalité
  • La fin du XXe siècle a vu le rejet de ces
    approches par les économistes, notamment parce
    quon leur reprochait
  • de ne pas estimer des paramètres stables et
  • parce quon sest aperçu quil est toujours
    possible de proposer au moins deux modèles
    différents qui sajustent aux données et
  •  parce que les études fondées sur lobservation
    ne peuvent pas permettre détablir des liens de
    cause à effet .

Heckman, James J. 2000. Causal parameters and
policy analysis in economics a twentieth century
retrospective The Quarterly Journal of
Economics, 115, 45-97.
16
Expérimentation, observation et causalité
  • À lheure actuelle, en économétrie, la mode est
  • aux expériences et
  • aux expériences naturelles.
  • Ces approches permettent destimer leffet dune
    variable à la fois, mais ne permettent pas
    détudier des processus complexes.
  • Les autres sciences sociales nont pas suivi les
    économètres et continuent dutiliser et de
    développer des méthodes détudes des systèmes de
    relations complexes.
  • Pearl (2009) propose une synthèse poussée des
    développements philosophiques, méthodologiques et
    techniques et des conditions qui permettent de
    tirer des conclusions valides sur les relations
    causales établies notamment à partir de données
    recueillies par observation.

Pearl, Judea. 2009. Causality, 2nd edition.
Cambridge University Press, New York.
17
Expérimentation, observation et causalité
  • Pearl attribue aux statisticiens le refus de
    toute interprétation causale des liens entre
    variables observées.
  • Il montre de manière assez convaincante que le
    refus de la causalité remonte à K. Pearson et
  • que la seule forme dinterprétation causale
     légitime dans le monde de la statistique est
    celle qui se démontre au moyen de lexpérience
    aléatoire au sens de R. Fisher.
  • Les économistes se sont simplement ralliés à
    cette vison.
  • On peut lire un dialogue imaginaire entre un
    étudiant qui soutient sa thèse et un examinateur
    externe statisticien assez amusant à lurl
    suivant
  • http//bayes.cs.ucla.edu/BOOK-2K/jw.html

18
La décomposition de la variance
  • On représente la variance dune variable par un
    surface, généralement un cercle.
  • On représente les relations entre deux variables
    en superposant les cercles qui représentent la
    variance de chacune.

La représentation graphique des covariances
19
La décomposition de la variance
  • La portion du cercle de la variable indépendante
    qui se superpose au cercle de la variable
    dépendante sans se superposer à celui de lautre
    variable indépendante représente leffet net de
    la variable indépendante sur la variable
    dépendante.

Les effets bruts et les effets nets
20
La décomposition de la variance en analyse de la
variance
  • Lanalyse de la variance a été inventée par R.
    Fisher (1921).
  • Elle a été développée à lorigine pour étudier
    les causes de la variation dun caractère
    quantitatif selon les modalités dun caractère
    qualitatif en situation expérimentale.
  • On peut voir lanalyse de la variance comme la
    généralisation du test de différence des moyennes
    au cas où le caractère qualitatif a plus de deux
    modalités.
  • Elle a été généralisée au cas de plusieurs
    caractères qualitatifs, toujours en situation
    expérimentale.

Fisher, R. 1921. Studies in Crop Variation. I.
An examination of the yield of dressed grain from
Broadbalk . Journal of Agricultural Science, 11,
107-135.
21
La décomposition de la variance en analyse de la
variance
  • La décomposition de la variance de lanalyse de
    la variance repose sur le fait que par
    définition, en situation expérimentale, les
     variables indépendantes  ne sont pas
    corrélées.
  • On peut donc décomposer exactement la variance de
    la variable dépendante en
  • variance interclasses (ou variance des moyennes
    conditionnelles), c.-à-d. la variance de la
    variable dépendante qui provient de la différence
    entre les moyennes de cette variable calculée
    dans les classes qui correspondent aux
    différentes modalités de la variable indépendante
    et en
  • variance intraclasses (ou moyenne des variances
    conditionnelles), c.-à-d. la variance de la
    variable dépendante au sein de chacune des
    classes qui correspondent aux différentes
    modalités de la variable indépendante et qui est
    comprise comme la variance résiduelle ou
    inexpliquée.

22
La décomposition de la variance en analyse de la
variance
  • Lorsquon utilise lanalyse de la variance avec
    deux  variables indépendantes 
  • et que lon croit que les effets des deux
     variables indépendantes  ne sont pas
    simplement additifs,
  • on peut construire ce qui se nomme une
     interaction  dans le jargon de lanalyse de la
    variance et quon nomme plus proprement une
    relation conditionnelle.
  • Techniquement, la relation conditionnelle est
    représentée en ajoutant les produits des
    variables dichotomiques qui représentent les
    modalités des variables indépendantes
  • et réalisée en décomposant la variance comme
    dans le cas plus simple,
  • mais entre toutes les modalités générées par la
    construction des produits.

23
La décomposition de la variance en analyse de la
variance
  • Se pose alors un problème qui nexiste pas
    lorsquon nutilise que les  variables
    indépendantes  originales
  • Par définition, les variables indépendantes
    originales ne sont pas corrélées.
  • Par contre, les produits des variables
    indépendantes sont corrélés aux variables
    indépendantes dont ils sont les produits.
  • À cause de cette corrélation, on ne peut plus
    attribuer de manière certaine chaque portion de
    la variance de la variable dépendante à une
    modalité (ou une combinaison de modalités) des
    variables originales.

24
La décomposition de la variance en analyse de la
variance
  • Lanalyse de la variance résout ce problème grâce
    à une convention.
  • La variance commune
  • à une modalité qui résulte du produit des
    modalités de deux variables originales et
  • à une modalité dune variable originale
  • est attribuée à la modalité de la variable
    originale.

25
La décomposition de la variance en analyse de la
variance
  • Cette convention permet de résoudre le problème
    de la relation conditionnelle dans lanalyse de
    la variance
  • En permettant de construire un test qui compare
  • la quantité de la variance de la variable
    dépendante qui est expliquée par les seules
    variables indépendantes à
  • la quantité de la variance de la variable
    dépendante qui est expliquée par les variables
    indépendantes et leur  interaction .
  • Si la quantité de variance qui est expliquée par
    les variables indépendantes et leur interaction
    est statistiquement supérieure à celle qui est
    expliquée par les variables indépendantes seules
  • on a la preuve que la relation entre les
    variables indépendantes et la variable dépendante
    nest pas linéaire (additive), mais bien
    conditionnelle (multiplicative).

26
La décomposition de la variance en régression (et
dans les modèles linéaires en général)
  • La régression a été développée principalement
    pour étudier des données recueillies par
    observation
  • dans lesquelles les variables indépendantes
    sont presque toujours corrélées jusquà un
    certain point.
  • Par définition, en régression, leffet dune
    variable indépendante est toujours un effet net.
  • Ceci signifie que lorsquune portion de la
    variance de la variable dépendante ne peut pas
    être attribuée à une seule variable indépendante
    parce que cette portion est partagée par au moins
    deux variables indépendantes qui sont corrélées,
    cette portion nest attribuée à aucune variable
    indépendante.
  • On peut donc très bien obtenir une équation de
    régression dont le coefficient de détermination
    (R2) est élevé alors quaucune des variables
    indépendantes na deffet net significatif.

27
La décomposition de la variance en régression (et
dans les modèles linéaires en général)
  • Lusage de données issues de lobservation pose
    toujours le problème de lattribution de la
    variance de la variable dépendante à une seule
    variable indépendante.
  • Ce problème peut être nommé de différentes
    manières selon les disciplines et selon la
    manière dont on lenvisage.
  • En économétrie, on nomme ce problème
     endogénéité  lorsquon suppose quil est dû au
    fait quune des variables indépendantes a un
    effet sur une autre variable indépendante.
  • La solution la plus générale au problème consiste
    à admettre que les processus sociaux sont
    complexes, que les variables indépendantes sont
    corrélées  naturellement  et à utiliser des
    modèles ou des approches qui permettent de tenir
    compte de ce fait.

28
Létude des relations entre plusieurs variables
  • La corrélation
  • La relation bivariée asymétrique
  • Les relations trivariées
  • Deux causes  indépendantes 
  • Effets dinhibition et de distorsion
  • Variable antécédente et variable intermédiaire
  • Cause commune ou corrélation fallacieuse
  • Relation conditionnelle

29
La simple corrélation
  • Le cas le plus simple de la relation bivariée
  • deux variables sont corrélées sans que lon
    présume que lune explique lautre.
  • Relation symétrique.
  • Exemple deux indicateurs de la même variable
    latente.

30
Une seule variable indépendante
  • On pose quune variable en  explique  une
    autre.
  • Statistiquement, la relation est réciproque.
  • La direction de leffet est un choix.

31
Deux variables indépendantes ayant des effets
indépendants
  • On suppose que deux variables indépendantes
    expliquent une variable dépendante
  • que leurs effets sont additifs et
  • que leur corrélation est sans importance.

32
Deux variables indépendantes ayant des effets
indépendants
  • Les effets bruts ne doivent pas être nuls.
  • Les effets nets ne doivent pas être nuls.
  • Les effets nets ne doivent pas être
     significativement  différents des effets bruts.

33
Deux variables indépendantes ayant des effets
indépendants
  • On peut construire ce genre déquation avec des
    modèles de risque.
  • Voici différentes manières dexprimer la même
    chose

34
Deux variables indépendantes ayant des effets
indépendants
  • Si les effets nets sont  significativement 
    différents des effets bruts, il est probable que
    lon se trouve dans un cas de figure différent
  • où la corrélation entre les deux variables
    indépendantes nest pas sans conséquence.

35
Inhibition et distorsion
  • Il existe des cas  spéciaux  qui sont des
    variations sur le cas des deux variables
    indépendantes
  • Linhibition
  • Leffet brut dune variable indépendante est nul,
    mais pas son effet net lorsquon contrôle leffet
    dune autre variable indépendante.
  • La distorsion
  • Leffet brut dune variable indépendante est dun
    signe, mais son effet net est du signe inverse
    lorsquon contrôle leffet dune autre variable
    indépendante.
  • Linhibition et la distorsion se produisent
    généralement lorsque les deux variables
    indépendantes
  • sont corrélées et
  • que leurs effets sur la variable dépendante sont
    de signes opposés.

36
La variable intermédiaire
  • On suppose quune variable indépendante exogène
    (parfois dite variable antécédente) exerce son
    effet sur la variable dépendante (par définition
    endogène) par lintermédiaire dune variable
    indépendante endogène (la variable intermédiaire).

37
La variable intermédiaire
  • Les effets bruts ne doivent pas être nuls.
  • Leffet net de la variable antécédente doit être
    nul.
  • Leffet net de la variable intermédiaire ne doit
    pas être  significativement  différent de son
    effet brut.

38
Interprétation de la variable intermédiaire
  • Le secteur en vert représente la covariance de la
    variable antécédente (en jaune) et de la variable
    dépendante (en bleu).
  • La variable antécédente (en jaune) a un effet
    brut sur la variable dépendante (en bleu)
  • Elle na pas deffet net lorsquon contrôle
    leffet de la variable intermédiaire (en rouge).
  • Il ne reste plus que leffet net (en mauve) de la
    variable intermédiaire.

39
La cause commune
  • La corrélation entre deux variables est due à ce
    que chacune dépend de la même cause.
  • Cest ce cas que lon nomme  corrélation
    fallacieuse .

40
Interprétation de la cause commune
  • Le secteur en vert représente la covariance des
    deux variables ( la jaune  et la bleue ) qui
    dépendent de la même cause
  • Ce secteur disparaît lorsquon contrôle
    leffet de la cause commune (en rouge).
  • Il ne reste plus que les effets nets (en orange
    et en mauve) de la cause commune sur chacune des
    deux autres variables.

41
La cause commune
  • Les effets bruts ne doivent pas être nuls.
  • Leffet net de la variable antécédente doit être
    nul.
  • Leffet net de la variable intermédiaire ne doit
    pas être  significativement  différent de son
    effet brut.
  • Autrement dit, les mêmes conditions que pour la
    variable intermédiaire.
  • Les deux cas ne peuvent être distingués que par
    la théorie.

42
La relation conditionnelle
  • Leffet dune variable indépendante sur la
    variable dépendante dépend dune autre variable
    dépendante.

43
La relation conditionnelle
  • Le coefficient de cette variable varie selon les
    valeurs dune autre variable indépendante.

44
La relation conditionnelle
  • Autrement dit, leffet de cette variable
    indépendante est une fonction de lautre variable
    indépendante.

45
La relation conditionnelle
  • Le  test  se fait généralement en comparant la
    capacité dexplication de léquation qui
    correspond aux effets  linéaires  des variables
    indépendantes à la capacité dexplication de
    léquation qui correspond à la relation
    conditionnelle.

46
La relation conditionnelle
  • Dans une relation conditionnelle, leffet dune
    variable indépendante sur la variable dépendante
    est une fonction linéaire dune autre variable
    indépendante.

47
La relation conditionnelle
48
La relation conditionnelle
  • On peut mieux comprendre ce que sont les
    coefficients dune équation qui comprend une
    relation conditionnelle en réfléchissant au
    coefficient à partir de sa définition.

49
Relation conditionnelle
  • Lorsque la relation est conditionnelle, le vrai
    coefficient (leffet) de chacune des deux VI
    impliquées dans la relation conditionnelle est
    une fonction de lautre VI.
Write a Comment
User Comments (0)
About PowerShow.com