Title: Ma
1(No Transcript)
2Programmes de maîtrise et de doctorat en
démographieModèles de risque et de duréeCours
4Séance du 31 janvier 2014
Benoît Laplante, professeur
3Les fondements de lanalyse longitudinale
- Définitions
- La logique de la construction dune table
dextinction - construite à partir de micro-données
- et conçue comme un modèle statistique.
- Aperçu de la table comme modèle statistique
- Autres estimateurs de la table
- Lestimateur actuariel
- Lestimateur de Kaplan-Meier
4Définitions
- Événement
- Changement détat, passage de létat dorigine à
un autre état. - Épisode
- Fraction dune biographie pendant laquelle une
unité statistique est à risque de changer détat. - Groupe à risque
- Ensemble des unités (échantillon ou population) à
risque de changer détat dans une analyse. - Entrée dans le groupe à risque
- Moment où une unité devient à risque et est
observée dans cet état au sens de lanalyse. - Sortie du groupe à risque
- Moment où une unité cesse dêtre à fois à risque
et dêtre observée dans cet état au sens de
lanalyse. - On peut sortir du groupe à risque en changeant
détat. - On peut sortir du groupe à risque sans changer
détat. On peut alors entrer de nouveau dans le
groupe à risque. On parle alors dun hiatus.
5Définitions
- Durée (plus exactement, durée du séjour dans
létat dorigine ) - Le temps écoulé entre le temps zéro et le moment
où lunité statistique change détat. - Temps analytique
- Laxe du temps en fonction duquel on étudie la
distribution dun événement. - Plus spécialement, le temps en tant quil est
mesuré à partir du temps zéro. - Temps zéro
- Point zéro de laxe du temps analytique.
- On nétudie habituellement la nuptialité ou la
fécondité quà partir de lâge de 15 ans. - On nétudie la rupture des unions quà partir du
moment de leur formation. - Temps à risque
- Quantité de temps pendant laquelle une unité
statistique est à risque de changer détat. Le
temps à risque dune unité peut être inférieur au
temps quelle passe dans létat dorigine (p. ex.
à cause dun hiatus ou des entrées échelonnées). - Temps passé à risque, généralement au cours dun
intervalle, par lensemble des unités qui forment
le groupe à risque en ce sens, le temps à risque
est le dénominateur dun taux.
6La logique de la construction dune table comme
modèle statistique
- Imaginons quon sintéresse à la naissance du
premier enfant chez les femmes canadiennes et
quon dispose des données dune enquête
biographique, par exemple celles de lEnquête sur
les transitions familiales de 2006. - Règle générale, on étudiera le phénomène dans le
sous-échantillon des femmes âgées de 15 à 80 ans
au moment de lenquête. - On élimine les femmes âgées de 80 ans ou plus
parce quon ne connaît pas leur âge exact à
lenquête (ce ne serait pas un problème dans ce
cas-ci, mais cest la pratique). - On étudie le phénomène jusquà lâge de 40
- On le fait habituellement jusquà 45 ou 50 ans,
mais on se limite ici à 40 ans pour conserver la
lisibilité du tableau.
7La logique de la construction dune table comme
modèle statistique
- Formellement, on cherche donc à connaître la
distribution théorique de la variable aléatoire T
à partir de sa distribution statistique dans
léchantillon de lEnquête sur les transitions
familiales. - On peut interpréter la distribution de la
variable qui nous intéresse de deux manières - lâge de la mère à la naissance de son premier
enfant (donc lâge de la mère au moment de
lévénement que nous étudions) ou bien - le nombre de premières naissances survenues au
cours de chaque intervalle de classe de la
variable Âge de la mère .
8Lâge à la naissance du premier enfant Enquête
sociale générale de 2006. Femmes âgées de 15 à
80 ans au moment de lenquête
nt le nombre des femmes qui donnent naissance à leur premier enfant à lâge t
ft la proportion des femmes qui donnent naissance à leur premier enfant à lâge t
Ft la proportion des femmes qui donnent naissance à leur premier enfant au plus tard à lâge t
nt le nombre des premières naissances au cours de lintervalle t
ft la proportion des premières naissances qui surviennent au cours de lintervalle t
Ft la proportion des premières naissances survenues depuis lorigine de la table à la fin de lintervalle t
9La logique de la construction dune table comme
modèle statistique
- Aucune des deux interprétations ne permet
darriver à la conclusion que la distribution
statistique de la variable T représente de
manière raisonnable la distribution théorique du
phénomène qui nous intéresse. - Peu importe linterprétation, la distribution ne
contient dinformation que sur la fécondité des
femmes qui ont eu leur premier enfant entre 15 et
40 ans. Elle ne nous apprend rien de la fécondité
des femmes qui nont pas eu denfant avant 40
ans, alors que cette information est essentielle
pour connaître la fécondité. - On peut tenter de contourner le problème en
ajoutant à la table les femmes qui nont pas eu
denfant - à lâge quelles avaient atteint au moment où on
a cessé de les observer (c.-à-d. lâge quelles
avaient à lenquête) ou - à lâge au-delà duquel nous ne nous intéressons
plus au phénomène (c.-à-d. 40 ans), - mais cela naméliore pas la lisibilité du
tableau.
10La logique de la construction dune table comme
modèle statistique
11La logique de la construction dune table comme
modèle statistique
- Pour comprendre le problème et sa solution il
faut aborder deux questions - les notions de troncation et de censure et
- les notions de quotient et de taux.
- Il faut également réfléchir aux mouvements de la
population qui perturbent le phénomène que
nous étudions.
12Troncation et censure
- Morice, E. 1968. Dictionnaire de statistique.
Paris Dunod, p. 31. - Morice, E. 1974, Diccionario de estadística.
México CECSA.
13Troncation et censure
- La notion de troncation apparaît dans un article
de Fisher, le père de la statistique
mathématique, où celui-ci traite du problème de
lestimation de la distribution théorique dune
variable à partir dune distribution statistique
obtenue au moyen dun tirage qui ne se fait pas
dans toute létendue de la distribution théorique
de la variable - Fisher, R. A. 1931. The truncated normal
distribution . British Association for the
Advancement of Science, Math. Tables, I, p.
XXXIII-XXXIV. - La notion de censure apparaît pour la première
fois dans un article de A. Hald qui se base sur
larticle de Fisher - Hald, A. 1949. Maximum likelihood estimation of
the parameters of a normal distribution which is
truncated at a known point . Skandinavisk
Aktuarietidskrift , vol. 32, p. 119-132. - Hald introduit le mécanisme quon nommera plus
tard censure, mais nutilise que ladjectif
censuré.
14Troncation et censure
- Censure à droite
- On sait quau moment t, lévénement ne sétait
pas encore produit et on ne sait pas quand il se
produira. - Censure à gauche
- On sait quau moment t, lévénement sétait déjà
produit, mais on ne sait pas exactement à quel
moment. - Censure par intervalles
- On sait que lévénement sest produit entre le
moment t1 et le moment t2, mais on ne sait pas
exactement à quel moment. - Troncation à gauche
- On ne sait rien des événements qui se produisent
avant t. - Troncation à droite
- On ne sait rien des événements qui se produisent
après t ou, ce qui revient au même, on ne connaît
que les événements qui se produisent avant t.
15Troncation et censure
- Au sens de ces définitions, il est tout dabord
évident que les deux distributions sont tronquées
à gauche on exclut de chacune les premières
naissances survenues avant 15 ans. - La première distribution est construite en ne
retenant que les femmes qui ont eu leur premier
enfant après 15 ans et avant 40 ans, et chaque
femme est classée à lâge où elle a eu cet
enfant. En plus dêtre tronquée à gauche, cette
distribution est tronquée à droite, puisquen
plus dexclure les naissances survenues avant 15
ans, elle exclut également les naissances
survenues après 40 ans. - La seconde distribution est construite en
retenant toutes les femmes qui navaient pas eu
leur premier avant 15 ans et en classant chaque
femme soit à lâge où elle a eu son premier
enfant, soit à lâge le plus élevé où elle a été
observée sans avoir eu son premier enfant. En
plus dêtre tronquée à gauche, cette distribution
est censurée à droite les femmes qui nont pas
eu leur premier enfant avant 40 ans ne sont pas
exclues, mais sont classées à la limite
inférieure de la portion de la distribution où se
trouvera lâge auquel elles donneront naissance à
leur premier enfant si elles le font. Puisque
léchantillon est composé de femmes âgées de 15 à
80 ans au moment de lenquête et que les femmes
nullipares sont comptées dans la classe dâge à
laquelle elles appartenaient au moment de
lenquête, la distribution a autant de points de
censure quelle a de classes dâge.
16Troncation et censure
17Troncation et censure
- Le problème se résout en construisant les
fonctions de la distribution théorique de la
variable T non pas à partir de sa distribution de
fréquences comprise comme une approximation de sa
fonction de densité, mais à partir de sa fonction
de risque h(t), approchée par les taux tels quon
peut les estimer pour chaque intervalle de classe
t.
18Quotient et taux
- Au sens général, le mot taux désigne
simplement le rapport de deux quantités. En
démographie, on l'utilise pour désigner trois
types de rapport différents - le rapport entre deux quantités à un moment
donné, - la variation relative dans le temps exprimée
comme un rapport et - l'intensité d'un phénomène définie comme le
rapport entre le nombre des événements et le
temps à risque. - Le taux dactivité, défini comme le rapport entre
la taille de population active et la taille de la
population en âge de travailler, est un rapport
entre deux quantités à un moment donné. Les taux
de ce type peuvent généralement être interprétés
comme des probabilités. Le taux de prévalence de
l'épidémiologie est un taux de ce type. - Le taux daccroissement, par exemple celui de la
population, défini comme le rapport entre, d'une
part, la différence entre la taille de la
population à la fin d'une période et la taille de
la population au début de cette période et,
d'autre part, la taille de la population au début
de la période, est une variation relative dans le
temps exprimée comme un rapport.
19Quotient et taux
- Au sens général, le mot quotient désigne
simplement le résultat de la division d'un nombre
par un autre. - En démographie, on emploie le mot quotient
dans un sens spécial, et presque toujours dans
une table dextinction, pour désigner la
fraction, ou proportion, du groupe à risque ou de
la population à risque au début dun intervalle
qui change d'état au cours de cet intervalle. - Le quotient de la table dextinction est donc
bien un quotient au sens général, mais il est
défini de manière plus étroite. En particulier,
le quotient de la table dextinction est une
fraction et non un simple rapport, ce qui
implique notamment qu'il varie entre 0 et 1. Ceci
implique également que le quotient peut être
interprété comme une probabilité.
20Quotient et taux
- Le taux et le quotient sont liés par une relation
algébrique dont lélément le plus important est
une quantité, la fraction moyenne de lintervalle
qui est passée à risque par les personnes qui
changent détat au cours de cet intervalle on
nomme parfois cette quantité coefficient de
répartition , noté ici at - qt mt / 1 (1 - at)mt
- Cette quantité peut être estimée de manière assez
précise lorsqu'on dispose d'information
détaillée, comme cest habituellement le cas
lorsquon utilise les données d'une enquête. - On doit se contenter dune approximation
lorsquon utilise des données agrégées. On pose
alors le plus souvent que les personnes qui
changent détat le font au centre de
lintervalle, ce qui revient à fixer la valeur du
coefficient de répartition à 0,5. Cette hypothèse
est parfois invraisemblable, par exemple
lorsquon étudie la mortalité infantile on doit
alors utiliser une estimation plus réaliste du
coefficient de répartition, quon emprunte
habituellement à une étude réalisée sur une
population analogue.
21Quotient et taux
- Normalement, le questionnaire biographique mesure
la durée des séjours dans létat dorigine avec
une précision plus grande que la longueur des
intervalles dune table. - Cette précision permet de construire la table à
partir des taux dont les dénominateurs le temps
passé à risque par lensemble des individus à
risque dans chaque intervalle sont mesurés avec
précision. - On trouve le temps total passé à risque au cours
de chaque intervalle dans la colonne rt du
tableau 3. - Le taux est obtenu tout simplement en divisant le
nombre des événements survenus au cours de
lintervalle par la quantité de temps passé à
risque au cours de cet intervalle par lensemble
des individus qui y ont été à risque. On se sert
directement des taux pour calculer la fonction de
risque cumulé H(t).
22Mouvements de la population qui affectent la
composition du groupe à risque
23La logique de la construction dune table comme
modèle statistique
24Aperçu formel de la table comme modèle statistique
T le temps, entendu comme variable
t le temps correspondant à la fin dun intervalle c.-à-d. la valeur de T à la fin de cet intervalle
n la taille dun échantillon ou dun sous-échantillon
ndt le nombre des unités à risque au début de lintervalle t
nrt le nombre des unités qui cessent dêtre à risque (ou qui sortent du groupe à risque) sans changer détat au cours de lintervalle t (les retraits)
nat le nombre des unités qui deviennent à risque (ou qui entrent dans le groupe à risque) au cours de lintervalle t (les ajouts)
nt le nombre des unités à risque durant lintervalle t (le groupe à risque)
rt le temps total passé à risque par les unités à risque durant lintervalle t, exprimé en utilisant la longueur de lintervalle comme unité de temps (temps à risque ou temps dexposition au risque)
dt le nombre des unités qui changent détat au cours de lintervalle t (événements, décès, bris)
ht le taux, qui régit le changement au cours de lintervalle t et qui nest pas une proportion
ft la proportion de la population théorique qui change détat au cours de lintervalle t
St la proportion de la population théorique qui na pas changé détat depuis lorigine à la fin de lintervalle t
Ft la proportion de la population théorique qui a changé détat depuis lorigine à la fin de lintervalle t.
25Le calcul des quantités dune table dextinction
- à partir des données, c.-à-d. des événements et
du temps à risque
- Le risque
- Le séjour
- Les fréquences
- Les fréquences cumulées
- Le risque cumulé
26Les fonctions dune loi de probabilité
h(t) la fonction de risque (ou quotient instantané, ou risque instantané ou, parfois, taux instantané) qui associe une valeur ht à chaque valeur de la variable T,
S(t) la fonction de séjour, qui associe une valeur St à chaque valeur de la variable T,
f(t) la fonction de densité de probabilité, qui associe une valeur ft à chaque valeur de la variable T,
F(t) la fonction de répartition de probabilité, qui associe une valeur Ft à chaque valeur de la variable T,
H(t) la fonction de risque cumulé, qui associe une valeur Ht à chaque valeur de la variable T.
27Les fonctions dune loi de probabilité
Français Anglais Espagnol
Fonction de densité de probabilité Probability density function (p.d.f.) Función de densidad de probabilidad
Fonction de répartition de probabilité Probability distribution function (Cumulated density function, c.d.f.) Función de distribución de probabilidad
Fonction de survie ou Fonction de séjour Survival function Función de supervivencia
Fonction de risque (Fonction dintensité) Hazard function (Intensity function) Función de riesgo (Función de intensidad)
28Vocabulaire
Français Anglais Espagnol
Loi de probabilité Distribution théorique Statistical distribution Ley de probabilidad Distribución teórica
Distribution statistique
Fonction de répartition de probabilité Probability distribution function Función de repartición
29Les fonctions dune loi de probabilité
Fonction de risque
Fonction de séjour
Fonction de densité
30Les fonctions dune loi de probabilité
Fonction de répartition
31Les fonctions dune loi de probabilité
Les fonctions de séjour, de densité et de
répartition exprimées à partir de la fonction de
risque.
32Les fonctions dune loi de probabilité
La fonction de risque exprimée à partir de la
fonction de densité puis de la fonction de
séjour ou le risque exprimé à partir de la
densité puis de la survie.
33Les fonctions dune loi statistique
Le risque cumulé ou quotient cumulé. Le risque
est un taux lISF est donc un risque cumulé.
Note on a utilisé ici k plutôt que t. Cest
affaire de convention. On utilise généralement k
pour indiquer quon utilise des classes, et t
lorsquon nen utilise pas ou quon ne souhaite
pas marquer la différence.
34Les fonctions dune distribution
- À strictement parler, ce que nous venons de voir
est exact - lorsque T est une variable continue traitée en
continu et - lorsque T est une variable discrète traitée comme
telle. - Ce que nous venons de voir nest pas tout à fait
exact lorsque T est une variable continue traitée
en discontinu , p. ex. dans une table où les
valeurs de T sont regroupées en classes dâge. - Dans ce cas, il est plus juste décrire que
- et cela serait conforme à la manière habituelle
de calculer une table. - On ne le fait pas dans le contexte où nous sommes
pour plusieurs raisons.
35Les fonctions dune distribution
- La théorie qui traite des modèles statistiques
utilisés en analyse des biographies ne raisonne
que sur les intervalles infinitésimaux, même pour
le cas discret , et ignore ou contourne les
particularités du regroupement en classes qui est
à la base de la table dextinction, notamment
celle qui force à distinguer le quotient du taux.
Il ny a donc pas de définition stricte de la
fonction de risque pour la table dextinction. - Si on estime certaines des fonctions (p. ex. le
séjour) à partir du quotient et dautres à partir
du taux (p. ex. le risque cumulé), les relations
entre les fonctions disparaissent. - Les modèles statistiques ignorent tous la
distinction entre le quotient et le taux, même
ceux où le temps est regroupé en classes. - La microsimulation regroupe presque toujours le
temps en classes et nutilise que les taux.
36Autres estimateurs de la table
- Lestimateur dit actuariel
- On y calcule les taux en remplaçant le temps à
risque calculé exactement par une approximation
basée - sur le nombre des unités à risque et
- lhypothèse que les unités qui ne sont pas à
risque durant tout lintervalle le sont
exactement durant la moitié de lintervalle. - Le dénominateur du taux est alors la somme
- du nombre des unités à risque au début de
lintervalle encore à risque à la fin de
lintervalle, - de la moitié du nombre des unités qui entrent
dans le groupe à risque au cours de lintervalle,
- de la moitié du nombre des unités qui sortent du
groupe à risque sans changer détat au cours de
lintervalle et - du nombre des unités qui changent détat au cours
de lintervalle. - Compter ainsi les unités qui changent détat au
cours de lintervalle est incohérent et
sous-estime le taux, mais impose quil ne dépasse
jamais un, ce qui permet de le traiter comme une
proportion alors quil nen est pas une.
37Autres estimateurs de la table
38Autres estimateurs de la table
- Lestimateur de Kaplan-Meier
39Autres estimateurs de la table
- Lestimateur de Kaplan-Meier
- Il tire son nom français du nom des deux auteurs
qui ont écrit un article dans lequel ils en
étudient les propriétés statistiques et montrent
quil a les propriétés dun estimateur au sens de
la théorie du maximum de vraisemblance. - Il achève un intervalle à la survenue de chaque
événement (dans léchantillon). - Il tient compte de lordre des événements (et des
intervalles), mais pas de leur durée. - En principe, il nadmet quun événement par
intervalle, qui survient à fin de celui-ci. - Il estime la survie à la fin de chaque intervalle
(qui est une probabilité), mais ne permet pas
destimer le risque (qui exige quon tienne
compte du temps passé à risque).
40Autres estimateurs de la table
- Lestimateur de Kaplan-Meier
- Le dénominateur de ce qui tient lieu de taux est
le nombre des unités à risque au début de
lintervalle. - Ceci sous-estime le taux.
- Lestimateur de Kaplan-Meier est un modèle
statistique non paramétrique. - Paradoxalement, il repose sur un raisonnement où
le temps est pensé en continu.
41Petite annexesur la troncation et la censure
42Interprétation erronée de la troncation et de la
censure
- Tuma, Nancy Brandon. 1982. Nonparametric and
Partially Parametric Approaches to Event-History
Analysis . Sociological Methodology, 13, p.
1-60.
43Interprétation erronée de la troncation et de la
censure
44Interprétation erronée de la troncation et de la
censure
- Tuma, N. B. et M. Hannan. 1984. Social Dynamics.
Models and methods. Orlando FL Academic Press.
45Interprétation erronée de la troncation et de la
censure
- Kendall, M. G. et W. R. Buckland. 1960. A
Dictionary of statistical terms, 2nd edition. New
York NY Hafner Publishing Co.
46Interprétation erronée de la troncation et de la
censure
- Linterprétation erronée repose sur plusieurs
confusions
- On comprend que léchantillon dont il est
question dans la définition de Kendall et
Buckland est un échantillon dunités statistiques
tirée dune population finie alors que les
notions de troncation et de censure ont été
introduites en statistique mathématique en
raisonnant sur un échantillon de valeurs tiré
dune population théorique. - On ne comprend pas que les mécanismes de censure
et de troncation sont propres à chacun des
tirages faits dans la distribution théorique. On
imagine quils sont une propriété du plan de
sondage ou du plan dobservation , qui ne sont
définis que pour un échantillon tiré dune
population finie.. - On imagine que les unités statistiques dont on
peut tirer un échantillon dune population finie
sont des biographies alors que ce sont des
personnes. - On représente ces biographies au moyen dune
ligne comme dans un diagramme de Lexis, ce qui
conduit notamment à nommer censure à gauche ce
qui est en fait lentrée échelonnée.
47La confusion est encore plus grande en français