PPT – Ma PowerPoint presentation | free to view

About This Presentation

Title:

Ma

Description:

Autres estimateurs de la table L estimateur dit actuariel On y calcule les taux en rempla ant le temps ... Le calcul des quantit s d une ... – PowerPoint PPT presentation

Number of Views:45

Avg rating:3.0/5.0

Slides: 48

Provided by: Benot151

Category:

more less

Transcript and Presenter's Notes

Title: Ma

1
(No Transcript)
2
Programmes de maîtrise et de doctorat en
démographieModèles de risque et de duréeCours
4Séance du 31 janvier 2014
Benoît Laplante, professeur
3
Les fondements de lanalyse longitudinale

Plan

Définitions
La logique de la construction dune table
dextinction
construite à partir de micro-données
et conçue comme un modèle statistique.
Aperçu de la table comme modèle statistique
Autres estimateurs de la table
Lestimateur actuariel
Lestimateur de Kaplan-Meier

4
Définitions

Événement
Changement détat, passage de létat dorigine à
un autre état.
Épisode
Fraction dune biographie pendant laquelle une
unité statistique est à risque de changer détat.
Groupe à risque
Ensemble des unités (échantillon ou population) à
risque de changer détat dans une analyse.
Entrée dans le groupe à risque
Moment où une unité devient à risque et est
observée dans cet état au sens de lanalyse.
Sortie du groupe à risque
Moment où une unité cesse dêtre à fois à risque
et dêtre observée dans cet état au sens de
lanalyse.
On peut sortir du groupe à risque en changeant
détat.
On peut sortir du groupe à risque sans changer
détat. On peut alors entrer de nouveau dans le
groupe à risque. On parle alors dun hiatus.

5
Définitions

Durée (plus exactement, durée du séjour dans
létat dorigine )
Le temps écoulé entre le temps zéro et le moment
où lunité statistique change détat.
Temps analytique
Laxe du temps en fonction duquel on étudie la
distribution dun événement.
Plus spécialement, le temps en tant quil est
mesuré à partir du temps zéro.
Temps zéro
Point zéro de laxe du temps analytique.
On nétudie habituellement la nuptialité ou la
fécondité quà partir de lâge de 15 ans.
On nétudie la rupture des unions quà partir du
moment de leur formation.
Temps à risque
Quantité de temps pendant laquelle une unité
statistique est à risque de changer détat. Le
temps à risque dune unité peut être inférieur au
temps quelle passe dans létat dorigine (p. ex.
à cause dun hiatus ou des entrées échelonnées).
Temps passé à risque, généralement au cours dun
intervalle, par lensemble des unités qui forment
le groupe à risque en ce sens, le temps à risque
est le dénominateur dun taux.

6
La logique de la construction dune table comme
modèle statistique

Imaginons quon sintéresse à la naissance du
premier enfant chez les femmes canadiennes et
quon dispose des données dune enquête
biographique, par exemple celles de lEnquête sur
les transitions familiales de 2006.
Règle générale, on étudiera le phénomène dans le
sous-échantillon des femmes âgées de 15 à 80 ans
au moment de lenquête.
On élimine les femmes âgées de 80 ans ou plus
parce quon ne connaît pas leur âge exact à
lenquête (ce ne serait pas un problème dans ce
cas-ci, mais cest la pratique).
On étudie le phénomène jusquà lâge de 40
On le fait habituellement jusquà 45 ou 50 ans,
mais on se limite ici à 40 ans pour conserver la
lisibilité du tableau.

7
La logique de la construction dune table comme
modèle statistique

Formellement, on cherche donc à connaître la
distribution théorique de la variable aléatoire T
à partir de sa distribution statistique dans
léchantillon de lEnquête sur les transitions
familiales.
On peut interpréter la distribution de la
variable qui nous intéresse de deux manières
lâge de la mère à la naissance de son premier
enfant (donc lâge de la mère au moment de
lévénement que nous étudions) ou bien
le nombre de premières naissances survenues au
cours de chaque intervalle de classe de la
variable Âge de la mère .

8
Lâge à la naissance du premier enfant Enquête
sociale générale de 2006. Femmes âgées de 15 à
80 ans au moment de lenquête
nt le nombre des femmes qui donnent naissance à leur premier enfant à lâge t
ft la proportion des femmes qui donnent naissance à leur premier enfant à lâge t
Ft la proportion des femmes qui donnent naissance à leur premier enfant au plus tard à lâge t
nt le nombre des premières naissances au cours de lintervalle t
ft la proportion des premières naissances qui surviennent au cours de lintervalle t
Ft la proportion des premières naissances survenues depuis lorigine de la table à la fin de lintervalle t
9
La logique de la construction dune table comme
modèle statistique

Aucune des deux interprétations ne permet
darriver à la conclusion que la distribution
statistique de la variable T représente de
manière raisonnable la distribution théorique du
phénomène qui nous intéresse.
Peu importe linterprétation, la distribution ne
contient dinformation que sur la fécondité des
femmes qui ont eu leur premier enfant entre 15 et
40 ans. Elle ne nous apprend rien de la fécondité
des femmes qui nont pas eu denfant avant 40
ans, alors que cette information est essentielle
pour connaître la fécondité.
On peut tenter de contourner le problème en
ajoutant à la table les femmes qui nont pas eu
denfant
à lâge quelles avaient atteint au moment où on
a cessé de les observer (c.-à-d. lâge quelles
avaient à lenquête) ou
à lâge au-delà duquel nous ne nous intéressons
plus au phénomène (c.-à-d. 40 ans),
mais cela naméliore pas la lisibilité du
tableau.

10
La logique de la construction dune table comme
modèle statistique
11
La logique de la construction dune table comme
modèle statistique

Pour comprendre le problème et sa solution il
faut aborder deux questions
les notions de troncation et de censure et
les notions de quotient et de taux.
Il faut également réfléchir aux mouvements de la
population qui perturbent le phénomène que
nous étudions.

12
Troncation et censure

Morice, E. 1968. Dictionnaire de statistique.
Paris Dunod, p. 31.
Morice, E. 1974, Diccionario de estadística.
México CECSA.

13
Troncation et censure

La notion de troncation apparaît dans un article
de Fisher, le père de la statistique
mathématique, où celui-ci traite du problème de
lestimation de la distribution théorique dune
variable à partir dune distribution statistique
obtenue au moyen dun tirage qui ne se fait pas
dans toute létendue de la distribution théorique
de la variable
Fisher, R. A. 1931. The truncated normal
distribution . British Association for the
Advancement of Science, Math. Tables, I, p.
XXXIII-XXXIV.
La notion de censure apparaît pour la première
fois dans un article de A. Hald qui se base sur
larticle de Fisher
Hald, A. 1949. Maximum likelihood estimation of
the parameters of a normal distribution which is
truncated at a known point . Skandinavisk
Aktuarietidskrift , vol. 32, p. 119-132.
Hald introduit le mécanisme quon nommera plus
tard censure, mais nutilise que ladjectif
censuré.

14
Troncation et censure

Censure à droite
On sait quau moment t, lévénement ne sétait
pas encore produit et on ne sait pas quand il se
produira.
Censure à gauche
On sait quau moment t, lévénement sétait déjà
produit, mais on ne sait pas exactement à quel
moment.
Censure par intervalles
On sait que lévénement sest produit entre le
moment t1 et le moment t2, mais on ne sait pas
exactement à quel moment.
Troncation à gauche
On ne sait rien des événements qui se produisent
avant t.
Troncation à droite
On ne sait rien des événements qui se produisent
après t ou, ce qui revient au même, on ne connaît
que les événements qui se produisent avant t.

15
Troncation et censure

Au sens de ces définitions, il est tout dabord
évident que les deux distributions sont tronquées
à gauche on exclut de chacune les premières
naissances survenues avant 15 ans.
La première distribution est construite en ne
retenant que les femmes qui ont eu leur premier
enfant après 15 ans et avant 40 ans, et chaque
femme est classée à lâge où elle a eu cet
enfant. En plus dêtre tronquée à gauche, cette
distribution est tronquée à droite, puisquen
plus dexclure les naissances survenues avant 15
ans, elle exclut également les naissances
survenues après 40 ans.
La seconde distribution est construite en
retenant toutes les femmes qui navaient pas eu
leur premier avant 15 ans et en classant chaque
femme soit à lâge où elle a eu son premier
enfant, soit à lâge le plus élevé où elle a été
observée sans avoir eu son premier enfant. En
plus dêtre tronquée à gauche, cette distribution
est censurée à droite les femmes qui nont pas
eu leur premier enfant avant 40 ans ne sont pas
exclues, mais sont classées à la limite
inférieure de la portion de la distribution où se
trouvera lâge auquel elles donneront naissance à
leur premier enfant si elles le font. Puisque
léchantillon est composé de femmes âgées de 15 à
80 ans au moment de lenquête et que les femmes
nullipares sont comptées dans la classe dâge à
laquelle elles appartenaient au moment de
lenquête, la distribution a autant de points de
censure quelle a de classes dâge.

16
Troncation et censure
17
Troncation et censure

Le problème se résout en construisant les
fonctions de la distribution théorique de la
variable T non pas à partir de sa distribution de
fréquences comprise comme une approximation de sa
fonction de densité, mais à partir de sa fonction
de risque h(t), approchée par les taux tels quon
peut les estimer pour chaque intervalle de classe
t.

18
Quotient et taux

Au sens général, le mot taux désigne
simplement le rapport de deux quantités. En
démographie, on l'utilise pour désigner trois
types de rapport différents
le rapport entre deux quantités à un moment
donné,
la variation relative dans le temps exprimée
comme un rapport et
l'intensité d'un phénomène définie comme le
rapport entre le nombre des événements et le
temps à risque.
Le taux dactivité, défini comme le rapport entre
la taille de population active et la taille de la
population en âge de travailler, est un rapport
entre deux quantités à un moment donné. Les taux
de ce type peuvent généralement être interprétés
comme des probabilités. Le taux de prévalence de
l'épidémiologie est un taux de ce type.
Le taux daccroissement, par exemple celui de la
population, défini comme le rapport entre, d'une
part, la différence entre la taille de la
population à la fin d'une période et la taille de
la population au début de cette période et,
d'autre part, la taille de la population au début
de la période, est une variation relative dans le
temps exprimée comme un rapport.

19
Quotient et taux

Au sens général, le mot quotient désigne
simplement le résultat de la division d'un nombre
par un autre.
En démographie, on emploie le mot quotient
dans un sens spécial, et presque toujours dans
une table dextinction, pour désigner la
fraction, ou proportion, du groupe à risque ou de
la population à risque au début dun intervalle
qui change d'état au cours de cet intervalle.
Le quotient de la table dextinction est donc
bien un quotient au sens général, mais il est
défini de manière plus étroite. En particulier,
le quotient de la table dextinction est une
fraction et non un simple rapport, ce qui
implique notamment qu'il varie entre 0 et 1. Ceci
implique également que le quotient peut être
interprété comme une probabilité.

20
Quotient et taux

Le taux et le quotient sont liés par une relation
algébrique dont lélément le plus important est
une quantité, la fraction moyenne de lintervalle
qui est passée à risque par les personnes qui
changent détat au cours de cet intervalle on
nomme parfois cette quantité coefficient de
répartition , noté ici at
qt mt / 1 (1 - at)mt
Cette quantité peut être estimée de manière assez
précise lorsqu'on dispose d'information
détaillée, comme cest habituellement le cas
lorsquon utilise les données d'une enquête.
On doit se contenter dune approximation
lorsquon utilise des données agrégées. On pose
alors le plus souvent que les personnes qui
changent détat le font au centre de
lintervalle, ce qui revient à fixer la valeur du
coefficient de répartition à 0,5. Cette hypothèse
est parfois invraisemblable, par exemple
lorsquon étudie la mortalité infantile on doit
alors utiliser une estimation plus réaliste du
coefficient de répartition, quon emprunte
habituellement à une étude réalisée sur une
population analogue.

21
Quotient et taux

Normalement, le questionnaire biographique mesure
la durée des séjours dans létat dorigine avec
une précision plus grande que la longueur des
intervalles dune table.
Cette précision permet de construire la table à
partir des taux dont les dénominateurs le temps
passé à risque par lensemble des individus à
risque dans chaque intervalle sont mesurés avec
précision.
On trouve le temps total passé à risque au cours
de chaque intervalle dans la colonne rt du
tableau 3.
Le taux est obtenu tout simplement en divisant le
nombre des événements survenus au cours de
lintervalle par la quantité de temps passé à
risque au cours de cet intervalle par lensemble
des individus qui y ont été à risque. On se sert
directement des taux pour calculer la fonction de
risque cumulé H(t).

22
Mouvements de la population qui affectent la
composition du groupe à risque
23
La logique de la construction dune table comme
modèle statistique
24
Aperçu formel de la table comme modèle statistique
T le temps, entendu comme variable
t le temps correspondant à la fin dun intervalle c.-à-d. la valeur de T à la fin de cet intervalle
n la taille dun échantillon ou dun sous-échantillon
ndt le nombre des unités à risque au début de lintervalle t
nrt le nombre des unités qui cessent dêtre à risque (ou qui sortent du groupe à risque) sans changer détat au cours de lintervalle t (les retraits)
nat le nombre des unités qui deviennent à risque (ou qui entrent dans le groupe à risque) au cours de lintervalle t (les ajouts)
nt le nombre des unités à risque durant lintervalle t (le groupe à risque)
rt le temps total passé à risque par les unités à risque durant lintervalle t, exprimé en utilisant la longueur de lintervalle comme unité de temps (temps à risque ou temps dexposition au risque)
dt le nombre des unités qui changent détat au cours de lintervalle t (événements, décès, bris)
ht le taux, qui régit le changement au cours de lintervalle t et qui nest pas une proportion
ft la proportion de la population théorique qui change détat au cours de lintervalle t
St la proportion de la population théorique qui na pas changé détat depuis lorigine à la fin de lintervalle t
Ft la proportion de la population théorique qui a changé détat depuis lorigine à la fin de lintervalle t.
25
Le calcul des quantités dune table dextinction

à partir des données, c.-à-d. des événements et
du temps à risque

Le risque
Le séjour
Les fréquences
Les fréquences cumulées
Le risque cumulé

26
Les fonctions dune loi de probabilité
h(t) la fonction de risque (ou quotient instantané, ou risque instantané ou, parfois, taux instantané) qui associe une valeur ht à chaque valeur de la variable T,
S(t) la fonction de séjour, qui associe une valeur St à chaque valeur de la variable T,
f(t) la fonction de densité de probabilité, qui associe une valeur ft à chaque valeur de la variable T,
F(t) la fonction de répartition de probabilité, qui associe une valeur Ft à chaque valeur de la variable T,
H(t) la fonction de risque cumulé, qui associe une valeur Ht à chaque valeur de la variable T.
27
Les fonctions dune loi de probabilité
Français Anglais Espagnol
Fonction de densité de probabilité Probability density function (p.d.f.) Función de densidad de probabilidad
Fonction de répartition de probabilité Probability distribution function (Cumulated density function, c.d.f.) Función de distribución de probabilidad
Fonction de survie ou Fonction de séjour Survival function Función de supervivencia
Fonction de risque (Fonction dintensité) Hazard function (Intensity function) Función de riesgo (Función de intensidad)
28
Vocabulaire
Français Anglais Espagnol
Loi de probabilité Distribution théorique Statistical distribution Ley de probabilidad Distribución teórica
Distribution statistique
Fonction de répartition de probabilité Probability distribution function Función de repartición

29
Les fonctions dune loi de probabilité
Fonction de risque
Fonction de séjour
Fonction de densité
30
Les fonctions dune loi de probabilité
Fonction de répartition
31
Les fonctions dune loi de probabilité
Les fonctions de séjour, de densité et de
répartition exprimées à partir de la fonction de
risque.
32
Les fonctions dune loi de probabilité
La fonction de risque exprimée à partir de la
fonction de densité puis de la fonction de
séjour ou le risque exprimé à partir de la
densité puis de la survie.
33
Les fonctions dune loi statistique
Le risque cumulé ou quotient cumulé. Le risque
est un taux lISF est donc un risque cumulé.
Note on a utilisé ici k plutôt que t. Cest
affaire de convention. On utilise généralement k
pour indiquer quon utilise des classes, et t
lorsquon nen utilise pas ou quon ne souhaite
pas marquer la différence.
34
Les fonctions dune distribution

À strictement parler, ce que nous venons de voir
est exact
lorsque T est une variable continue traitée en
continu et
lorsque T est une variable discrète traitée comme
telle.
Ce que nous venons de voir nest pas tout à fait
exact lorsque T est une variable continue traitée
en discontinu , p. ex. dans une table où les
valeurs de T sont regroupées en classes dâge.
Dans ce cas, il est plus juste décrire que
et cela serait conforme à la manière habituelle
de calculer une table.
On ne le fait pas dans le contexte où nous sommes
pour plusieurs raisons.

35
Les fonctions dune distribution

La théorie qui traite des modèles statistiques
utilisés en analyse des biographies ne raisonne
que sur les intervalles infinitésimaux, même pour
le cas discret , et ignore ou contourne les
particularités du regroupement en classes qui est
à la base de la table dextinction, notamment
celle qui force à distinguer le quotient du taux.
Il ny a donc pas de définition stricte de la
fonction de risque pour la table dextinction.
Si on estime certaines des fonctions (p. ex. le
séjour) à partir du quotient et dautres à partir
du taux (p. ex. le risque cumulé), les relations
entre les fonctions disparaissent.
Les modèles statistiques ignorent tous la
distinction entre le quotient et le taux, même
ceux où le temps est regroupé en classes.
La microsimulation regroupe presque toujours le
temps en classes et nutilise que les taux.

36
Autres estimateurs de la table

Lestimateur dit actuariel

On y calcule les taux en remplaçant le temps à
risque calculé exactement par une approximation
basée
sur le nombre des unités à risque et
lhypothèse que les unités qui ne sont pas à
risque durant tout lintervalle le sont
exactement durant la moitié de lintervalle.
Le dénominateur du taux est alors la somme
du nombre des unités à risque au début de
lintervalle encore à risque à la fin de
lintervalle,
de la moitié du nombre des unités qui entrent
dans le groupe à risque au cours de lintervalle,
de la moitié du nombre des unités qui sortent du
groupe à risque sans changer détat au cours de
lintervalle et
du nombre des unités qui changent détat au cours
de lintervalle.
Compter ainsi les unités qui changent détat au
cours de lintervalle est incohérent et
sous-estime le taux, mais impose quil ne dépasse
jamais un, ce qui permet de le traiter comme une
proportion alors quil nen est pas une.

37
Autres estimateurs de la table
38
Autres estimateurs de la table

Lestimateur de Kaplan-Meier

39
Autres estimateurs de la table

Lestimateur de Kaplan-Meier

Il tire son nom français du nom des deux auteurs
qui ont écrit un article dans lequel ils en
étudient les propriétés statistiques et montrent
quil a les propriétés dun estimateur au sens de
la théorie du maximum de vraisemblance.
Il achève un intervalle à la survenue de chaque
événement (dans léchantillon).
Il tient compte de lordre des événements (et des
intervalles), mais pas de leur durée.
En principe, il nadmet quun événement par
intervalle, qui survient à fin de celui-ci.
Il estime la survie à la fin de chaque intervalle
(qui est une probabilité), mais ne permet pas
destimer le risque (qui exige quon tienne
compte du temps passé à risque).

40
Autres estimateurs de la table

Lestimateur de Kaplan-Meier

Le dénominateur de ce qui tient lieu de taux est
le nombre des unités à risque au début de
lintervalle.
Ceci sous-estime le taux.
Lestimateur de Kaplan-Meier est un modèle
statistique non paramétrique.
Paradoxalement, il repose sur un raisonnement où
le temps est pensé en continu.

41
Petite annexesur la troncation et la censure
42
Interprétation erronée de la troncation et de la
censure

Tuma, Nancy Brandon. 1982. Nonparametric and
Partially Parametric Approaches to Event-History
Analysis . Sociological Methodology, 13, p.
1-60.

43
Interprétation erronée de la troncation et de la
censure
44
Interprétation erronée de la troncation et de la
censure

Tuma, N. B. et M. Hannan. 1984. Social Dynamics.
Models and methods. Orlando FL Academic Press.

45
Interprétation erronée de la troncation et de la
censure

Kendall, M. G. et W. R. Buckland. 1960. A
Dictionary of statistical terms, 2nd edition. New
York NY Hafner Publishing Co.

46
Interprétation erronée de la troncation et de la
censure

Linterprétation erronée repose sur plusieurs
confusions

On comprend que léchantillon dont il est
question dans la définition de Kendall et
Buckland est un échantillon dunités statistiques
tirée dune population finie alors que les
notions de troncation et de censure ont été
introduites en statistique mathématique en
raisonnant sur un échantillon de valeurs tiré
dune population théorique.
On ne comprend pas que les mécanismes de censure
et de troncation sont propres à chacun des
tirages faits dans la distribution théorique. On
imagine quils sont une propriété du plan de
sondage ou du plan dobservation , qui ne sont
définis que pour un échantillon tiré dune
population finie..
On imagine que les unités statistiques dont on
peut tirer un échantillon dune population finie
sont des biographies alors que ce sont des
personnes.
On représente ces biographies au moyen dune
ligne comme dans un diagramme de Lexis, ce qui
conduit notamment à nommer censure à gauche ce
qui est en fait lentrée échelonnée.