Ma - PowerPoint PPT Presentation

1 / 47
About This Presentation
Title:

Ma

Description:

Autres estimateurs de la table L estimateur dit actuariel On y calcule les taux en rempla ant le temps ... Le calcul des quantit s d une ... – PowerPoint PPT presentation

Number of Views:42
Avg rating:3.0/5.0
Slides: 48
Provided by: Benot151
Category:
Tags: actuariel | calcul

less

Transcript and Presenter's Notes

Title: Ma


1
(No Transcript)
2
Programmes de maîtrise et de doctorat en
démographieModèles de risque et de duréeCours
4Séance du 31 janvier 2014
Benoît Laplante, professeur
3
Les fondements de lanalyse longitudinale
  • Plan
  • Définitions
  • La logique de la construction dune table
    dextinction
  • construite à partir de micro-données
  • et conçue comme un modèle statistique.
  • Aperçu de la table comme modèle statistique
  • Autres estimateurs de la table
  • Lestimateur actuariel
  • Lestimateur de Kaplan-Meier

4
Définitions
  • Événement
  • Changement détat, passage de létat dorigine à
    un autre état.
  • Épisode
  • Fraction dune biographie pendant laquelle une
    unité statistique est à risque de changer détat.
  • Groupe à risque
  • Ensemble des unités (échantillon ou population) à
    risque de changer détat dans une analyse.
  • Entrée dans le groupe à risque
  • Moment où une unité devient à risque et est
    observée dans cet état au sens de lanalyse.
  • Sortie du groupe à risque
  • Moment où une unité cesse dêtre à fois à risque
    et dêtre observée dans cet état au sens de
    lanalyse.
  • On peut sortir du groupe à risque en changeant
    détat.
  • On peut sortir du groupe à risque sans changer
    détat. On peut alors entrer de nouveau dans le
    groupe à risque. On parle alors dun hiatus.

5
Définitions
  • Durée (plus exactement,  durée du séjour dans
    létat dorigine )
  • Le temps écoulé entre le temps zéro et le moment
    où lunité statistique change détat.
  •  Temps analytique 
  • Laxe du temps en fonction duquel on étudie la
    distribution dun événement.
  • Plus spécialement, le temps en tant quil est
    mesuré à partir du temps zéro.
  • Temps zéro
  • Point zéro de laxe du temps analytique.
  • On nétudie habituellement la nuptialité ou la
    fécondité quà partir de lâge de 15 ans.
  • On nétudie la rupture des unions quà partir du
    moment de leur formation.
  • Temps à risque
  • Quantité de temps pendant laquelle une unité
    statistique est à risque de changer détat. Le
    temps à risque dune unité peut être inférieur au
    temps quelle passe dans létat dorigine (p. ex.
    à cause dun hiatus ou des entrées échelonnées).
  • Temps passé à risque, généralement au cours dun
    intervalle, par lensemble des unités qui forment
    le groupe à risque en ce sens, le temps à risque
    est le dénominateur dun taux.

6
La logique de la construction dune table comme
modèle statistique
  • Imaginons quon sintéresse à la naissance du
    premier enfant chez les femmes canadiennes et
    quon dispose des données dune enquête
    biographique, par exemple celles de lEnquête sur
    les transitions familiales de 2006.
  • Règle générale, on étudiera le phénomène dans le
    sous-échantillon des femmes âgées de 15 à 80 ans
    au moment de lenquête.
  • On élimine les femmes âgées de 80 ans ou plus
    parce quon ne connaît pas leur âge exact à
    lenquête (ce ne serait pas un problème dans ce
    cas-ci, mais cest la pratique).
  • On étudie le phénomène jusquà lâge de 40
  • On le fait habituellement jusquà 45 ou 50 ans,
    mais on se limite ici à 40 ans pour conserver la
    lisibilité du tableau.

7
La logique de la construction dune table comme
modèle statistique
  • Formellement, on cherche donc à connaître la
    distribution théorique de la variable aléatoire T
    à partir de sa distribution statistique dans
    léchantillon de lEnquête sur les transitions
    familiales.
  • On peut interpréter la distribution de la
    variable qui nous intéresse de deux manières
  • lâge de la mère à la naissance de son premier
    enfant (donc lâge de la mère au moment de
    lévénement que nous étudions) ou bien
  • le nombre de premières naissances survenues au
    cours de chaque intervalle de classe de la
    variable  Âge de la mère .

8
Lâge à la naissance du premier enfant Enquête
sociale générale de 2006. Femmes âgées de 15 à
80 ans au moment de lenquête
nt le nombre des femmes qui donnent naissance à leur premier enfant à lâge t
ft la proportion des femmes qui donnent naissance à leur premier enfant à lâge t
Ft la proportion des femmes qui donnent naissance à leur premier enfant au plus tard à lâge t
nt le nombre des premières naissances au cours de lintervalle t
ft la proportion des premières naissances qui surviennent au cours de lintervalle t
Ft la proportion des premières naissances survenues depuis lorigine de la table à la fin de lintervalle t
9
La logique de la construction dune table comme
modèle statistique
  • Aucune des deux interprétations ne permet
    darriver à la conclusion que la distribution
    statistique de la variable T représente de
    manière raisonnable la distribution théorique du
    phénomène qui nous intéresse.
  • Peu importe linterprétation, la distribution ne
    contient dinformation que sur la fécondité des
    femmes qui ont eu leur premier enfant entre 15 et
    40 ans. Elle ne nous apprend rien de la fécondité
    des femmes qui nont pas eu denfant avant 40
    ans, alors que cette information est essentielle
    pour connaître la fécondité.
  • On peut tenter de contourner le problème en
    ajoutant à la table les femmes qui nont pas eu
    denfant
  • à lâge quelles avaient atteint au moment où on
    a cessé de les observer (c.-à-d. lâge quelles
    avaient à lenquête) ou
  • à lâge au-delà duquel nous ne nous intéressons
    plus au phénomène (c.-à-d. 40 ans),
  • mais cela naméliore pas la  lisibilité  du
    tableau.

10
La logique de la construction dune table comme
modèle statistique
11
La logique de la construction dune table comme
modèle statistique
  • Pour comprendre le problème et sa solution il
    faut aborder deux questions
  • les notions de troncation et de censure et
  • les notions de quotient et de taux.
  • Il faut également réfléchir aux mouvements de la
    population qui  perturbent  le phénomène que
    nous étudions.

12
Troncation et censure
  • Morice, E. 1968. Dictionnaire de statistique.
    Paris Dunod, p. 31.
  • Morice, E. 1974, Diccionario de estadística.
    México CECSA.

13
Troncation et censure
  • La notion de troncation apparaît dans un article
    de Fisher, le père de la statistique
    mathématique, où celui-ci traite du problème de
    lestimation de la distribution théorique dune
    variable à partir dune distribution statistique
    obtenue au moyen dun tirage qui ne se fait pas
    dans toute létendue de la distribution théorique
    de la variable
  • Fisher, R. A. 1931. The truncated normal
    distribution . British Association for the
    Advancement of Science, Math. Tables, I, p.
    XXXIII-XXXIV.
  • La notion de censure apparaît pour la première
    fois dans un article de A. Hald qui se base sur
    larticle de Fisher
  • Hald, A. 1949. Maximum likelihood estimation of
    the parameters of a normal distribution which is
    truncated at a known point . Skandinavisk
    Aktuarietidskrift , vol. 32, p. 119-132.
  • Hald introduit le mécanisme quon nommera plus
    tard censure, mais nutilise que ladjectif
    censuré.

14
Troncation et censure
  • Censure à droite
  • On sait quau moment t, lévénement ne sétait
    pas encore produit et on ne sait pas quand il se
    produira.
  • Censure à gauche
  • On sait quau moment t, lévénement sétait déjà
    produit, mais on ne sait pas exactement à quel
    moment.
  • Censure par intervalles
  • On sait que lévénement sest produit entre le
    moment t1 et le moment t2, mais on ne sait pas
    exactement à quel moment.
  • Troncation à gauche
  • On ne sait rien des événements qui se produisent
    avant t.
  • Troncation à droite
  • On ne sait rien des événements qui se produisent
    après t ou, ce qui revient au même, on ne connaît
    que les événements qui se produisent avant t.

15
Troncation et censure
  • Au sens de ces définitions, il est tout dabord
    évident que les deux distributions sont tronquées
    à gauche on exclut de chacune les premières
    naissances survenues avant 15 ans.
  • La première distribution est construite en ne
    retenant que les femmes qui ont eu leur premier
    enfant après 15 ans et avant 40 ans, et chaque
    femme est classée à lâge où elle a eu cet
    enfant. En plus dêtre tronquée à gauche, cette
    distribution est tronquée à droite, puisquen
    plus dexclure les naissances survenues avant 15
    ans, elle exclut également les naissances
    survenues après 40 ans.
  • La seconde distribution est construite en
    retenant toutes les femmes qui navaient pas eu
    leur premier avant 15 ans et en classant chaque
    femme soit à lâge où elle a eu son premier
    enfant, soit à lâge le plus élevé où elle a été
    observée sans avoir eu son premier enfant. En
    plus dêtre tronquée à gauche, cette distribution
    est censurée à droite les femmes qui nont pas
    eu leur premier enfant avant 40 ans ne sont pas
    exclues, mais sont classées à la limite
    inférieure de la portion de la distribution où se
    trouvera lâge auquel elles donneront naissance à
    leur premier enfant si elles le font. Puisque
    léchantillon est composé de femmes âgées de 15 à
    80 ans au moment de lenquête et que les femmes
    nullipares sont comptées dans la classe dâge à
    laquelle elles appartenaient au moment de
    lenquête, la distribution a autant de points de
    censure quelle a de classes dâge.

16
Troncation et censure
17
Troncation et censure
  • Le problème se résout en construisant les
    fonctions de la distribution théorique de la
    variable T non pas à partir de sa distribution de
    fréquences comprise comme une approximation de sa
    fonction de densité, mais à partir de sa fonction
    de risque h(t), approchée par les taux tels quon
    peut les estimer pour chaque intervalle de classe
    t.

18
Quotient et taux
  • Au sens général, le mot  taux  désigne
    simplement le rapport de deux quantités. En
    démographie, on l'utilise pour désigner trois
    types de rapport différents 
  • le rapport entre deux quantités à un moment
    donné,
  • la variation relative dans le temps exprimée
    comme un rapport et
  • l'intensité d'un phénomène définie comme le
    rapport entre le nombre des événements et le
    temps à risque.
  • Le taux dactivité, défini comme le rapport entre
    la taille de population active et la taille de la
    population en âge de travailler, est un rapport
    entre deux quantités à un moment donné. Les taux
    de ce type peuvent généralement être interprétés
    comme des probabilités. Le taux de prévalence de
    l'épidémiologie est un taux de ce type.
  • Le taux daccroissement, par exemple celui de la
    population, défini comme le rapport entre, d'une
    part, la différence entre la taille de la
    population à la fin d'une période et la taille de
    la population au début de cette période et,
    d'autre part, la taille de la population au début
    de la période, est une variation relative dans le
    temps exprimée comme un rapport.

19
Quotient et taux
  • Au sens général, le mot  quotient  désigne
    simplement le résultat de la division d'un nombre
    par un autre.
  • En démographie, on emploie le mot  quotient 
    dans un sens spécial, et presque toujours dans
    une table dextinction, pour désigner la
    fraction, ou proportion, du groupe à risque ou de
    la population à risque au début dun intervalle
    qui change d'état au cours de cet intervalle.
  • Le quotient de la table dextinction est donc
    bien un quotient au sens général, mais il est
    défini de manière plus étroite. En particulier,
    le quotient de la table dextinction est une
    fraction et non un simple rapport, ce qui
    implique notamment qu'il varie entre 0 et 1. Ceci
    implique également que le quotient peut être
    interprété comme une probabilité.

20
Quotient et taux
  • Le taux et le quotient sont liés par une relation
    algébrique dont lélément le plus important est
    une quantité, la fraction moyenne de lintervalle
    qui est passée à risque par les personnes qui
    changent détat au cours de cet intervalle  on
    nomme parfois cette quantité  coefficient de
    répartition , noté ici at
  • qt mt / 1 (1 - at)mt
  • Cette quantité peut être estimée de manière assez
    précise lorsqu'on dispose d'information
    détaillée, comme cest habituellement le cas
    lorsquon utilise les données d'une enquête.
  • On doit se contenter dune approximation
    lorsquon utilise des données agrégées. On pose
    alors le plus souvent que les personnes qui
    changent détat le font au centre de
    lintervalle, ce qui revient à fixer la valeur du
    coefficient de répartition à 0,5. Cette hypothèse
    est parfois invraisemblable, par exemple
    lorsquon étudie la mortalité infantile on doit
    alors utiliser une estimation plus réaliste du
    coefficient de répartition, quon emprunte
    habituellement à une étude réalisée sur une
    population analogue.

21
Quotient et taux
  • Normalement, le questionnaire biographique mesure
    la durée des séjours dans létat dorigine avec
    une précision plus grande que la longueur des
    intervalles dune table.
  • Cette précision permet de construire la table à
    partir des taux dont les dénominateurs le temps
    passé à risque par lensemble des individus à
    risque dans chaque intervalle sont mesurés avec
    précision.
  • On trouve le temps total passé à risque au cours
    de chaque intervalle dans la colonne rt du
    tableau 3.
  • Le taux est obtenu tout simplement en divisant le
    nombre des événements survenus au cours de
    lintervalle par la quantité de temps passé à
    risque au cours de cet intervalle par lensemble
    des individus qui y ont été à risque. On se sert
    directement des taux pour calculer la fonction de
    risque cumulé H(t).

22
Mouvements de la population qui affectent la
composition du groupe à risque
23
La logique de la construction dune table comme
modèle statistique
24
Aperçu formel de la table comme modèle statistique
T le temps, entendu comme variable
t le temps correspondant à la fin dun intervalle c.-à-d. la valeur de T à la fin de cet intervalle
n la taille dun échantillon ou dun sous-échantillon
ndt le nombre des unités à risque au début de lintervalle t
nrt le nombre des unités qui cessent dêtre à risque (ou qui sortent du groupe à risque) sans changer détat au cours de lintervalle t (les retraits)
nat le nombre des unités qui deviennent à risque (ou qui entrent dans le groupe à risque) au cours de lintervalle t (les ajouts)
nt le nombre des unités à risque durant lintervalle t (le groupe à risque)
rt le temps total passé à risque par les unités à risque durant lintervalle t, exprimé en utilisant la longueur de lintervalle comme unité de temps (temps à risque ou temps dexposition au risque)
dt le nombre des unités qui changent détat au cours de lintervalle t (événements, décès, bris)
ht le taux, qui régit le changement au cours de lintervalle t et qui nest pas une proportion
ft la proportion de la population théorique qui change détat au cours de lintervalle t
St la proportion de la population théorique qui na pas changé détat depuis lorigine à la fin de lintervalle t
Ft la proportion de la population théorique qui a changé détat depuis lorigine à la fin de lintervalle t.
25
Le calcul des quantités dune table dextinction
  • à partir des données, c.-à-d. des événements et
    du temps à risque
  • Le risque
  • Le séjour
  • Les fréquences
  • Les fréquences cumulées
  • Le risque cumulé

26
Les fonctions dune loi de probabilité
h(t) la fonction de risque (ou quotient instantané, ou risque instantané ou, parfois, taux instantané) qui associe une valeur ht à chaque valeur de la variable T,
S(t) la fonction de séjour, qui associe une valeur St à chaque valeur de la variable T,
f(t) la fonction de densité de probabilité, qui associe une valeur ft à chaque valeur de la variable T,
F(t) la fonction de répartition de probabilité, qui associe une valeur Ft à chaque valeur de la variable T,
H(t) la fonction de risque cumulé, qui associe une valeur Ht à chaque valeur de la variable T.
27
Les fonctions dune loi de probabilité
Français Anglais Espagnol
Fonction de densité de probabilité Probability density function (p.d.f.) Función de densidad de probabilidad
Fonction de répartition de probabilité Probability distribution function (Cumulated density function, c.d.f.) Función de distribución de probabilidad
Fonction de survie ou Fonction de séjour Survival function Función de supervivencia
Fonction de risque (Fonction dintensité) Hazard function (Intensity function) Función de riesgo (Función de intensidad)
28
Vocabulaire
Français Anglais Espagnol
Loi de probabilité Distribution théorique Statistical distribution Ley de probabilidad Distribución teórica
Distribution statistique
Fonction de répartition de probabilité Probability distribution function Función de repartición

29
Les fonctions dune loi de probabilité
Fonction de risque
Fonction de séjour
Fonction de densité
30
Les fonctions dune loi de probabilité
Fonction de répartition
31
Les fonctions dune loi de probabilité
Les fonctions de séjour, de densité et de
répartition exprimées à partir de la fonction de
risque.
32
Les fonctions dune loi de probabilité
La fonction de risque exprimée à partir de la
fonction de densité puis de la fonction de
séjour ou le risque exprimé à partir de la
densité puis de la survie.
33
Les fonctions dune loi statistique
Le risque cumulé ou quotient cumulé. Le risque
est un taux lISF est donc un risque cumulé.
Note on a utilisé ici k plutôt que t. Cest
affaire de convention. On utilise généralement k
pour indiquer quon utilise des classes, et t
lorsquon nen utilise pas ou quon ne souhaite
pas marquer la différence.
34
Les fonctions dune distribution
  • À strictement parler, ce que nous venons de voir
    est exact
  • lorsque T est une variable continue traitée en
    continu et
  • lorsque T est une variable discrète traitée comme
    telle.
  • Ce que nous venons de voir nest pas tout à fait
    exact lorsque T est une variable continue traitée
    en  discontinu , p. ex. dans une table où les
    valeurs de T sont regroupées en classes dâge.
  • Dans ce cas, il est plus  juste  décrire que
  • et cela serait conforme à la manière habituelle
    de calculer une table.
  • On ne le fait pas dans le contexte où nous sommes
    pour plusieurs raisons.

35
Les fonctions dune distribution
  • La théorie qui traite des modèles statistiques
    utilisés en analyse des biographies ne raisonne
    que sur les intervalles infinitésimaux, même pour
    le cas  discret , et ignore ou contourne les
    particularités du regroupement en classes qui est
    à la base de la table dextinction, notamment
    celle qui force à distinguer le quotient du taux.
    Il ny a donc pas de définition stricte de la
    fonction de risque pour la table dextinction.
  • Si on estime certaines des fonctions (p. ex. le
    séjour) à partir du quotient et dautres à partir
    du taux (p. ex. le risque cumulé), les relations
    entre les fonctions disparaissent.
  • Les modèles statistiques ignorent tous la
    distinction entre le quotient et le taux, même
    ceux où le temps est regroupé en classes.
  • La microsimulation regroupe presque toujours le
    temps en classes et nutilise que les taux.

36
Autres estimateurs de la table
  • Lestimateur dit  actuariel 
  • On y calcule les taux en remplaçant le temps à
    risque calculé exactement par une approximation
    basée
  • sur le nombre des unités à risque et
  • lhypothèse que les unités qui ne sont pas à
    risque durant tout lintervalle le sont
    exactement durant la moitié de lintervalle.
  • Le dénominateur du taux est alors la somme
  • du nombre des unités à risque au début de
    lintervalle encore à risque à la fin de
    lintervalle,
  • de la moitié du nombre des unités qui entrent
    dans le groupe à risque au cours de lintervalle,
  • de la moitié du nombre des unités qui sortent du
    groupe à risque sans changer détat au cours de
    lintervalle et
  • du nombre des unités qui changent détat au cours
    de lintervalle.
  • Compter ainsi les unités qui changent détat au
    cours de lintervalle est incohérent et
    sous-estime le taux, mais impose quil ne dépasse
    jamais un, ce qui permet de le traiter comme une
    proportion alors quil nen est pas une.

37
Autres estimateurs de la table
38
Autres estimateurs de la table
  • Lestimateur de Kaplan-Meier

39
Autres estimateurs de la table
  • Lestimateur de Kaplan-Meier
  • Il tire son nom français du nom des deux auteurs
    qui ont écrit un article dans lequel ils en
    étudient les propriétés statistiques et montrent
    quil a les propriétés dun estimateur au sens de
    la théorie du maximum de vraisemblance.
  • Il achève un intervalle à la survenue de chaque
    événement (dans léchantillon).
  • Il tient compte de lordre des événements (et des
    intervalles), mais pas de leur durée.
  • En principe, il nadmet quun événement par
    intervalle, qui survient à fin de celui-ci.
  • Il estime la survie à la fin de chaque intervalle
    (qui est une probabilité), mais ne permet pas
    destimer le risque (qui exige quon tienne
    compte du temps passé à risque).

40
Autres estimateurs de la table
  • Lestimateur de Kaplan-Meier
  • Le dénominateur de ce qui tient lieu de taux est
    le nombre des unités à risque au début de
    lintervalle.
  • Ceci sous-estime le taux.
  • Lestimateur de Kaplan-Meier est un modèle
    statistique non paramétrique.
  • Paradoxalement, il repose sur un raisonnement où
    le temps est pensé en continu.

41
Petite annexesur la troncation et la censure
42
Interprétation erronée de la troncation et de la
censure
  • Tuma, Nancy Brandon. 1982. Nonparametric and
    Partially Parametric Approaches to Event-History
    Analysis . Sociological Methodology, 13, p.
    1-60.

43
Interprétation erronée de la troncation et de la
censure
44
Interprétation erronée de la troncation et de la
censure
  • Tuma, N. B. et M. Hannan. 1984. Social Dynamics.
    Models and methods. Orlando FL Academic Press.

45
Interprétation erronée de la troncation et de la
censure
  • Kendall, M. G. et W. R. Buckland. 1960. A
    Dictionary of statistical terms, 2nd edition. New
    York NY Hafner Publishing Co.

46
Interprétation erronée de la troncation et de la
censure
  • Linterprétation erronée repose sur plusieurs
    confusions
  • On comprend que léchantillon dont il est
    question dans la définition de Kendall et
    Buckland est un échantillon dunités statistiques
    tirée dune population finie alors que les
    notions de troncation et de censure ont été
    introduites en statistique mathématique en
    raisonnant sur un échantillon de valeurs tiré
    dune population théorique.
  • On ne comprend pas que les mécanismes de censure
    et de troncation sont propres à chacun des
    tirages faits dans la distribution théorique. On
    imagine quils sont une propriété du plan de
    sondage ou du  plan dobservation , qui ne sont
    définis que pour un échantillon tiré dune
    population finie..
  • On imagine que les unités statistiques dont on
    peut tirer un échantillon dune population finie
    sont des biographies alors que ce sont des
    personnes.
  • On représente ces biographies au moyen dune
    ligne comme dans un diagramme de Lexis, ce qui
    conduit notamment à nommer censure à gauche ce
    qui est en fait lentrée échelonnée.

47
La confusion est encore plus grande en français
Write a Comment
User Comments (0)
About PowerShow.com