Slection de variables : quelles mthodes - PowerPoint PPT Presentation

1 / 21
About This Presentation
Title:

Slection de variables : quelles mthodes

Description:

Sur certains jeux de donn es, l'utilisation de m thodes diff rentes donne des r sultats diff rents ... Estime la valeur attendue de la distance de Kullback Leibler ... – PowerPoint PPT presentation

Number of Views:30
Avg rating:3.0/5.0
Slides: 22
Provided by: AVIALL
Category:

less

Transcript and Presenter's Notes

Title: Slection de variables : quelles mthodes


1
Sélection de variables quelle(s) méthode(s) ?
  • Anne Viallefont

2
Pourquoi la sélection de variables pose-t-elle
problème en écologie ?
  • Sur certains jeux de données, lutilisation de
    méthodes différentes donne des résultats
    différents
  • Si les variables explicatives sont complètement
    indépendantes, alors toutes les méthodes donnent
    le même résultat.
  • La  nouvelle statistique  permet de décrire les
    phénomènes complexes de lécologie (Hobbs
    Hilborn, Ecol. Applic., 2006)

3
De très nombreux articles récents
  • Méthode de létude bibliographique
  • Thèmes retenus sélection de modèles, de
    variables, model averaging, tests multiples
    dhypothèses nulles
  • tous les articles de lESA JASA Biometrics
    sur le sujet depuis 2003
  • toutes les références dans les articles
    disponibles (ESA Biometrics )
  • Thèmes non retenus modèles de mélange

4
Fréquence des articles consacrés à la sélection
de modèles
5
Notions de base
  • Maximum de vraisemblance
  • Cest la valeur des paramètres qui maximise la
    probabilité dapparition du jeu de données
    effectivement observé
  • Distance de Kullback - Leibler
  • Cest une mesure de la quantité dinformation
    perdue lorsquon représente la  vérité  par le
    modèle
  • Problème pour la connaître il faut connaître
    explicitement la  vérité  (p)

Pour une distribution discrète
6
Notions de base
  • Principe de parcimonie
  • Optimisation du trade-off entre variance et biais
    (ou entre ajustement et complexité)
  •  rasoir dOccam 
  • Lexplication la plus simple est la plus
    probable

7
Différentes méthodes possibles
  • Tests dhypothèses par comparaison de modèles
    emboîtés tests F partiels / LRT
  •  cross-validation 
  • AIC
  • Autres critères avec terme de pénalité
  • Approche  bayésienne 

8
La sélection de variables  à lancienne  -
tests successifs entre modèles emboîtés
  • Références
  • Voir par exemple Stephens et al. 2005 JAE
    424-12.
  • Avantages
  • Pertinence des questions / contrôle de ce quon
    fait
  • Inconvénients
  • Encouragerait (?) les questions  triviales , et
    les hypothèses nulles  silly 
  • test de nombreux facteurs ? ? ?
  • Le modèle final choisi dépend du  chemin  pris
  • Précautions demploi
  • Contrôle de ?
  • Choix dune procédure  step-down  après
    VALIDATION du modèle initial (test dajustement)

9
Le Critère dInformation dAkaike (AIC) - 1973
  • Estime la valeur attendue de la distance de
    Kullback Leibler
  • Avantages
  • Simplicité dutilisation
  • Interprétation Sélectionne le modèle le plus
    proche possible de la  vérité 
  • Inconvénients
  • A tendance à favoriser un modèle dautant plus
    compliqué quil y a plus de données
  • Précautions demploi
  • Sassurer que le modèle le plus complexe est
    ajusté aux données, sinon utiliser un  facteur
    dinflation  et QAIC (Lebreton et al. 1992)

10
De quoi se perdre
  • AIC 1973
  • TIC 1976
  • BIC Schwarz 1978
  • AICC Hurvich et Tsai 1989
  • NIC Murata et al. 1994
  • QAIC, QAICC Burnham et Anderson 1998
  • RIC Basu et al. 1998
  • DIC Spiegelhalter et al. 2002
  • FIC et FRIC (!) Claeskens et Hjort 2003
  • Cp, CVL, FPE, PredSS

11
AICC QAIC - QAICC
  • Hurvich et Tsai ont montré que AIC était biaisé
    pour les petits échantillons.
  • QAIC et QAICC Modification de AIC à utiliser si
    le modèle le plus complexe nest pas ajusté aux
    données

12
Lapproche bayésienne
  • On fixe une  probabilité a priori  à chacun des
    modèles que lon veut tester (?1, ?2, ?3).
    Exemples  Rasoir dOckham  pondération plus
    forte des modèles les plus simples
    équiprobabilité entre les modèles
  • On ajuste ces modèles (par des méthodes
    bayésiennes si possible), et on en déduit une
     probabilité a posteriori  selon la formule

13
Lapproche bayésienne
  • On utilise le critère BIC
  • Si la priori est  plat , alors
  • On peut trouver des estimateurs
     intermédiaires  par  model averaging  avec
    comme poids les proba a posteriori des modèles.

14
Lapproche bayésienne
  • Remarque intéressante (Burnham and Anderson 2004,
    Link and Barker 2006)
  • Si on utilise comme  a priori 
  • alors AIC BIC
  • Ce qui signifie que AIC est un cas particulier de
    BIC, avec des a priori dépendant directement du
    nombre de paramètres

15
Lapproche bayésienne
  • Avantages
  • On peut intégrer de linformation provenant
    dautres sources ou détudes antérieures
  • Si le  vrai modèle  se trouve parmi les modèles
    testés, cest celui-ci qui est choisi par BIC
  • Le modèle choisi a peu de paramètres facilement
    interprétables, et leur nombre naugmente pas
    lorsquon ajoute des données
  • Inconvénients
  • Manque de  puissance statistique 
  • Comportement imprévisible si le  vrai modèle 
    nest pas parmi ceux testés

16
Le débat en écologie Où en sommes-nous ?
  • Nous sommes loin dune procédure sur laquelle
    tout le monde saccorde
  •  In some cases, model-selection verbiage
    occupies numerous pages, whereas the only useful
    biological information might be a model-averaged
    estimate of some demographic variable. We
    suspect, therefore, that IT-AIC has increased the
    ratio of statistics to biology in the pages of
    ecological journals, which we view as
    unfortunate 
  • Guthery et al. JWM 2005

17
Le débat en écologie 1. arguments pro-AIC
  •  all statements in science are approximations of
    a complex truth ()  (Burnham Anderson 2002)
  • ? AIC
  • ce qui ninterdit pas le  model averaging 
  • AIC weights
  • Burnham et Anderson préconise de moyenner sur les
    modèles avec ?i  ? some value that is roughly 4
    to 7 

18
Le débat en écologie 2. arguments pro-BIC
  • Le  model averaging  na pas de sens hors du
    contexte bayésien
  • Attention ! Lutilisation dAIC favorise les
    modèles complexes (Link Barker)
  • ? choisir les proba a priori adéquates et
    utiliser BIC
  • Link et Barker proposent 4 calculs de proba a
    priori
  • Equiproba, AIC, proportionnel à Exp(k) et
     Occam  (proportionnel à Exp(-k))

19
Le débat en écologie 3. Autres arguments
  • Guthery et al (2005) voient lutilisation des
    critères de sélection de modèle comme
  • une forme dinduction scientifique, à condition
    davoir BIEN CHOISI en amont les modèles à tester
  • une analyse de sensibilité sur les variables du
    modèle le plus complexe
  • La sélection parmi de mauvais modèles ne peut
    donner un bon modèle
  • Il peut y avoir des  silly  modèles, comme des
     silly hypotheses 

20
Eléments de conclusion
  • Avoir de bonnes données ! ( garbage in, garbage
    out )
  • Choisir à lavance les modèles intéressants/plausi
    bles est PRIMORDIAL (on a vu un  meilleur
    modèle  prédire la présence de castors en
    labsence deau) 
  • Utiliser le bon outil
  • Lutilisation de multiples tests successifs sur
    modèles emboîtés est à éviter
  • Lutilisation doutils t.q. AICc est inutile pour
    comparer 2 ou 3 modèles
  • Voir les cas où TIC/DIC sont préférables dans
    Burnham et Anderson 2002 268-351

21
Eléments de conclusion
  •  Finally, we urge wildlife scientists to keep
    ecology, not statistics, in the forefront of
    wildlife science.
  • Statistics are messy tools we use because time
    and money constraints force insufficient
    sampling 
  • Guthery et al. 2005
Write a Comment
User Comments (0)
About PowerShow.com