Title: Slection de variables : quelles mthodes
1Sélection de variables quelle(s) méthode(s) ?
2Pourquoi la sélection de variables pose-t-elle
problème en écologie ?
- Sur certains jeux de données, lutilisation de
méthodes différentes donne des résultats
différents - Si les variables explicatives sont complètement
indépendantes, alors toutes les méthodes donnent
le même résultat. - La  nouvelle statistique permet de décrire les
phénomènes complexes de lécologie (Hobbs
Hilborn, Ecol. Applic., 2006)
3De très nombreux articles récents
- Méthode de létude bibliographique
- Thèmes retenus sélection de modèles, de
variables, model averaging, tests multiples
dhypothèses nulles - tous les articles de lESA JASA Biometrics
sur le sujet depuis 2003 - toutes les références dans les articles
disponibles (ESA Biometrics ) - Thèmes non retenus modèles de mélange
4Fréquence des articles consacrés à la sélection
de modèles
5Notions de base
- Maximum de vraisemblance
- Cest la valeur des paramètres qui maximise la
probabilité dapparition du jeu de données
effectivement observé - Distance de Kullback - Leibler
- Cest une mesure de la quantité dinformation
perdue lorsquon représente la  vérité par le
modèle - Problème pour la connaître il faut connaître
explicitement la  vérité (p)
Pour une distribution discrète
6Notions de base
- Principe de parcimonie
- Optimisation du trade-off entre variance et biais
(ou entre ajustement et complexité) -  rasoir dOccamÂ
- Lexplication la plus simple est la plus
probable
7Différentes méthodes possibles
- Tests dhypothèses par comparaison de modèles
emboîtés tests F partiels / LRT -  cross-validationÂ
- AIC
- Autres critères avec terme de pénalité
- Approche  bayésienneÂ
8La sélection de variables  à lancienne -
tests successifs entre modèles emboîtés
- Références
- Voir par exemple Stephens et al. 2005 JAE
424-12. - Avantages
- Pertinence des questions / contrôle de ce quon
fait - Inconvénients
- Encouragerait (?) les questions  triviales , et
les hypothèses nulles  silly - test de nombreux facteurs ? ? ?
- Le modèle final choisi dépend du  chemin pris
- Précautions demploi
- Contrôle de ?
- Choix dune procédure  step-down après
VALIDATION du modèle initial (test dajustement)
9Le Critère dInformation dAkaike (AIC) - 1973
- Estime la valeur attendue de la distance de
Kullback Leibler - Avantages
- Simplicité dutilisation
- Interprétation Sélectionne le modèle le plus
proche possible de la  vérité - Inconvénients
- A tendance à favoriser un modèle dautant plus
compliqué quil y a plus de données - Précautions demploi
- Sassurer que le modèle le plus complexe est
ajusté aux données, sinon utiliser un  facteur
dinflation et QAIC (Lebreton et al. 1992)
10De quoi se perdre
- AIC 1973
- TIC 1976
- BIC Schwarz 1978
- AICC Hurvich et Tsai 1989
- NIC Murata et al. 1994
- QAIC, QAICC Burnham et Anderson 1998
- RIC Basu et al. 1998
- DIC Spiegelhalter et al. 2002
- FIC et FRIC (!) Claeskens et Hjort 2003
- Cp, CVL, FPE, PredSS
11AICC QAIC - QAICC
- Hurvich et Tsai ont montré que AIC était biaisé
pour les petits échantillons. - QAIC et QAICC Modification de AIC à utiliser si
le modèle le plus complexe nest pas ajusté aux
données
12Lapproche bayésienne
- On fixe une  probabilité a priori à chacun des
modèles que lon veut tester (?1, ?2, ?3).
Exemples  Rasoir dOckham pondération plus
forte des modèles les plus simples
équiprobabilité entre les modèles - On ajuste ces modèles (par des méthodes
bayésiennes si possible), et on en déduit une
 probabilité a posteriori selon la formule
13Lapproche bayésienne
- On utilise le critère BIC
- Si la priori est  plat , alors
- On peut trouver des estimateurs
 intermédiaires par  model averaging avec
comme poids les proba a posteriori des modèles.
14Lapproche bayésienne
- Remarque intéressante (Burnham and Anderson 2004,
Link and Barker 2006) - Si on utilise comme  a prioriÂ
- alors AIC BIC
- Ce qui signifie que AIC est un cas particulier de
BIC, avec des a priori dépendant directement du
nombre de paramètres
15Lapproche bayésienne
- Avantages
- On peut intégrer de linformation provenant
dautres sources ou détudes antérieures - Si le  vrai modèle se trouve parmi les modèles
testés, cest celui-ci qui est choisi par BIC - Le modèle choisi a peu de paramètres facilement
interprétables, et leur nombre naugmente pas
lorsquon ajoute des données - Inconvénients
- Manque de  puissance statistiqueÂ
- Comportement imprévisible si le  vrai modèleÂ
nest pas parmi ceux testés
16Le débat en écologie Où en sommes-nous ?
- Nous sommes loin dune procédure sur laquelle
tout le monde saccorde - Â In some cases, model-selection verbiage
occupies numerous pages, whereas the only useful
biological information might be a model-averaged
estimate of some demographic variable. We
suspect, therefore, that IT-AIC has increased the
ratio of statistics to biology in the pages of
ecological journals, which we view as
unfortunate - Guthery et al. JWM 2005
17Le débat en écologie 1. arguments pro-AIC
- Â all statements in science are approximations of
a complex truth ()Â (Burnham Anderson 2002) - ? AIC
- ce qui ninterdit pas le  model averagingÂ
- AIC weights
- Burnham et Anderson préconise de moyenner sur les
modèles avec ?i  ? some value that is roughly 4
to 7Â
18Le débat en écologie 2. arguments pro-BIC
- Le  model averaging na pas de sens hors du
contexte bayésien - Attention ! Lutilisation dAIC favorise les
modèles complexes (Link Barker) - ? choisir les proba a priori adéquates et
utiliser BIC - Link et Barker proposent 4 calculs de proba a
priori - Equiproba, AIC, proportionnel à Exp(k) et
 Occam (proportionnel à Exp(-k))
19Le débat en écologie 3. Autres arguments
- Guthery et al (2005) voient lutilisation des
critères de sélection de modèle comme - une forme dinduction scientifique, à condition
davoir BIEN CHOISI en amont les modèles à tester - une analyse de sensibilité sur les variables du
modèle le plus complexe - La sélection parmi de mauvais modèles ne peut
donner un bon modèle - Il peut y avoir des  silly modèles, comme des
 silly hypothesesÂ
20Eléments de conclusion
- Avoir de bonnes données ! ( garbage in, garbage
out ) - Choisir à lavance les modèles intéressants/plausi
bles est PRIMORDIAL (on a vu un  meilleur
modèle prédire la présence de castors en
labsence deau)Â - Utiliser le bon outil
- Lutilisation de multiples tests successifs sur
modèles emboîtés est à éviter - Lutilisation doutils t.q. AICc est inutile pour
comparer 2 ou 3 modèles - Voir les cas où TIC/DIC sont préférables dans
Burnham et Anderson 2002 268-351
21Eléments de conclusion
- Â Finally, we urge wildlife scientists to keep
ecology, not statistics, in the forefront of
wildlife science. - Statistics are messy tools we use because time
and money constraints force insufficient
sampling - Guthery et al. 2005