Title: Avancer
1Avancer
De régression et ANOVA des données distribuées
normalement vers lapproche de modélisation
Wim Buysse
Research Methods Group
2Avertissement
- Le temps est limité.
- But ouvrir tout un monde dapproches de
modélisation - Avertissement Simple lt-gt simplicité
Research Methods Group
3Partie 1. Quelques points clés
Ce tableau montre lâge de 3 membres de lunité
ICRAF-ILRI Research Methods Group. Ils sont tous
males, sélectionnés dans une façon aléatoire, ils
sont de la même ethnie et de la même région
géographique. Quel test ou analyse statistique
nous utiliserons pour prouver quelle personne est
la plus âgée ?
Research Methods Group
4Partie 1. Quelques points clés
- CONCLUSION 1
- Comprenez plutôt les concepts et les principes
- Mettez vos analyses statistiques dans le contexte
du problème de recherche que vous voulez résoudre
Research Methods Group
5Partie 1. Quelques points clés
- NOUS FAISONS RECHERCHE APPLIQUÉ
- Comment tu vas résoudre le problème?
- Mettez des objectifs clairs et détaillés.
Research Methods Group
6Partie 1. Quelques points clés
RÉGRESSION
Research Methods Group
7Partie 1. Quelques points clés
- CONCLUSION 2
- Généralement, la statistique descriptive et
lexploration visuelle des données donne déjà une
réponse. - Si ce nest pas possible de trouver une réponse
comme ça, ça veut dire que quelque chose nest
pas correct. - Lanalyse statistique formelle donne simplement
une confirmation de ce que vous voyez. Et ça
ajoute des mesures de précision.
Research Methods Group
8Partie 1. Quelques points clés
- SIGNIFICATIF AU NIVEAU DE 5
- Est un critère arbitraire, utilisé la première
fois par Sir Ronald Fisher. - Ce critère était suivi sans réfléchir pendant des
dizaines dannées par presque tout le monde.
Research Methods Group
9Partie 1. Quelques points clés
- CONCLUSION 3
- Meilleur donnez le valeur p et interprétez le
contexte. - P 0.065 ?
- Largeur de léchantillon, largeur de
lexpérimentation, erreurs systématiques,
confusion, impact potentiel de lapplication des
résultats de recherche, signification biologique
- Être significatif nest pas toujours égale à être
important
Research Methods Group
10Partie 1. Quelques points clés
Research Methods Group
11Partie 1. Quelques points clés
- Être significatif lt-gt être important
- Reese, R. Allan. 2004. Does significance matter?
Significance vol. 1 issue 1 p. 39 40 - Sterne, Jonathan A. C. Smith, George Davey.
2001. Sifting the evidencewhat's wrong with
significance tests? BMJ Vol. 322 p. 226-231
Research Methods Group
12Partie 1. Quelques points clés
- PLUS GÉNÉRALEMENT
- Test dhypothèse
- Comparaisons multiples
- Ne cadre pas dans la philosophie la recherche
est une façon structurée dapprendre comment
résoudre des problèmes.
Research Methods Group
13Partie 1. Quelques points clés
- Test dhypothèse problèmes
- Pauvre logique ne contribue pas à mieux
comprendre le problème de recherche - Presque tous les hypothèses nuls sont faux dès le
début - H0 pas de différence entre les traitements?
- Même si on ajoute farine, chocolat, aux
plantes, ça aura un effet quelque part - Si on continue a augmenter le largeur de
léchantillon, il sera toujours un moment où on
peut rejeter lhypothèse nul
Research Methods Group
14Partie 1. Quelques points clés
- Test dhypothèse problèmes
- Il y a une tendance dans les publications
scientifiques de présenter (ou dêtre accepté par
des éditeurs) surtout des valeurs significatifs. - Suppositions du modèle
- Les différentes groups comparés sont de la même
population - Choix des paramètres du modèle
- Distribution théorique
Research Methods Group
15Partie 1. Quelques points clés
- Test dhypothèse SOLUTION 4
- Ne donne pas seulement le valeur p mais aussi
- Estimation des paramètres, largeur de leffet
- Leur précision
Research Methods Group
16Partie 1. Quelques points clés
Research Methods Group
17Partie 2. Modèles
Densité de Salmonella dans leau avec 3 niveaux
dacide et 2 niveau dactivité deau.
Research Methods Group
18Partie 2. Modèles
Approche ANOVA.
Research Methods Group
19Partie 2. Modèles
Résultats.
Research Methods Group
20Partie 2. Modèles
Mêmes données, mais chaque traitement est
présenté comme dummy variable.
Research Methods Group
21Partie 2. Modèles
Régression avec un premier variable indépendant.
Research Methods Group
22Partie 2. Modèles
Régression avec deux variables indépendants.
Research Methods Group
23Partie 2. Modèles
Régression avec trois variables indépendants.
Research Methods Group
24Partie 2. Modèles
Régression avec quatre variables indépendants.
Research Methods Group
25Partie 2. Modèles
On continue à construire le modèle.
Research Methods Group
26Partie 2. Modèles
Finalement, les résultats.
Research Methods Group
27Partie 2. Modèles
Comparaison des deux approches.
Research Methods Group
28Partie 2. Modèles
- Comparaison des deux approches
- Les deux approches donnent les mêmes résultats
globaux. - Lapproche à utiliser dépends de ce quon veut
savoir. - Lapproche de régression marche encore où
lapproche ANOVA ne marche plus (par exemple
quand il y a des valeurs manquantes).
Research Methods Group
29Exemple Approche modélisation des données
distribuées normalement
Données faire une enquête d'antécédents des
espèces appropriées pour une jachère améliorée de
trois ans fichier Fallow N.xls Protocole
p. 13 fichier part4.pdf
Research Methods Group
30Exemple Approche modélisation des données
distribuées normalement
Description de lanalyse dans chapitre 19 Good
statistical practice for natural resources
research
Il y a des copies disponible dans la
bibliothèque de lINERA
Research Methods Group
31Approche modélisation des données distribuées
normalement
- 5 étapes
- Explorez les données pour détecter des tendances
et des relations - Choisissez une modele possible
- Tendance quon voit
- Connaissance du design de lexpérience
- Connaissance biologique/scientifique du processus
- Fitting estimation des paramètres
- Check contrôler le fit
- Interprétation pour répondre aux objectifs de
lanalyse.
Research Methods Group
32Partie 3. Élargir le modèle
- ANOVA et régression
- Même calculs
- Données tendance bruit
- composante systématique composante aléatoire
- Même suppositions
- Des composantes peuvent être additionnées
- Variabilité des groups est similaire
- Composante aléatoire est distribuée
approximativement par la distribution normale. La
variabilité aléatoire de y autour du
composante systématique nest pas affectée par la
composante systématique.
Research Methods Group
33GENERAL LINEAR MODELS
Research Methods Group
34GENERAL LINEAR MODELS
Research Methods Group
35GENERAL LINEAR MODELS
Données tendance
bruit Tendance est expliquée par une
combinaison linéaire des variables
indépendantes (Données N(m,v) et la variance
est constante parmi les groups) Bruit N(0,1) et
la variance est constante parmi les groups
Research Methods Group
36Partie 3. Élargir le modèle
- Si les données ne sont pas distribuées
normalement ou si la variabilité des différents
groups nest pas similaire - Approche possible transformation des données
linéariser le modèle - Problèmes
- On ne travaille plus sur une échelle qui a une
signification biologique. - Retransformer les écart types de nouveau dans
léchelle originale nest pas possible.
Research Methods Group
37Partie 3. Élargir le modèle
Solution meilleure GENERAL LINEAR MODELS gt
GENERALIZED LINEAR MODELS
- Deux différences essentielles
- Distribution des données selon la famille
exponentielle des distribution Normal,
Binomial, Poisson, Gamma, Negative binomial - Link function le lien entre E(Y) et les
variables indépendantes nest plus une
combinaison linéaire mais peut être une
combinaison linéaire dune fonction de la moyenne
(transformation des valeurs dépendantes
Research Methods Group
38Partie 3. Élargir le modèle
Solution meilleure GENERAL LINEAR MODELS gt
GENERALIZED LINEAR MODELS
- Aussi
- La composante systématique (combinaison des
variables indépendantes) peut inclure des
variables continues, catégoriques ou des
fonctions polynomiales - Encore
- la variance est constante parmi les groups (ou
est devenu constante a cause de la transformation
(link function)
Research Methods Group
39Partie 3. Élargir le modèle
Statistique et théorie plus difficile, mais les
menus en GenStat sont très similaires à ce que
nous connaissons.
Research Methods Group
40Research Methods Group
41Partie 4. LOGISTIC REGRESSION
Exemple maladie cardio-vasculaire selon âge
age and chd.xls
Research Methods Group
42Partie 4. LOGISTIC REGRESSION
Exemple mêmes données mais par group dâge
Research Methods Group
43Partie 4. LOGISTIC REGRESSION
Exemple régression linéaire nest pas
appropriée et des prédictions ne seront pas
correctes aux extrêmes
Research Methods Group
44Partie 4. LOGISTIC REGRESSION
Exemple test ?2 information limitée
Research Methods Group
45Partie 4. LOGISTIC REGRESSION
- Processus Bernoulli un événement (indépendant)
qui peut avoir deux résultats possible (1 0,
succéder échouer, ) avec une probabilité
spécifique pour succéder - Jeter une monnaie pile ou face p 0,5
- Jeter 6 aux des (succéder) face à jeter un autre
numéro p 1/6 - Faire une enquête est-ce que le chef du ménage
sera mâle ou femelle? pproportion selon les
données récoltés - faire une enquête d'antécédents sur des maladies
cardio-vasculaires. p maladie 43 des 100
individus 0.43
Research Methods Group
46Partie 4. LOGISTIC REGRESSION
Research Methods Group
47Partie 4. LOGISTIC REGRESSION
Research Methods Group
48Partie 4. LOGISTIC REGRESSION
- Logistic function
- Forme sigmoïde
- Linéaire au centre
- Probabilité est limitée entre 0 et 1
- Petites valeurs aplatie vers 0 grandes valeurs
aplatie vers 1
Research Methods Group
49Partie 4. LOGISTIC REGRESSION
- GenStat output
- Similaire, mais deviance au lieu de variance
et test ?2 au lieu de test F
Research Methods Group
50Partie 4. LOGISTIC REGRESSION
- Logit(CHD) -5,31 0,1109 AGE
Research Methods Group
51Partie 4. LOGISTIC REGRESSION
- Logit(CHD) -5,31 0,1109 AGE
Research Methods Group
52Partie 4. LOGISTIC REGRESSION
Research Methods Group
53Partie 4. LOGISTIC REGRESSION
- Distribution binomiale on répète le processus
Bernoulli, lordre de succéder ou échouer peut
changer - Exemple chef de ménage dans lenquête
Research Methods Group
54Partie 4. LOGISTIC REGRESSION
- Si succès chef femelle avec p 0,2
Research Methods Group
55Partie 4. LOGISTIC REGRESSION
- Probabilité dobtenir des succès
- On peut construire une distribution des
fréquences dobtenir des succès - Probabilité fréquence sur longe terme
fréquence avec beaucoup de données - distribution binomiale
Research Methods Group
56Partie 4. LOGISTIC REGRESSION
- Distribution binomiale
- Pour le comptage des faits dun variable
catégorique - Exemple survie des arbres selon provenance dans
une expérience - Fichier survival trees.xls
Research Methods Group
57Partie 4. LOGISTIC REGRESSION
- Différentes approches possibles
1
Research Methods Group
58Partie 4. LOGISTIC REGRESSION
- Différentes approches possibles
1
Research Methods Group
59Partie 4. LOGISTIC REGRESSION
- Différentes approches possibles
2
Research Methods Group
60Partie 4. LOGISTIC REGRESSION
- Différentes approches possibles
2
Research Methods Group
61Partie 4. LOGISTIC REGRESSION
- Différentes approches possibles
3
Research Methods Group
62Partie 4. LOGISTIC REGRESSION
- Différentes approches possibles
3
Research Methods Group
63Partie 4. LOGISTIC REGRESSION
- La distribution Bernoulli est un cas spécial de
la distribution binomiale - On parle des familles des distributions.
Research Methods Group
64Partie 4. LOGISTIC REGRESSION
- La différence se trouve bien sur dans la partie
du variabilité qui est expliquée
1
2
3
Research Methods Group
65Partie 5. MODÉLISATION DES COMPTES - Poisson
- Nous avons utilisé logistic regression pour
analyser des comptes. - Distribution Bernoulli distribution du succès
des événements qui suivent un processus Bernoulli
(1 ou 0, oui ou non) - Distribution binomiale distribution des
combinaisons possibles (et indépendantes) des
événements Bernoulli - Donc, cétait plutôt lanalyse des rapports.
- Distribution Poisson distribution des comptes
des événements Bernoulli
Research Methods Group
66Partie 5. MODÉLISATION DES COMPTES - Poisson
- Distribution Poisson distribution des comptes
des événements Bernoulli - MAIS
- p est très petit
- n est très large
- pn lt 5
- Les événements se passent lun de lautre dans
une façon indépendante et aléatoire.
Research Methods Group
67Partie 5. MODÉLISATION DES COMPTES - Poisson
- Distribution Poisson distribution des
événements rares - Nombre des accidents avec des avions civiles
(quand il ny a pas de guerre) dans tout le monde
pendant plusieurs années. - Nombre de semences infecté dans des lots de
semence qui sont certifies par lINERA - Nombre dindividus dune espèce darbre rare dans
un kilomètre carre dans la même zone écologique
Research Methods Group
68Partie 5. MODÉLISATION DES COMPTES
- DONC
- La distribution qui décrit bien les comptes nest
pas automatiquement la distribution Poisson. - Ça dépend du contexte.
Research Methods Group
69Partie 5. MODÉLISATION DES COMPTES - Poisson
Le rapport moyen/variance doit être 1. Poisson
index En GenStat (s2-m)/m
Research Methods Group
70Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
Nous avons déjà brièvement vu des autres comptes
test ?2
test ?2 est-ce quil y a de lévidence quil
existe une association parmi les 2 variables
discrètes H0 pas dassociation H1 association
Research Methods Group
71Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
Maintenant nous utilisons une autre probabilité
pour calculer le test
Research Methods Group
72Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
Si les comptes dans les cellules sont considérés
comme une variable, nous pouvons construire une
distribution de la fréquence.
Research Methods Group
73Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
- Distribution de la fréquence sur longe terme
distribution de probabilité - Nous venons délargir la distribution binomiale
vers la distribution multinomiale - Distribution binomiale
- Observations indépendantes
- p succès la même partout ou p dune observation
individuelle de tomber dans une cellule
spécifique du tableau est la même que pour tomber
dans des autres cellules - Distribution multinomiale
- Le nombre des observations total (leffectif) est
fixe
Research Methods Group
74Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
Si leffectif nétait pas fixe gt distribution
Poisson MAIS Grace à beaucoup de théorie
statistique difficile nous pouvons aussi
utiliser la distribution Poisson même si
leffectif nest pas fixe.
Research Methods Group
75Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
DONC Bien que le contexte est important pour
décider si nous pouvons utiliser la distribution
Poisson pour analyser des comptes (distribution
des événements rares) Généralement Analyse
des multiway contingency tables gt distribution
Poisson logarithm link LOGLINEAR MODELING
Research Methods Group
76Partie 5. MODÉLISATION DES COMPTES Multiway
contingency tables
- Analyser des comptes
- Souvent nous pouvons utiliser la distribution
Poisson - Mais pas toujours
Research Methods Group
77Partie 5. MODÉLISATION DES COMPTES LOGLINEAR
MODELLING
Research Methods Group
78Partie 5. MODÉLISATION DES COMPTES LOGLINEAR
MODELLING
Ajouter des interactions
Research Methods Group
79Partie 5. MODÉLISATION DES COMPTES LOGLINEAR
MODELLING
test ?2
Loglinear modelling
Research Methods Group
80Partie 5. MODÉLISATION DES COMPTES LOGLINEAR
MODELLING
- Modélisation des données complexes
- Ajouter ou laisser tomber des termes et
interactions dans le modèle et changer lordre - Bon modèle (good fit ) quand le residual
deviance est presque égal au numéro de dégrées
de liberté (ou mean deviance 0) - A ce moment, on peut sattendre à ce qui reste de
variabilité venant de la variabilité aléatoire - Ajouter trop de termes residual deviance gt 0
Research Methods Group
81Partie 5. MODÉLISATION DES COMPTES LOGLINEAR
MODELLING
Research Methods Group