Title: Biostatistiques II 15h 15h T'P'
1Biostatistiques II15h 15h T.P.
- Salle informatique, Pentagone, 0E10
- Philippe Grosjean (Philippe.Grosjean_at_umh.ac.be,
Pentagone 3D08, ext. 34.97)
2ACP exercice 3
- Physico-chimie de leau de mer transect à
travers une zone frontale - Jeu marphy, librairie pastecs
- 68 stations, mesure tC, chlorophylle, densité,
salinité - Graphe des masses deaux example(AutoD2)
- Faire lACP et linterpréter
- Mesure du plancton aux mêmes stations
- Jeu marbio, librairie pastecs
- Examinez le tableau
- Essayer une ACP (princomp -gt summary -gt biplot)
- Analysez et concluez
- Faire un levelmap
3Analyse Factorielle des Correspondances
- AFC (anglais Correspondence Analysis)
- Tableau multivarié, données qualitatives ou
semi-quantitatives - LACP ne peut être utilisée
- Tableau de contingence à double entrée, ou
- Tableau de type dénombrement espèces stations
- Utilisation de la statistique Chi-carré
4Rappel Table de contingence et test Chi carré
- Table de contingence représentation de
proportionsex. simple autopollinisation de
fleurs roses dAntirrhinum majus gt on sattend à
obtenir les fleurs suivantes H0 rouge 25,
rose 50, blanche 25selon la génétique
Mendélienne Le résultat est le
suivant rouge 54, rose122, blanche
58Soit des probabilités estimées respectives
de rouge 23.1, rose52.1, blanche 24.8 - Comment savoir si ces observations confirment H0?
5Rappel Test Chi carré
- Tester les proportions observées ai (R 54, r
122, B 58) - Nombre total de fleurs 54 122 58 234
- Comparaison à un effectif théorique aiR 0.25 x
234 58.5, r 0.50 x 234 117, B 0.25 x 234
58.5 - Calcul de la statistique chi carré (c2)
par - Cela donnec2 (54-58.5)2/58.5 (122-117)2/117
(58-58.5)2/58.5 0.56 - Comparaison de cette statistique à la
distribution théorique du Chi-carré gt décision
6Rappel Chi carré pour un tableau r x k
- Le test se généralise pour un tableau de
contingence r x kai (total ligne . total
colonne) / total général - Le nbr de ddl (r 1).(k 1)
- Notez ceci
- Les termes respectifs du Chi-deux pour chaque
cellule du tableau quantifient lécart entre les
observations et un tableau sous H0 où toutes les
observations sont indépendantes - On peut appliquer une ACP si on remplace les
effectifs observé par leur contribution au
Chi-carré, puisque lon obtient alors une
variable calculée quantitative - Le tableau de contingence peut être traité
indifféremment dans les deux sens (pas de
distinction cas versus variable)
7Distance Euclidienne versus Chi carré
- Distance euclidienne
- Distance du Chi carréoùxi. est la somme de
la ligne i sur toutes les colonnes - X.j est la somme de la colonne j sur toutes les
lignes - On peut faire le même calcul en inversant les
lignes et les colonnes (calcul d2(j, j).)
8Exemple
- Tableau simple espèces (A-C) / stations (1-3)
Comparez distance euclidienne et chi carré et
calculez les matrices des distances respectives.
9AFC (suite)
- Projection des correspondances entre les espèces
(ligne) et les stations (colonnes) dans un espace
simplifié idem que lACP - Interprétation plus les objets sont proches,
plus ils ont un comportement similaire - Comme les lignes et les colonnes ont même rôle
dans un tableau de contingence, on calcule selon
les deux orientations (2 ACP) gt - Pour les espèces elles sont présentes ou
absentes simultanément - Pour les stations composition faunistique
similaire
10AFC dans R
- Pas dentrée dans R Commander, mais commande
simple à entrer dans Rgt library(MASS) Package
contenant la fonctiongt data(caith)gt caith Un
simple tableau de contingence comme exemplegt
plot(corresp(caith, nf 2)) Commande unique
pour lAFC - Interprétation du graphique
- Niveaux de la variable en colonne en rouge
- Niveaux de la variable en ligne en noir
- La distance entre les niveaux dune variable
indique leur similarité ou différences - Le rapprochement entre les objets dune variable
et de lautre indique la correspondance entre eux
11AFC Exercice 1
- Réanalyser marbio via une AFC
- Interprétez et comparez avec lACP
12AFC Exercice 2
- Analyse faunistique (oiseaux) sur 182 sites dans
les Pyrénées. Jeu de données rpjdl, package
ade4 - Attention! Le fichier rpjdl est une liste
contenant plusieurs items. Faites ?rpjdl pour
laide, puis faune lt- rpjdlfau pour extraire le
tableau faunistique (tableau présence-absence). - Effectuez une AFC
- Interprétez-là
- Distribution typique en fer à cheval
(transect, notion de niche écologique, succession
des niches écologiques). Cest leffet Guttman
13Matrice de distances
- La matrice de distances est le point de départ
(première étape explicite ou implicite) de
nombreuses analyses multivariées - Présentation des individus ou des variables aussi
bien en ligne quen colonne gt matrice carrée - Les éléments de la matrice correspondent à toutes
les paires possibles, prises deux à deux - Exemples de matrices de distances déjà abordées
- Matrice de variances/covariances distances
euclidiennes au carré (voir ACP) - Matrice de corrélation distances euclidiennes
au carré sur des données standardisées - Matrice de distances du Chi carré (AFC)
14Indice de similarité/dissimilarité
- Un indice de similarité est une mesure de la
similitude de deux échantillons. - Il prend une valeur comprise entre 0 (différence
totale) et 100 (similitude totale). - Un indice de dissimilarité est le complément dun
indice de similarité (dis 1 sim) sa valeur
est comprise entre 100 (différence totale) et 0
(similitude totale). Lorsquil sagit dune
distance, cet indice varie alors de 0 à
infini. - Tous les indices de similarité / dissimilarité
peuvent servir à construire des matrices de
distance
15Indice de similarité Bray-Curtis
- coefficient de Czecanowski
- Sutilise pour mesurer la similitude entre
échantillon sur base du dénombrement despèces - Si nombre très variable, penser à transformer
(ex log(x 1), double racine carrée, )
16Indice de similarité Canberra
- Similaire à un Bray-Curtis pondéré
- Toutes les espèces contribuent de manière égale
gt possibilité de surimportance dune espèces
mesurée une seule fois! - Toute double absence nest pas prise en compte gt
se comporte bien face aux tableaux comportant
beaucoup de zéros (idem Bray-Curtis)
17Utilisation dindices de similarité
- Indices ne dépendant pas de doubles zéros
- Bray-Curtis gt résultat dominé par espèces les
plus abondantes - Canberra gt risque de domination des espèces
rares - Bray-Curtis sur données transformées (log(x1) ou
double racine carrée) souvent bon compromis. - Si les volumes échantillonnés entre stations ne
sont pas comparables, il faut standardiser
18Indice de dissimilarité dist. Euclidienne
- Déjà vue (cf ACP)
- Distance géométrique entre les points
19Indice de dissimilarité Manhattan
- Ou encore city-block distance
- Il en existe bien dautres!
20Utilisation dindices de dissimilarité
- Les distances euclidienne ou de Manhattan sont à
préférer pour les mesures environnementales,
alors que la distance de Bray-Curtis ou Canberra
est meilleure pour les espèces (double zéro)! - Exercices explorer les différentes matrices de
distances sur marbio, marphy, bnr, iris,
etc