Biostatistiques II 15h 15h T'P' - PowerPoint PPT Presentation

1 / 20
About This Presentation
Title:

Biostatistiques II 15h 15h T'P'

Description:

est la somme de la ligne i sur toutes les colonnes. X.j est la somme de la colonne j sur toutes les lignes ... Comme les lignes et les colonnes ont m me r le dans un tableau de ... – PowerPoint PPT presentation

Number of Views:189
Avg rating:3.0/5.0
Slides: 21
Provided by: grosjean
Category:

less

Transcript and Presenter's Notes

Title: Biostatistiques II 15h 15h T'P'


1
Biostatistiques II15h 15h T.P.
  • Salle informatique, Pentagone, 0E10
  • Philippe Grosjean (Philippe.Grosjean_at_umh.ac.be,
    Pentagone 3D08, ext. 34.97)

2
ACP exercice 3
  • Physico-chimie de leau de mer transect à
    travers une zone frontale
  • Jeu marphy, librairie pastecs
  • 68 stations, mesure tC, chlorophylle, densité,
    salinité
  • Graphe des masses deaux example(AutoD2)
  • Faire lACP et linterpréter
  • Mesure du plancton aux mêmes stations
  • Jeu marbio, librairie pastecs
  • Examinez le tableau
  • Essayer une ACP (princomp -gt summary -gt biplot)
  • Analysez et concluez
  • Faire un  levelmap 

3
Analyse Factorielle des Correspondances
  • AFC (anglais Correspondence Analysis)
  • Tableau multivarié, données qualitatives ou
    semi-quantitatives
  • LACP ne peut être utilisée
  • Tableau de contingence à double entrée, ou
  • Tableau de type dénombrement espèces stations
  • Utilisation de la statistique Chi-carré

4
Rappel Table de contingence et test Chi carré
  • Table de contingence représentation de
    proportionsex. simple autopollinisation de
    fleurs roses dAntirrhinum majus gt on sattend à
    obtenir les fleurs suivantes H0 rouge 25,
    rose 50, blanche 25selon la génétique
    Mendélienne Le résultat est le
    suivant rouge 54, rose122, blanche
    58Soit des probabilités estimées respectives
    de rouge 23.1, rose52.1, blanche 24.8
  • Comment savoir si ces observations confirment H0?

5
Rappel Test Chi carré
  • Tester les proportions observées ai (R 54, r
    122, B 58)
  • Nombre total de fleurs 54 122 58 234
  • Comparaison à un effectif théorique aiR 0.25 x
    234 58.5, r 0.50 x 234 117, B 0.25 x 234
    58.5
  • Calcul de la statistique  chi carré  (c2)
    par
  • Cela donnec2 (54-58.5)2/58.5 (122-117)2/117
    (58-58.5)2/58.5 0.56
  • Comparaison de cette statistique à la
    distribution théorique du Chi-carré gt décision

6
Rappel Chi carré pour un tableau r x k
  • Le test se généralise pour un tableau de
    contingence r x kai (total ligne . total
    colonne) / total général
  • Le nbr de ddl (r 1).(k 1)
  • Notez ceci
  • Les termes respectifs du Chi-deux pour chaque
    cellule du tableau quantifient lécart entre les
    observations et un tableau sous H0 où toutes les
    observations sont indépendantes
  • On peut appliquer une ACP si on remplace les
    effectifs observé par leur contribution au
    Chi-carré, puisque lon obtient alors une
    variable calculée quantitative
  • Le tableau de contingence peut être traité
    indifféremment dans les deux sens (pas de
    distinction cas versus variable)

7
Distance Euclidienne versus Chi carré
  • Distance euclidienne
  • Distance du Chi carréoùxi. est la somme de
    la ligne i sur toutes les colonnes
  • X.j est la somme de la colonne j sur toutes les
    lignes
  • On peut faire le même calcul en inversant les
    lignes et les colonnes (calcul d2(j, j).)

8
Exemple
  • Tableau simple espèces (A-C) / stations (1-3)
    Comparez distance euclidienne et chi carré et
    calculez les matrices des distances respectives.

9
AFC (suite)
  • Projection des correspondances entre les espèces
    (ligne) et les stations (colonnes) dans un espace
    simplifié idem que lACP
  • Interprétation plus les objets sont proches,
    plus ils ont un comportement similaire
  • Comme les lignes et les colonnes ont même rôle
    dans un tableau de contingence, on calcule selon
    les deux orientations (2 ACP) gt
  • Pour les espèces elles sont présentes ou
    absentes simultanément
  • Pour les stations composition faunistique
    similaire

10
AFC dans R
  • Pas dentrée dans R Commander, mais commande
    simple à entrer dans Rgt library(MASS) Package
    contenant la fonctiongt data(caith)gt caith Un
    simple tableau de contingence comme exemplegt
    plot(corresp(caith, nf 2)) Commande unique
    pour lAFC
  • Interprétation du graphique
  • Niveaux de la variable en colonne en rouge
  • Niveaux de la variable en ligne en noir
  • La distance entre les niveaux dune variable
    indique leur similarité ou différences
  • Le rapprochement entre les objets dune variable
    et de lautre indique la correspondance entre eux

11
AFC Exercice 1
  • Réanalyser marbio via une AFC
  • Interprétez et comparez avec lACP

12
AFC Exercice 2
  • Analyse faunistique (oiseaux) sur 182 sites dans
    les Pyrénées. Jeu de données rpjdl, package
    ade4
  • Attention! Le fichier rpjdl est une liste
    contenant plusieurs items. Faites ?rpjdl pour
    laide, puis faune lt- rpjdlfau pour extraire le
    tableau faunistique (tableau présence-absence).
  • Effectuez une AFC
  • Interprétez-là
  • Distribution typique en  fer à cheval 
    (transect, notion de niche écologique, succession
    des niches écologiques). Cest leffet Guttman

13
Matrice de distances
  • La matrice de distances est le point de départ
    (première étape explicite ou implicite) de
    nombreuses analyses multivariées
  • Présentation des individus ou des variables aussi
    bien en ligne quen colonne gt matrice carrée
  • Les éléments de la matrice correspondent à toutes
    les paires possibles, prises deux à deux
  • Exemples de matrices de distances déjà abordées
  • Matrice de variances/covariances distances
    euclidiennes au carré (voir ACP)
  • Matrice de corrélation distances euclidiennes
    au carré sur des données standardisées
  • Matrice de distances du Chi carré (AFC)

14
Indice de similarité/dissimilarité
  • Un indice de similarité est une mesure de la
    similitude de deux échantillons.
  • Il prend une valeur comprise entre 0 (différence
    totale) et 100 (similitude totale).
  • Un indice de dissimilarité est le complément dun
    indice de similarité (dis 1 sim) sa valeur
    est comprise entre 100 (différence totale) et 0
    (similitude totale). Lorsquil sagit dune
    distance, cet indice varie alors de 0 à
    infini.
  • Tous les indices de similarité / dissimilarité
    peuvent servir à construire des matrices de
    distance

15
Indice de similarité Bray-Curtis
  • coefficient de Czecanowski
  • Sutilise pour mesurer la similitude entre
    échantillon sur base du dénombrement despèces
  • Si nombre très variable, penser à transformer
    (ex log(x 1), double racine carrée, )

16
Indice de similarité Canberra
  • Similaire à un Bray-Curtis pondéré
  • Toutes les espèces contribuent de manière égale
    gt possibilité de surimportance dune espèces
    mesurée une seule fois!
  • Toute double absence nest pas prise en compte gt
    se comporte bien face aux tableaux comportant
    beaucoup de zéros (idem Bray-Curtis)

17
Utilisation dindices de similarité
  • Indices ne dépendant pas de doubles zéros
  • Bray-Curtis gt résultat dominé par espèces les
    plus abondantes
  • Canberra gt risque de domination des espèces
    rares
  • Bray-Curtis sur données transformées (log(x1) ou
    double racine carrée) souvent bon compromis.
  • Si les volumes échantillonnés entre stations ne
    sont pas comparables, il faut standardiser

18
Indice de dissimilarité dist. Euclidienne
  • Déjà vue (cf ACP)
  • Distance  géométrique  entre les points

19
Indice de dissimilarité Manhattan
  • Ou encore  city-block distance 
  • Il en existe bien dautres!

20
Utilisation dindices de dissimilarité
  • Les distances euclidienne ou de Manhattan sont à
    préférer pour les mesures environnementales,
    alors que la distance de Bray-Curtis ou Canberra
    est meilleure pour les espèces (double zéro)!
  • Exercices explorer les différentes matrices de
    distances sur marbio, marphy, bnr, iris,
    etc
Write a Comment
User Comments (0)
About PowerShow.com