Analyse des donnes des puces ADN - PowerPoint PPT Presentation

About This Presentation
Title:

Analyse des donnes des puces ADN

Description:

Puis on normalise ces quantit s en fonction de divers param tres (quantit de ... On peut aussi calculer la p-value pour chaque g ne et ordonner les g nes ... – PowerPoint PPT presentation

Number of Views:855
Avg rating:3.0/5.0
Slides: 27
Provided by: lri
Category:
Tags: adn | analyse | des | donnes | ordonner | puces

less

Transcript and Presenter's Notes

Title: Analyse des donnes des puces ADN


1
Analyse des données des puces ADN
  • On a deux images de la puce à partir des quelles
    il faut réussir à évaluer lexpression dun gène.
    On procède par rapport à un échantillon de
    référence. Pour cela, on utilise deux marqueurs
    Cy3 et Cy5 sur deux échantillon distincts (dont
    un est constitué de cellules normales et servira
    de référence). On mesure la quantité de signal
    dans la longueur d'onde démission du
    fluorochrome vert et la quantité de signal dans
    la longueur d'onde démission du fluorochrome
    rouge. Puis on normalise ces quantités en
    fonction de divers paramètres (quantité de
    matériel biologique de départ dans chaque
    condition, puissance démission de chaque
    fluorochrome, ...).
  • On suppose alors que la quantité d'ADN
    fluorescent fixée est proportionnelle à la
    quantité d'ARNm correspondant dans la cellule de
    départ et on calcule le ratio fluorescence rouge
    / fluorescence verte. Si ce ratio est supérieur à
    1 (rouge sur l'image en fausses couleurs), le
    gène est plus exprimé dans la seconde culture, si
    ce ratio est inférieur à 1 (vert sur l'image en
    fausses couleurs), le gène est moins exprimé dans
    la seconde culture.

2
Acquisition des données
  • Scanner la puce
  • Évaluer quantitativement chaque spot
  • Soustraire le signal de bruit
  • Normaliser
  • Transformer en tables dintensités de
    fluorescence (organisme ? gènes)

3
Défauts courants
4
Variabilité des données de transcriptome
  • Les données de puces à ADN sont très variables
    (mesures de niveaux de mARN)
  • Toute mesure de milliers de valeurs trouvera des
    différences importantes dues aux fluctuations
    aléatoires (distribution normale)
  • Il faut utiliser des méthodes statistiques et de
    réplication pour vérifier que les différences
    sont réelles
  • Il faut utiliser des réplications réelles
    (patients différents, expériences différentes)
  • Sources potentielles de problèmes
  • Analyse dimage
  • identifier et quantifier les spots
  • Scannerisation
  • Laser et détecteurs
  • Chimie des marqueurs fluorescents
  • Hybridisation
  • Température, durée, mélange,
  • Étiquetage des sondes
  • Extraction dARN
  • Variabilité de nature biologique

5
Comparer la moyenne de deux groupes
signal
difference between group means

noise
variability of groups
_
_
XT - XC
_
_

SE(XT - XC)
low variability
6
Etude des radiations
  • Danger indiscutable dans certains cas. En
    particulier pour les fortes doses dirradiation.
  • Quel impact des faibles doses ?
  • Biologiquement aucun détecté
  • Y a-t-il dautres effets ?

7
Protocole expérimental
  • S. Cerevisiae en croissance exponentielle
    (séquencée complètement et eucaryote avec peu de
    gènes).
  • Six cultures (Irradiées I) exposées pendant 20
    heures entre 15 et 30 mGy/h
  • Douze cultures non exposées (Non Irradiées NI)
  • Mesure effectuées sur puce Corning où
    lhybridation a été faite avec double marquage
    fluorescent (Cy3 pour les cADN contrôles et Cy5
    pour les cADN étudiés).

8
Normalisation des données
  • La normalisation a été réalisée par LOWESS (
    LOcally WEighted Scatterplot Smoothing ), Julie
    PEYRE Anestis ANTONIADIS (IMAG)

Où R et G sont les niveaux dintensité de Rouge
et de Vert.
9
Analyse du transcriptome sur la levure
  • Lirradiation à de faibles doses est-elle
    détectable ?
  • Nombre de gènes impliqués dans la réponse à une
    irradiation à faible dose ?
  • Groupes de gènes impliqués dans la réponse à
    lirradiation et de quelle manière ?
  • Est-il possible de deviner le traitement subi par
    une levure en regardant lexpression de son
    génome ?
  • Peut-on généraliser cette approche à dautres
    types de traitements (pollutions, cancer, ...)

10
Les sources de problèmes
  • Présence de bruit dans les données à deux
    niveaux
  • Imprécision de la mesure  bruit classique
  • supposé gaussien, bruit qui est très élevé
    pour certains gènes (cf doubles mesures)
  • Présence de valeurs aberrantes dues
  • à un problème lors de l'hybridation
  • Données déjà normalisées
  • Nombreux attributs 6157 gènes
  • Très faible nombre dinstances 12 cultures
    non-traitées, 6 irradiées
  • Classes déséquilibrées (elles ne contiennent pas
    le même nombre d'éléments)
  • Absence d'indépendance conditionnelle
    probabiliste entre les gènes

11
Démarche
  • Méthode directe de discrimination illusoire
    mais essayée
  • On conserve les gène dont le log ratio a dépassé
    3 fois la valeur 1 (par exemple)
  • Trop de  solutions 
  • Aucune garantie sur chacune delles
  • Prétraitement
  • Sélection dattributs
  • Approche directe
  • Approche  wrapper 
  • Approche par filtrage
  • Réduction de dimensionnalité
  • Groupement de gènes a priori (réseaux de
    régularisation)

12
Sélection (estimation) dattributs
  • Hypothèse de linéarité
  • Chaque attribut pertinent a une corrélation
    directe (mesurable) avec la classe
  • Quelle garantie sur chaque attribut sélectionné ?
  • Sélection
  • Chaque attribut passe un test
  • Estimation
  • On ordonne les attributs en fonction dun critère
    de performance
  • Quel seuil (choisi globalement) ?
  • Quelle confiance ?

13
Sélection
  • Techniques classiques (FOCUS, RELIEF, Wrappers,
    Embeded techniques)
  • Trop peu de garantie sur chaque corrélation
    détectée (attribut)
  • Comparaison à hypothèse nulle globale
  • Interprétation / confirmation par les
    biologistes

14
Utilisation dANOVA
  • Deux classes (Irradiée / Non Irradiée)
  • N(m1,s) et N (m2,s)
  • Comparaison
  • Variance intra-classe
  • Variance inter-classes
  • Hypothèse nulle H0 m1 m2
  • Rejet si

significativement trop grand par rapport aux
quantiles de la foi F (k-1,n-k)
15
Utilisation dANOVA (suite)
  • On peut aussi calculer la p-value pour chaque
    gène et ordonner les gènes
  • probabilité que le test rejette lhypothèse H0 à
    tort

16
SAM (Significance Analysis of Microarrays)
  • Pour chaque gène
  • déviation standard

Constante gt 0
  • Gènes potentiellement significatifs gènes dont
    le score d(g) est supérieur au score moyen du
    gène obtenu après permutations des classes, de
    plus dun certain seuil D
  • Calcul du nombre de gènes faussement
    significatifs nombre moyen de gènes faussement
    significatifs pour chaque permutation
  • Taux de fausse découverte (FDR)

17
RELIEF
  • Une lame L est vue comme un point dans un espace
    à p 6157 dimensions
  • On cherche ses k plus proches voisins dans la
    même classe et on les note Hi (nearest Hit)
  • On calcule ses k plus proches voisins dans
    lautre classe et on les note Mi (nearest Miss).
  • où est la projection selon gène du point x,
    et m est le nombre total de lames.
  • Le poids calculé pour chaque gène gène est ainsi
    une approximation de la différence de deux
    probabilités comme suit 
  • Poids(gène) P (gène a une valeur différente /
    k plus proches voisins dans une classe
    différente) - P
    (gène a une valeur différente / k plus proches
    voisins dans la même classe)
  • Algorithme polynomial Q(pm2)
  • Rôle de k prise en compte du bruit
  • Pas de supposition dindépendance des gènes

18
RELIEF
19
Sélection des attributs
  • Y a-t-il vraiment de linformation dans les
    données ?
  • Quels gènes retenir ?
  • Avec quelle confiance ?

20
Comparaison à lHypothèse nulle
Nombre de gènes dont le poids dépasse la valeur
repérée en abscisse rouge Avec les classes
réelles bleu Courbe moyenne obtenue avec
des classes aléatoires
21
Précision ou rappel
  • Il faut choisir entre
  • Une liste contenant presque tous les gènes
    impliqués mais comportant des faux-positifs
  • Une liste de gènes impliqués de manière
    quasi-certaine dans la réponse à lirradiation
    (quitte à ne pas avoir tous les gènes impliqués)

22
Répartition des meilleurs gènes
23
Tâche de classification
  • Plusieurs techniques ont été utilisées
  • Vote dexperts
  • Technique du maximum de vraisemblance
  • K plus proches voisins
  • Essai de classification en aveugle sur six
    nouvelles lames

24
Interprétation biologique
25
Résultats
  • Les données reflètent-elles la présence de
    lirradiation ? oui
  • Combien de gènes sont-ils impliqués ? Plus de
    100
  • Y a-t-il des groupes de gènes impliqués et
    lesquels ?
  • Oui ATP synthesis, oxidative phosphorylation
    et oxidative stress response
  • Est-il possible de déterminer si une levure est
    irradiée en regardant son transcriptome ?
  • Oui et il suffit de ne regarder quun petit
    nombre de gènes

26
Le gène 1575
Write a Comment
User Comments (0)
About PowerShow.com