Title: Microarray Data Analysis
1Microarray Data Analysis
Letizia Magnoni Junior Scientist Sienabiotech Spa
2Argomenti
- Cosa e un esperimento di microarray
- A cosa serve
- Come si puo disegnare un esperimento
- Normalizzazione
- Analisi
- Analisi Cluster
- Annotazioni dei geni selezionati
3Gene expression
- Ogni cellula contiene una copia completa del
genoma dellorganismo. - Esistono vari tipi e stati di cellule (cellule
di sangue, nervi e pelle, cellule che si
dividono, cellule cancerogene, ecc.)
4Variazione dellespressione
- Cosa rende le cellule diverse tra loro?
- Lespressione differente dei geni, cioe quando,
dove e quanto ogni gene e espresso. - In media, il 40 dei nostri geni e espresso in
ogni momento.
5mRNA
cDNA
6Perche Microarrays
- In passato solo analisi di un gene (o pochi) alla
volta (Northern blot) - Oggi fino a 40.000 geni su una sola microarray.
7Applicazioni di Microarrays
- Individuazione di target per farmaci e
validazione - identificazione di geni modulati in modo
specifico rispetto ad una certa malattia
(differential expression) - Elicidazione dei meccanismi dellazione
- Drug safety profiling
- Guilt by association (geni con comportamento
connesso tra loro) - Pathway modeling
- Classificazione di nuovi composti
- Diagnostica
- Identificazione di Biomarkers
8Disegno di un esperimento
- Insieme dei trattamenti selezionati per il
confronto - La specificazione delle unita a cui verranno
somministrati i trattamenti - Le regole secondo cui i trattamenti vengono
assegnati ad ogni unita sperimentale - La specificazione delle misurazioni (R/G)
9Disegno Sperimentale
- Fonti di variazione
- Variazione biologica
- Variazione tecnica
- Variazione dovuta alla collocazione degli
elementi nelle arrays.
10Vari Disegni Sperimentali
B
- Dye-swap con replica biologica
11Vari Disegni Sperimentali
N.B. Questo disegno sperimentale non mette in
luce la variabilita introdotta dalla colorazione.
A mix B
- Per migliorare questo disegno
N.B. Meta delle misurazioni vengono fatte nel
campione di minore interesse.
A mix B
12Vari Disegni Sperimentali
13Trattamenti
A
B
Replicati
A2
A1
B1
B2
RNA1
RNA2
RNA3
RNA4
Colorazioni
G
R
G
R
G
R
G
R
Arrays
A1
B1
Disegno
A2
B2
14Trattamenti
A
B
Replicati
A1
A2
B1
B2
RNA1
RNA2
RNA3
RNA4
Colorazioni
Arrays
Disegno
15Normalizzazione
- Si vuole togliere dai dati tutta quella
variabilita che non ha origine biologica - Campioni (isolamento, estrazione di RNA,..)
- Probe nature (cDNA clones, oligos, ..)
- Arrays (substrato, lotto, difetti di superficie,
..) - Colorazione (colore, attivita specifica, ..)
- Ibridizzazione (tempo, temperatura)
- Misurazione (hardware, software, saturation)
16Normalizzazione
- Possibili approcci
- Housekeeping genes set (which genes, mean value)
- Complete gene set (min./selected/all,
fluorescence intensity) - Spiked exogeneous control mRNAs (mean value)
- Linear regression analysis
17Tecniche di normalizzazione
- Normalizzazione dellintensita totale
- Questo tipo di normalizzazione assume una uguale
quantita di mRNA per entrambi i campioni
etichettati. - Si cerca una costante c che aggiusti i dati in
modo tale che i due campioni abbiano media o
mediana uguale.
18Normalizzazione dellintensita totale
La trasformazione degli assi coordinati ci
permette di visualizzare meglio i dati
19Tecniche di Normalizzazione
- Tecniche di Regressione
- Regressione lineare dei dati e successiva
normalizzazione in modo tale che il coefficiente
lineare della retta di regressione abbia
coefficiente angolare unitario. - Regressione lineare locale (LOWESS)LOcally
WEighted Scatter plot Smooth
20Normalizzazione con tecniche di regressione locale
21Analisi Statistica dei dati
- Si vuole rispondere alle domande
- La differenza che vedo nei miei dati e
significativa? - Le differenze osservate sono dovute solo alla
diversa risposta dei campioni ai trattamenti?
22T-test con due campioni confronto tra le due
medie
- Ipotesi
- I campioni hanno distribuzioni normali
- I campioni sono originati da due variabili
indipendenti - Due possibili assunzioni sulle varianze se o
altrimenti.
La statistica test ha una distribuzione t di
Student
23Confronto tra medie di due campioni in un
esperimento di Microarray
- Si vogliono evitare tutte le assunzioni fatte
precedentemente. - Statistica test (Welch Statistic) per ogni gene
i calcoliamo
- Per determinarne la distribuzione possiamo
utilizzare algoritmi di permutazione o di
bootstrap.
B. Efron, R. J. Tibshirani An Introduction to
the Bootstrap, Chapman Hall (1993) S. Dudoit
et al Statistical methods for identifying
differentially expressed genes in replicated cDNA
Microarray Experiments, Statistica Sinica
12(2002), pp 111-139
24Permutation test
- Stima la distribuzione della statistica test
sotto lipotesi nulla (che non ci sia differenza
tra i due campioni) tramite permutazioni dei
campioni etichettati. - Il p_value e dato come frazione delle
permutazioni per cui il valore della statistica
test e (almeno) tanto estremo quanto quello che
e stato osservato.
25Multiple testing
- Supponiamo di avere un esperimento con 10.000
geni e decidiamo di controllare lerrore di tipo
I al 5 (rifiuto lipotesi nulla quando il
p-value e minore di 0.05) - il valore atteso di rigettare in modo errato
lipotesi nulla sara 10.000 x 0.05 500.
26Multiple testing methods
- Dobbiamo considerare il fatto di dovere
aggiustare il livello di significativita del
nostro test (multiple testing procedure) - Bonferroni (non e consigliabile per esperimenti
di microarrays) - Westfall and Young step-down procedure
- False Discovery Rates (FDR Benjamini and
Hochberg, 1995) - Dudoit et al, Multiple Hypothesis Testing in
Microarray Experiments, U.C. Berkeley Division
of Biostatistics Working Paper Series, 2002
27Modelli ANOVA
- Questi modelli cercano di dare una stima delle
piu importanti fonti di variabilita presenti in
un esperimento. - Arrays (Ai) i 1,2,..,arrays
- Dyes (colorazione) (Dj) j 1,2
- Varieties (trattamenti) (Vk) k
1,2,..,varieties - Genes (Gg) g 1,2,..,genes
Il modello che si assume e
28Modelli ANOVA e disegno sperimentale
- Disegno Dye-Swap
- Disegno reference
29Analisi da un punto di vista Bayesiano
- Entrambe le tecniche presentate hanno un
approccio mediante la statistica Bayesiana. - P. Baldi,A Bayesian framework for the analysis
of microarray expression data regularized t-test
and statistical inferences of gene changes,
Bioinformatics, Vol.17, no 6, pp 509-519 (2001) - D.A.Henderson, Bayesian Statistical Methods for
the Detection of Differential Gene Expression and
Control of Multiple Hypothesis Testing in cDNA
and Oligonucleotide Microarray Experiments,
University of Arizona
30Siti interessanti
- http//www.stat.berkeley.edu/users/terry/Group/ind
ex.html - http//www.jax.org/staff/churchill/labsite/researc
h/index.html - http//www.gene-chips.com/
- http//www.nslij-genetics.org/microarray/analy.htm
l - http//www.mged.org/Workgroups/MIAME/miame.html
- http//www.bioconductor.org/
- http//www.bio.davidson.edu/courses/genomics/chip/
chip.html
31Grazie