Title: Vorlesung 2
1Vorlesung 2 Microarray Datenanalyse Differentie
lle Gene, Multiples Testen, Clustering
2Verarbeitung von Microarray Daten
3Differentielle Gene finden
Two cell/tissue /disease types wild-type /
mutant control / treated disease A /
disease B responding / non responding etc.
etc.... For every sample (cell line/patient) we
have the expression levels of thousands of genes
and the information whether it is A or B
4Is a three-fold induced gene more trust worthy
than a two-fold induced gene?
Logratio
Product intensity (logscale)
5A
B
Conclusion In addition to the differences in
gene expression you also have a vital interest in
its variability ... This information is needed
to obtain meaningful lists of genes
A
B
6Standard Deviation and Standard Error
Standard Deviation (SD) Variability of the
measurement Standard Error (SE) Variability of
the mean of several measurements n Replications
Normal Distributed Data
7Questions
Which genes are differentially expressed? -gt
Ranking Are these results significant? -gt
Statistical Analysis That means Is the
probability sufficiently small that the result is
by chance?
8Ranking Problem Produce an ordered list of
differentially expressed genes starting with the
most up regulated gene and ending with the most
down regulated gene Ranking means finding the
right genes drawing our attention to them In
many applications it is the most important step
9Ranking is not Testing
Ranking Finding the right genes Testing
Deciding whether genes are significant There is
more then one way to rank There is more then one
way to test The criteria for which ranking is
best is different from the criteria which test is
best power is often no argument
10Ranking Order Genes due to amount of fold
change/Score -gt maybe some that are not
differential in reality (False Positive)
Gene candidate 1 Gene candidate 2 Gene candidate
3 Gene candidate 4 Gene candidate 5 Gene
candidate 6 Gene candidate 7 Gene candidate
8 Gene candidate 9 Gene ....
Order due to some score, Intuitively Fold change
1st most differential, 2nd second most
diff ...
11Testing Find Genes due to amount of fold
change/Score which are significant s.t. there are
less than 5 False Positives -gt maybe you miss
some (False Negatives)
Gene candidate 1 Gene candidate 2 Gene candidate
3 Gene candidate 4 Gene candidate 5 Gene
candidate 6 Gene candidate 7 Gene candidate
8 Gene candidate 9 Gene ....
Order due to some score, Intuitively Fold change
1st most differential, 2nd second most
diff ...
12Which gene is more differentially expressed?
13Ranking is Scoring
You need to score differential gene
expression Different scores lead to different
rankings What scores are there?
14T-Score
Idea Take variances into account
Change low
Change high Change
high Variance high
Variance low Variance
high
15T 0
T huge
16T ?
T ?
17T Score T test P value
Berechne TScores für ein zufälliges Experiment
Erstelle ein Histogramm der Tscores und markiere
die 5 höchsten und niedrigsten (rot)
Berechne TScore für Gen x und zeichne diesen ein
(grün)
Wie groß ist die Wahrscheinlichkeit, mindestens
so extrem wie der grüne Pfeil zu sein?
18- T-Test PROBLEMS
- There are many genes (-gt tests) but only few
repetitions - is using s as estimate good?
- if measured variance is small T becomes easily
very large - Therefore for microarray it is reasonable to use
a modfied version of the T test
19Fudge Factors
You need to estimate the variance from data You
might underestimate a already small variance
(constantly expressed genes) The denominator in T
becomes really small Constantly expressed genes
show up on top of the list Correction Add a
constant fudge factor s0 ? Regularized T-score
-gtLimma -gtSAM -gtTwilight
20SAM Significance Analysis for Microarrays
21- More Scores
- Wilcoxon Score (robust)
- PAUc Score (separation)
- paired t-Score (paired Data)
- F-Score (more then 2 conditions)
- Correlation to a reference gene
- etc etc
22Different scores give different rankings
Krankheit 1 vs Krankheit 2 (Golub et al.)
23Which Score is the best one? That depends on your
problem ...
24Next Question
Ok, I chose a score and found a set of candidate
genes Can I trust the observed expression
differences? ? Statistical Analysis
25P-Values
Everyone knows that the p-value must be below
0.05 0.05 is a holy number both in medicine and
biology ... what else should you know about
p-values
26Rumors
If the gene is not differentially expressed the
p-value is high If the gene is differentially
expressed the p-values is low Both these
statements are wrong!
27Reminder Type I and Type II ERROR
H1 Alternative Hypothesis NOT H0
H0 Null Hypothesis Gene NOT differential
Positive rejected H0 (differential
gene) Negative accepted H0
28Reminder Type I and Type II ERROR
H0 H1
29The basic Idea behind p-values
We observe a score S 1.27 Can this be just a
random fluctuation? Assume It is a random
fluctuation The gene is not differentially
expressed The null hypothesis holds Theory
gives us the distribution of the score under this
assumption P-Value Probability that a random
score is equal or higher to S 1.27 in absolute
value (two sided test)
30Permutations and empirical p-values
31If a gene is not differentially expressed The
p-value is a random number between 0 and 1!
It is unlikely that such a number is below 0.05
(5 probability)
32If a gene is differentially expressed The
p-value has no meaning, since it was computed
under the assumption that the gene is not
differentially expressed. We hope that it is
small since the score is high, but there is
absolutely no theoretical support for this
33Testing only one gene If the gene is not
differentially expressed a small p-value is
unlikely, hence we should be surprised by this
observation. If we make it a rule that we discard
the gene if the p-values is above 0.05, it is
unlikely that a random score will pass this
filter
34Multiple testing with only non-induced genes
1 gene 10 genes 30,000 genes
35The Multiple Testing Problem
P-values are random numbers between 0 and 1. For
only one such number it is unlikely to fall in
this small interval, but if we have 30.000 such
numbers many will be in there.
36We test m hypotheses
rejected hypotheses
true hypotheses
FALSE
TRUE
Acctepted
Rejected
Error false positive
Error false negative
37FWERFamily-wise error rate Probability of at
least one Type1-error (False Positive) among the
accepted (significant) genes
FALSE
TRUE
Accepted
Rejected
38FDR False Discovery Rate Expected number of
Type 1 errors (False Positives) among rejected
hypotheses
FALSE
TRUE
Accepted
Rejected
with
if if
39FWER Vertical cutoff FDR Horizontal cutoff
40Klassifikation
überwacht (supervised) dh. mir ist die
Klassenzuordnung bekannt
unüberwacht (unsupervised) dh. mir ist die
Klassenzuordnung unbekannt
Clustering
Diskriminanzanalyse
41i1,...,n Proben
Klassifikation
k1,p Gene
42Klassifikation
überwacht Klassenzuordnung bekannt
unüberwacht Klassenzuordnung unbekannt
Ich habe eine Anzahl Patienten, von denen ich die
Gruppenzugehörigkeit bereits kenne (zB. schlechte
und gute Prognose). Daraus möchte ich lernen, so
dass ich einem neuen Patienten vorhersagen kann,
zu welcher Gruppe er zählt.
Ich habe ein Gruppe Patienten mit Krankheit x und
würde sie gerne optimal bzgl. einer Anzahl
Features gruppieren
43Klassifikation unüberwacht - Clustering
44Alizadeh et al., Nature 403503-11, 2000
45Klassifikation unüberwacht - Clustering
Möglichkeit (a) Sukzessive Zusammenfassen Die
zwei ähnlichsten zu einem neuen Datenpunkt
zusammenfassen, dann die nächstähnlichsten ...
Möglichkeit (b) Ich möchte k Gruppen
haben Splitte die Gesamtmenge von Datenpunkten
optimal in k Gruppen auf
46Klassifikation unüberwacht - Clustering
Was heißt es, zwei Patienten sind ähnlich? Dh.
Distanzmaß festlegen
Voraussetzung
Wie fasse ich zusammen?
47Problem 1 Distanzmaße
- Gegeben seien Vektoren x (x1, , xn), y (y1,
, yn) - Euklidische Distanz
- Manhattan Distanz
- Correlation
- Distanz
48Problem 1 Distanzmaße Beispiel
49Problem 1 Distanzmaße Beispiel
50Problem 1 Distanzmaße Beispiel
Manhattan
Correlation
euklidisch
51Problem 1 Distanzmaße Beispiel
Manhattan
Correlation
euklidisch
Auf 0,10 normalisieren
52Problem 1 Distanzmaße Beispiel
Manhattan
Correlation
euklidisch
G2-G3
G2-G3
G1-G2
Mißt mittleren Unterschied zwischen den
Koordinaten
Mißt robust mittleren Unterschied zwischen den
Koordinaten
Mißt Unterschiede bzgl Trends
53Klassifikation unüberwacht - Clustering
Hierarchisch
K Means
PAM
SOM
54- Hierarchisches Clustering
- Erster angewandter Clusteralgorithmus für
Microarrays - Eisen et al. 1998
- Die ähnlichsten (gemäss Problem1 Distanzmaß)
zwei Datenpunkte werden zusammengefasst - Ihnen wird ein neuer Wert zugewiesen (Problem 2
Wie wird zusammengefasst?) - Das neu entstandene Datenset wird wie unter 1
behandelt 1 und 2 werden solange durchgefuehrt
bis die letzten zwei Datenpunkte verbunden werden.
55Hierarchisches Clustering Problem 2 Wie wird
verbunden/ein neuer Wert zugewiesen?
(x1,,xn)
(y1,,yn)
- Smallest (single linkage)
- Largest (complete linkage)
- Mean (average linkage)
56Hierarchisches Clustering Beispiel
Euklidische Distanz
G1
G2
Euklidische Distanz, Average Linkage
G3
G4
57Hierarchisches Clustering Beispiel
Manhattan Distanz
G2
Manhattan Distanz, Average Linkage
G3
G1
G4
58Hierarchisches Clustering Beispiel
Correlation Distanz
G1
Correlation Distanz, Average Linkage
G2
G3
G4
59Hierarchisches Clustering Beispiel
Correlation Distanz, Average Linkage
Manhattan Distanz, Average Linkage
Euklidische Distanz, Average Linkage
G1
G2
G1
G2
G3
G2
G3
G1
G3
G4
G4
G4
60Hierarchisches Clustering Beispiel
Correlation
Manhattan
Euklidische
61Hierarchisches Clustering Beispiel
Correlation
Euklidische
Mißt mittleren Unterschied zwischen den
Koordinaten
Mißt Unterschiede bzgl Trends
62K Means Clustering
K Means ist ein Partitionierungsverfahren mit
einer festgelegten Anzahl K Clustern. Dabei
werden die Datenpunkte optimal K Clustern
zugeordnet.
- Beginne mit K zufälligen Clustern und bestimme
deren Mittelpunkte - Berechne von jedem Punkt die Distanz zu jedem
Schwerpunkt und ordne den Datenpunkt dem Cluster
zu mit niedrigster Distanz zum Mittelpunkt zu. - Berechne die Mittelpunkte neu.
- Wiederhole 1-3 bis sich nichts mehr ändert.
63PAM Partitioning around medoids
Verallgemeinerung von K Means
Gegeben eine Abstandsmatrix d Minimiere die Summe
über alle Objekte der Distanzen zum nächsten k
Prototyp Man kann irgendein Distanzmaß wählen Es
werden statt Mittelpunkte Medoids benutzt
64Klassifikation
überwacht (supervised) dh. mir ist die
Klassenzuordnung bekannt
unüberwacht (unsupervised) dh. mir ist die
Klassenzuordnung unbekannt
Clustering
Diskriminanzanalyse
65Diskriminanzanalyse
Lern Set
Klassifikation Prediction
Test Set
Klassifikator
Methode
Diskriminieren
Vorhersage
66Nearest Neighbor Classifier
Fix and Hodges 1951
Sei x in Testpunkt Bestimme k nächste Nachbarn
von x (aus dem Lernset) Majority vote Bestimme
ein geeignetes k durch Cross Validierung
67Classification Trees
Breiman 1984 Führe suksessive binäre Splits
durch Dem teminalen Knoten wird eine Klasse
zugeordnet
Klasse2
Gen1
Gen1ltx
ja
nein
Klasse1
Gen2
Klasse1
Klasse3
Gen2lty
nein
ja
Klasse2
Klasse3
68Support Vector machines