Vorlesung 2 - PowerPoint PPT Presentation

1 / 68
About This Presentation
Title:

Vorlesung 2

Description:

Analyse: Clustering; Class Discovery; Klassifikation; ... Twilight. SAM: Significance Analysis for Microarrays. More Scores: Wilcoxon Score (robust) ... – PowerPoint PPT presentation

Number of Views:109
Avg rating:3.0/5.0
Slides: 69
Provided by: stei162
Category:

less

Transcript and Presenter's Notes

Title: Vorlesung 2


1
Vorlesung 2 Microarray Datenanalyse Differentie
lle Gene, Multiples Testen, Clustering
2
Verarbeitung von Microarray Daten
3
Differentielle Gene finden
Two cell/tissue /disease types wild-type /
mutant control / treated disease A /
disease B responding / non responding etc.
etc.... For every sample (cell line/patient) we
have the expression levels of thousands of genes
and the information whether it is A or B
4
Is a three-fold induced gene more trust worthy
than a two-fold induced gene?
Logratio
Product intensity (logscale)
5
A
B
Conclusion In addition to the differences in
gene expression you also have a vital interest in
its variability ... This information is needed
to obtain meaningful lists of genes
A
B
6
Standard Deviation and Standard Error
Standard Deviation (SD) Variability of the
measurement Standard Error (SE) Variability of
the mean of several measurements n Replications
Normal Distributed Data
7
Questions
Which genes are differentially expressed? -gt
Ranking Are these results significant? -gt
Statistical Analysis That means Is the
probability sufficiently small that the result is
by chance?
8
Ranking Problem Produce an ordered list of
differentially expressed genes starting with the
most up regulated gene and ending with the most
down regulated gene Ranking means finding the
right genes drawing our attention to them In
many applications it is the most important step
9
Ranking is not Testing
Ranking Finding the right genes Testing
Deciding whether genes are significant There is
more then one way to rank There is more then one
way to test The criteria for which ranking is
best is different from the criteria which test is
best power is often no argument
10
Ranking Order Genes due to amount of fold
change/Score -gt maybe some that are not
differential in reality (False Positive)
Gene candidate 1 Gene candidate 2 Gene candidate
3 Gene candidate 4 Gene candidate 5 Gene
candidate 6 Gene candidate 7 Gene candidate
8 Gene candidate 9 Gene ....
Order due to some score, Intuitively Fold change
1st most differential, 2nd second most
diff ...
11
Testing Find Genes due to amount of fold
change/Score which are significant s.t. there are
less than 5 False Positives -gt maybe you miss
some (False Negatives)
Gene candidate 1 Gene candidate 2 Gene candidate
3 Gene candidate 4 Gene candidate 5 Gene
candidate 6 Gene candidate 7 Gene candidate
8 Gene candidate 9 Gene ....
Order due to some score, Intuitively Fold change
1st most differential, 2nd second most
diff ...
12
Which gene is more differentially expressed?
13
Ranking is Scoring
You need to score differential gene
expression Different scores lead to different
rankings What scores are there?
14
T-Score
Idea Take variances into account
Change low
Change high Change
high Variance high
Variance low Variance
high
15
T 0
T huge
16
T ?
T ?
17
T Score T test P value
Berechne TScores für ein zufälliges Experiment
Erstelle ein Histogramm der Tscores und markiere
die 5 höchsten und niedrigsten (rot)
Berechne TScore für Gen x und zeichne diesen ein
(grün)
Wie groß ist die Wahrscheinlichkeit, mindestens
so extrem wie der grüne Pfeil zu sein?
18
  • T-Test PROBLEMS
  • There are many genes (-gt tests) but only few
    repetitions
  • is using s as estimate good?
  • if measured variance is small T becomes easily
    very large
  • Therefore for microarray it is reasonable to use
    a modfied version of the T test

19
Fudge Factors
You need to estimate the variance from data You
might underestimate a already small variance
(constantly expressed genes) The denominator in T
becomes really small Constantly expressed genes
show up on top of the list Correction Add a
constant fudge factor s0 ? Regularized T-score
-gtLimma -gtSAM -gtTwilight
20
SAM Significance Analysis for Microarrays
21
  • More Scores
  • Wilcoxon Score (robust)
  • PAUc Score (separation)
  • paired t-Score (paired Data)
  • F-Score (more then 2 conditions)
  • Correlation to a reference gene
  • etc etc

22
Different scores give different rankings
Krankheit 1 vs Krankheit 2 (Golub et al.)
23
Which Score is the best one? That depends on your
problem ...
24
Next Question
Ok, I chose a score and found a set of candidate
genes Can I trust the observed expression
differences? ? Statistical Analysis
25
P-Values
Everyone knows that the p-value must be below
0.05 0.05 is a holy number both in medicine and
biology ... what else should you know about
p-values
26
Rumors
If the gene is not differentially expressed the
p-value is high If the gene is differentially
expressed the p-values is low Both these
statements are wrong!
27
Reminder Type I and Type II ERROR
H1 Alternative Hypothesis NOT H0
H0 Null Hypothesis Gene NOT differential
Positive rejected H0 (differential
gene) Negative accepted H0
28
Reminder Type I and Type II ERROR
H0 H1
29
The basic Idea behind p-values
We observe a score S 1.27 Can this be just a
random fluctuation? Assume It is a random
fluctuation The gene is not differentially
expressed The null hypothesis holds Theory
gives us the distribution of the score under this
assumption P-Value Probability that a random
score is equal or higher to S 1.27 in absolute
value (two sided test)
30
Permutations and empirical p-values
31
If a gene is not differentially expressed The
p-value is a random number between 0 and 1!
It is unlikely that such a number is below 0.05
(5 probability)
32
If a gene is differentially expressed The
p-value has no meaning, since it was computed
under the assumption that the gene is not
differentially expressed. We hope that it is
small since the score is high, but there is
absolutely no theoretical support for this
33
Testing only one gene If the gene is not
differentially expressed a small p-value is
unlikely, hence we should be surprised by this
observation. If we make it a rule that we discard
the gene if the p-values is above 0.05, it is
unlikely that a random score will pass this
filter
34
Multiple testing with only non-induced genes
1 gene 10 genes 30,000 genes
35
The Multiple Testing Problem
P-values are random numbers between 0 and 1. For
only one such number it is unlikely to fall in
this small interval, but if we have 30.000 such
numbers many will be in there.
36
We test m hypotheses
rejected hypotheses
true hypotheses
FALSE
TRUE
Acctepted
Rejected
Error false positive
Error false negative
37
FWERFamily-wise error rate Probability of at
least one Type1-error (False Positive) among the
accepted (significant) genes
FALSE
TRUE
Accepted
Rejected
38
FDR False Discovery Rate Expected number of
Type 1 errors (False Positives) among rejected
hypotheses
FALSE
TRUE
Accepted
Rejected
with
if if
39
FWER Vertical cutoff FDR Horizontal cutoff
40
Klassifikation
überwacht (supervised) dh. mir ist die
Klassenzuordnung bekannt
unüberwacht (unsupervised) dh. mir ist die
Klassenzuordnung unbekannt
Clustering
Diskriminanzanalyse
41
i1,...,n Proben
Klassifikation
k1,p Gene
42
Klassifikation
überwacht Klassenzuordnung bekannt
unüberwacht Klassenzuordnung unbekannt
Ich habe eine Anzahl Patienten, von denen ich die
Gruppenzugehörigkeit bereits kenne (zB. schlechte
und gute Prognose). Daraus möchte ich lernen, so
dass ich einem neuen Patienten vorhersagen kann,
zu welcher Gruppe er zählt.
Ich habe ein Gruppe Patienten mit Krankheit x und
würde sie gerne optimal bzgl. einer Anzahl
Features gruppieren
43
Klassifikation unüberwacht - Clustering
44
Alizadeh et al., Nature 403503-11, 2000
45
Klassifikation unüberwacht - Clustering
Möglichkeit (a) Sukzessive Zusammenfassen Die
zwei ähnlichsten zu einem neuen Datenpunkt
zusammenfassen, dann die nächstähnlichsten ...
Möglichkeit (b) Ich möchte k Gruppen
haben Splitte die Gesamtmenge von Datenpunkten
optimal in k Gruppen auf
46
Klassifikation unüberwacht - Clustering
Was heißt es, zwei Patienten sind ähnlich? Dh.
Distanzmaß festlegen
Voraussetzung
Wie fasse ich zusammen?
47
Problem 1 Distanzmaße
  • Gegeben seien Vektoren x (x1, , xn), y (y1,
    , yn)
  • Euklidische Distanz
  • Manhattan Distanz
  • Correlation
  • Distanz

48
Problem 1 Distanzmaße Beispiel
49
Problem 1 Distanzmaße Beispiel
50
Problem 1 Distanzmaße Beispiel
Manhattan
Correlation
euklidisch
51
Problem 1 Distanzmaße Beispiel
Manhattan
Correlation
euklidisch
Auf 0,10 normalisieren
52
Problem 1 Distanzmaße Beispiel
Manhattan
Correlation
euklidisch
G2-G3
G2-G3
G1-G2
Mißt mittleren Unterschied zwischen den
Koordinaten
Mißt robust mittleren Unterschied zwischen den
Koordinaten
Mißt Unterschiede bzgl Trends
53
Klassifikation unüberwacht - Clustering
Hierarchisch
K Means
PAM
SOM
54
  • Hierarchisches Clustering
  • Erster angewandter Clusteralgorithmus für
    Microarrays
  • Eisen et al. 1998
  • Die ähnlichsten (gemäss Problem1 Distanzmaß)
    zwei Datenpunkte werden zusammengefasst
  • Ihnen wird ein neuer Wert zugewiesen (Problem 2
    Wie wird zusammengefasst?)
  • Das neu entstandene Datenset wird wie unter 1
    behandelt 1 und 2 werden solange durchgefuehrt
    bis die letzten zwei Datenpunkte verbunden werden.

55
Hierarchisches Clustering Problem 2 Wie wird
verbunden/ein neuer Wert zugewiesen?
(x1,,xn)
(y1,,yn)
  • Smallest (single linkage)
  • Largest (complete linkage)
  • Mean (average linkage)

56
Hierarchisches Clustering Beispiel
Euklidische Distanz
G1
G2
Euklidische Distanz, Average Linkage
G3
G4
57
Hierarchisches Clustering Beispiel
Manhattan Distanz
G2
Manhattan Distanz, Average Linkage
G3
G1
G4
58
Hierarchisches Clustering Beispiel
Correlation Distanz
G1
Correlation Distanz, Average Linkage
G2
G3
G4
59
Hierarchisches Clustering Beispiel
Correlation Distanz, Average Linkage
Manhattan Distanz, Average Linkage
Euklidische Distanz, Average Linkage
G1
G2
G1
G2
G3
G2
G3
G1
G3
G4
G4
G4
60
Hierarchisches Clustering Beispiel
Correlation
Manhattan
Euklidische
61
Hierarchisches Clustering Beispiel
Correlation
Euklidische
Mißt mittleren Unterschied zwischen den
Koordinaten
Mißt Unterschiede bzgl Trends
62
K Means Clustering
K Means ist ein Partitionierungsverfahren mit
einer festgelegten Anzahl K Clustern. Dabei
werden die Datenpunkte optimal K Clustern
zugeordnet.
  • Beginne mit K zufälligen Clustern und bestimme
    deren Mittelpunkte
  • Berechne von jedem Punkt die Distanz zu jedem
    Schwerpunkt und ordne den Datenpunkt dem Cluster
    zu mit niedrigster Distanz zum Mittelpunkt zu.
  • Berechne die Mittelpunkte neu.
  • Wiederhole 1-3 bis sich nichts mehr ändert.

63
PAM Partitioning around medoids
Verallgemeinerung von K Means
Gegeben eine Abstandsmatrix d Minimiere die Summe
über alle Objekte der Distanzen zum nächsten k
Prototyp Man kann irgendein Distanzmaß wählen Es
werden statt Mittelpunkte Medoids benutzt
64
Klassifikation
überwacht (supervised) dh. mir ist die
Klassenzuordnung bekannt
unüberwacht (unsupervised) dh. mir ist die
Klassenzuordnung unbekannt
Clustering
Diskriminanzanalyse
65
Diskriminanzanalyse
Lern Set
Klassifikation Prediction
Test Set
Klassifikator
Methode
Diskriminieren
Vorhersage
66
Nearest Neighbor Classifier
Fix and Hodges 1951
Sei x in Testpunkt Bestimme k nächste Nachbarn
von x (aus dem Lernset) Majority vote Bestimme
ein geeignetes k durch Cross Validierung
67
Classification Trees
Breiman 1984 Führe suksessive binäre Splits
durch Dem teminalen Knoten wird eine Klasse
zugeordnet
Klasse2
Gen1
Gen1ltx
ja
nein
Klasse1
Gen2
Klasse1
Klasse3
Gen2lty
nein
ja
Klasse2
Klasse3
68
Support Vector machines
Write a Comment
User Comments (0)
About PowerShow.com