Title: Filogenetica
1Filogenetica
2Scopi
- Data una famiglia di sequenze,
- trovare lalbero di mutazione più parsimonioso
- ricostruire lalbero filogenetico
- valutare la significatività di un dato albero
filogenetico
3Memorizzazione efficiente di sequenze
- 1. AGGATGAATGGGCGAACAGC
- 2. TGCTCGCGGGTAGAAGAAC
- 3. TAGATGAATGGTAGAACAAC
- 4. TGCAGCGTGATAGAACAAC
- 5. TGGAGAAATGATAGAACAAC
- 6. TGCACGCGGCATAGAACGAC
- 7. TGGATAGATGATACCACAAT
- m. TGGATGAATGATAGAACAAC (majority rule)
4Memorizzazione efficiente di sequenze
1. AGGATGAATGGGCGAACAGC 2. TGCTCGCGGG
TAGAAGAAC 3. TAGATGAATGGTAGAACAAC 4. TGCAG
CGTGATAGAACAAC 5. TGGAGAAATGATAGAACAAC 6.
TGCACGCGGCATAGAACGAC 7. TGGATAGATGATACCACAAT m.
TGGATGAATGATAGAACAAC (majority rule)
5Memorizzazione efficiente di sequenze
1. AGGCG 2. CTCCGG.G
3. AG 4. CG.CG
5. GA 6. CCCGGCG
7. AGCCT m. TGGATGAATGATAGAACAAC
(majority rule)
6Memorizzazione efficiente di sequenze
1. AGGCG 2. CTCCGG.G
3. AG 4. CG.CG
5. GA 6. CCCGGCG
7. AGCCT m. TGGATGAATGATAGAACAAC
1, 3, 5, 7, m m. CCCGG 2,
4, 6
7Memorizzazione efficiente di sequenze
m. TGGATGAATGATAGAACAAC 1. AGGCG
3. AG 5. GA
7. AGCCT m. CCCGG
2. T.G 4. G.T
6. CG
m
a
g
m
7
5
3
1
2
4
6
8Spazio delle sequenze
alfabeto
insieme delle sequenze
diventa uno spazio quando è dotato di operazioni,
distanza
9Similarità di sequenze
- (Ovvero, distanza genetica)
- Efficiente
- Plausibile biologicamente
- Mutazione puntuale ? distanza di Hamming
- Cancellazione/inserimento ? metriche di Hamming
con salti - Rimescolamento, inversione, ecc. ? ...
- Considerando diversi tipi di mutazione con
probabilità differenti ? distanze di Hamming
pesate edit distance
10Edit Distances
Edit Operations (a, a) Match (a, b) Replace (a,
_) Delete (_, a) Insert
operation weight or cost
Levenshtein Distance (after ?. ??????????)
Cost of an alignment sum of the costs of all
edit operations that lead from s to t.
Optimal alignment
Edit distance cost of the optimal alignment
11Costruzione di alberi filogenetici
2
1
N
12Algoritmi di linkage
1
2
3
funzione di combinazione
13Assunzione di fondo
- La distanza genetica tra due sequenze è
direttamente proporzionale al tempo che le separa
dalla loro sequenza progenitrice comune
14Minimum linkage
15Maximum linkage
16Average linkage
17Average linkage esempio
1 2 3 4 5 6 7 8 - 2 4 4 6 8 10 11 1 - 4 4 7 7 10
11 2 - 2 6 6 11 12 3 - 7 8 12 10 4 - 3 7
7 5 - 7 7 6 - 2 7 - 8
181 2 3 4 5 6 7 8 - 2 4 4 6 8 10 11 1 - 4 4 7 7 10
11 2 - 2 6 6 11 12 3 - 7 8 12 10 4 - 3 7
7 5 - 7 7 6 - 2 7 - 8
1,2 3 4 5 6 7 8 - 4 4 6.5 7.5 10 11 1,2 - 2
6 6 11 12 3 - 7 8 12 10 4 - 3 7 7 5 - 7 7
6 - 2 7 - 8
1,2 3 4 5 6 7 8 - 4 4 6.5 7.5 10 11 1,2 - 2
6 6 11 12 3 - 7 8 12 10 4 - 3 7 7 5 - 7 7
6 - 2 7 - 8
1,2 3 4 5 6 7 8 - 4 4 6.5 7.5 10 11 1,2 - 2
6 6 11 12 3 - 7 8 12 10 4 - 3 7 7 5 - 7 7
6 - 2 7 - 8
1,2 3,4 5 6 7 8 - 4 6.5 7.5 10 11 1,2 - 6.
5 7 11.5 11 3,4 - 3 7 7 5 - 7 7 6 - 2 7
- 8
1,2 3,4 5,6 7,8 - 4 7 10.5 1,2 - 6.75
11.25 3,4 - 7 5,6 - 7,8
1,2,3,4 5,6 7,8 - 6.875 10.875 1,2,3,4 -
7 5,6 - 7,8
1,2 3,4 5 6 7,8 - 4 6.5 7.5 10.5 1,2 - 6
.5 7 11.25 3,4 - 3 7 5 - 7 6 - 7,8
1-6 7,8 - 8.9375 1-6 - 7,8
191 2 3 4 5 6 7 8
20Algoritmi di Linkage discussione
- Nessuno dei tre algoritmi garantisce di ottenere
il vero albero filogenetico delle sequenze
prese in esame - Se tutti e tre gli algoritmi producono lo stesso
albero, è molto plausibile che quello sia il
vero albero filogenetico - Se un certo raggruppamento/sottoalbero (ingl.
clade, da gr. ???d??, gruppo) compare in tutti
e tre gli alberi, è molto plausibile che si
tratti di ununità valida filogeneticamente.
21Trasformata di Farris (1)
Tutti e tre gli algoritmi di linkage forniscono
sempre il risultato corretto se
Idea usiamo una mappa reale
Esempio
22Trasformata di Farris (2)
similarità
distanza aggiustata
soddisfa la diseguaglianza ultrametrica
23Algoritmo di linkage additivo
1
fissare arbitrariamente una sequenza k
2
3
N.B. il risultato è un albero senza radice
24Neighbor-Joining Method
- N. Saitou e M. Nei. Molecular Biology and
Evolution, 4406-425, 1987
1
i
2
j
N
la lunghezza degli archi deve essere una buona
approssimazione delle distanze
25Neighbor-Joining Method
- Basato sulla ricerca di unità tassonomiche
operative (UTO) - che minimizzino la lunghezza totale dei rami
dellalbero - e questo ad ogni passo dellalgoritmo di
raggruppamento - Scopo ottenere un albero additivo senza radice
che approssimi la matrice delle distanze tra le
sequenze - Si procede in N 2 cicli, ripetendo i passi
seguenti - raggruppare le due UTO più prossime, creando un
arco interno tra quella coppia e le altre UTO,
seguendo un criterio di minimizzazione della
lunghezza dellabero ottenuto - calcolare la valutazione intermedia
- ricalcolare la matrice delle distanze
raggruppando secondo laverage linkage.
26NJ Albero iniziale a stella
1
i
N
x
2
j
3
...
27NJ Selezione delle OTU più prossime
lunghezza dellalbero per una topologia in cui i
e j sono raggruppati insieme
k
i
i, j
x
j
h
28NJ Lunghezze degli archi
ad ogni iterazione, si calcolano solo le
lunghezze di questi due nuovi archi.
29NJ Ricalcolo della matrice delle distanze
30PHYLIP
http//cmgm.stanford.edu/phylip/index.html
Phylogeny Inference Package
Una collezione di metodi e algoritmi per la
filogenetica molecolare free, public domain e
open-source.
31Massima Verosimigianza
- Assume un tasso di mutazione costante
- Tra tutti i possibili alberi, sceglie quello che
soddisfa il criterio di massima verosimigianza
(probabilità massima). - Approccio perfezionato da Felsenstein (1973) e
Thompson (1975). - Casi particolari sono lalgoritmo di Fitch e
Margoliash (1967), minimi errori standard, e di
Cavali-Sforza ed Edwards (1967), minimi quadrati. - Anche se non esiste allo stato attuale una
dimostrazione, si pensa che questo approccio alla
costruzione di alberi filogenetici sia
NP-difficile (è simile alla costruzione di alberi
di Steiner).
32Algoritmi Evolutivi
Numero di alberi possibili di n sequenze
Approcci alla costruzione di alberi filogenetici
basata sul criterio di massima verosimiglianza
con algoritmi genetici sono stati proposti da
Lewis (1998) e Matsuda (1996)
33Split Decomposition
Invece di tentare a tutti i costi di ricostruire
un albero, è possibile produrre un grafo più
generale che riassume tutti gli
alberi filogenetici plausibili sulla base
dei dati.
SplitsTree
http//www.mathematik.uni-bielefeld.de/huson/phyl
ogenetics/splitstree.html
34Phylogenetic Split (Fissione Filogenetica)
è un d-split se e solo se
Indice di isolamento di uno split
misura quanto una fissione è supportata dai dati,
e idealmente coincide con la lunghezza del ramo
che unisce i due sottoalberi
35Split Metric
soddisfa
distanza residua
definisce una metrica che non ammette ulteriori
fissioni con indice di isolamento positivo è il
rumore non scomponibile per fissioni.
percentuale scomponibile per fissioni
della matrice delle distanze
36Split Decomposition Algoritmo
- Ricorsivamente posto che tutti i d-split
relativi al sottoinsieme 1,, i 1 siano già
stati determinti - per ogni split S (A, B) di questo sottoinsieme,
verificare se
o
siano ammissibili come d-split dellinsieme
allargato a i.
- La procedura termina quando i N.
- Si può dimostrare che la complessità di questo
algoritmo è
37Metodi Basati sui Caratteri
- Tutti i metodi visti fin qui utilizzano una
matrice di distanze tra sequenze - Metodi basati sulle distanze guardano
allevoluzione da lontano, ignorando
informazioni di dettaglio - Metodi basati sui caratteri partono dal dettaglio
- Cercano di ripercorrere le traiettorie seguite
dallevoluzione - Ricostruzione filologica delle sequenze dei
progenitori comuni - Siccome i metodi basati sulle distanze e sui
caratteri sono fondamentalmente differenti, una
loro concordanza nelle conclusioni è considerata
una forte prova a favore di un albero filogenetico
38Parsimonia
- Premesse di fondo
- Le mutazioni sono eventi estremamente rari
- Più eventi improbabili un modello deve assumere,
meno è probabile che il modello sia corretto - Allineamento multiplo di sequenze
- Concetto di sito informativo per essere
informativa, una posizione deve - contenere almeno due nucleotidi diversi
- ciascuno di questi nucleotidi deve comparire
almeno due volte - Parsimonia pesata
39Esempio
- 1 2 3 4 5 6
- 1. G G G G G G
- 2. G G G A G T
- 3. G G A T A G
- 4. G A T C A T
40Ricostruzione
GAT
GTA
R
GA
GT
A
G
A
S
G
T
G
G
A
T
A
G
G
T
A
A
GA
G
IF S ? T ? ? THEN R S ? T ELSE R S ? T
A
G
T
G
G
A
A
41Strategie di Ricerca
- La ricerca esaustiva su tutti gli alberi non è
proponibile - Metodo branch and bound (Hardy e Penny 1982)
- Costruzione incrementale dellalbero
- Limite superiore della lunghezza di un albero
parsimonioso - Non si esplorano strade che portano ad alberi
peggiori - Garanzia di trovare lottimo, ma miglioramento
solo di scala temporale, non di complessità, che
resta esponenziale - Metodi euristici, approssimati
- Essenzialmente basati su hillclimbing o simulated
annealing - Lottimo globale non è garantito
42Bootstrapping
- Serve a misurare il grado di confidenza
nellalbero ricostruito - Creazione di insiemi di sequenze artificiali,
ottenuti estraendo a caso le colonne delle
sequenze reali con reimbussolamento - Costruzione per ciascun insieme artificiale, di
un albero - Se gli alberi ricostruiti sono sempre uguali o
molto simili gt buona confidenza - Risultati da trattare con molta attenzione
- Necessità di eseguire moltissimi test, altrimenti
rumore - Tende a sottostimare la confidenza a livelli
alti, e a sovrastimarla a livelli bassi - Fallacy of multiple tests semplici
fluttuazioni statistiche sembrano avere
significatività statistica