Filogenetica - PowerPoint PPT Presentation

1 / 42
About This Presentation
Title:

Filogenetica

Description:

Andrea G. B. Tettamanzi Scopi Data una famiglia di sequenze, trovare l albero di mutazione pi parsimonioso ricostruire l albero filogenetico valutare la ... – PowerPoint PPT presentation

Number of Views:146
Avg rating:3.0/5.0
Slides: 43
Provided by: Andre403
Category:

less

Transcript and Presenter's Notes

Title: Filogenetica


1
Filogenetica
  • Andrea G. B. Tettamanzi

2
Scopi
  • Data una famiglia di sequenze,
  • trovare lalbero di mutazione più parsimonioso
  • ricostruire lalbero filogenetico
  • valutare la significatività di un dato albero
    filogenetico

3
Memorizzazione efficiente di sequenze
  • 1. AGGATGAATGGGCGAACAGC
  • 2. TGCTCGCGGGTAGAAGAAC
  • 3. TAGATGAATGGTAGAACAAC
  • 4. TGCAGCGTGATAGAACAAC
  • 5. TGGAGAAATGATAGAACAAC
  • 6. TGCACGCGGCATAGAACGAC
  • 7. TGGATAGATGATACCACAAT
  • m. TGGATGAATGATAGAACAAC (majority rule)

4
Memorizzazione efficiente di sequenze
1. AGGATGAATGGGCGAACAGC 2. TGCTCGCGGG
TAGAAGAAC 3. TAGATGAATGGTAGAACAAC 4. TGCAG
CGTGATAGAACAAC 5. TGGAGAAATGATAGAACAAC 6.
TGCACGCGGCATAGAACGAC 7. TGGATAGATGATACCACAAT m.
TGGATGAATGATAGAACAAC (majority rule)
5
Memorizzazione efficiente di sequenze
1. AGGCG 2. CTCCGG.G
3. AG 4. CG.CG
5. GA 6. CCCGGCG
7. AGCCT m. TGGATGAATGATAGAACAAC
(majority rule)
6
Memorizzazione efficiente di sequenze
1. AGGCG 2. CTCCGG.G
3. AG 4. CG.CG
5. GA 6. CCCGGCG
7. AGCCT m. TGGATGAATGATAGAACAAC
1, 3, 5, 7, m m. CCCGG 2,
4, 6
7
Memorizzazione efficiente di sequenze
m. TGGATGAATGATAGAACAAC 1. AGGCG
3. AG 5. GA
7. AGCCT m. CCCGG
2. T.G 4. G.T
6. CG
m
a
g
m
7
5
3
1
2
4
6
8
Spazio delle sequenze
alfabeto
insieme delle sequenze
diventa uno spazio quando è dotato di operazioni,
distanza
9
Similarità di sequenze
  • (Ovvero, distanza genetica)
  • Efficiente
  • Plausibile biologicamente
  • Mutazione puntuale ? distanza di Hamming
  • Cancellazione/inserimento ? metriche di Hamming
    con salti
  • Rimescolamento, inversione, ecc. ? ...
  • Considerando diversi tipi di mutazione con
    probabilità differenti ? distanze di Hamming
    pesate edit distance

10
Edit Distances
Edit Operations (a, a) Match (a, b) Replace (a,
_) Delete (_, a) Insert
operation weight or cost
Levenshtein Distance (after ?. ??????????)
Cost of an alignment sum of the costs of all
edit operations that lead from s to t.
Optimal alignment
Edit distance cost of the optimal alignment
11
Costruzione di alberi filogenetici
2
1
N
12
Algoritmi di linkage
1
2
3
funzione di combinazione
13
Assunzione di fondo
  • La distanza genetica tra due sequenze è
    direttamente proporzionale al tempo che le separa
    dalla loro sequenza progenitrice comune

14
Minimum linkage
15
Maximum linkage
16
Average linkage
17
Average linkage esempio
1 2 3 4 5 6 7 8 - 2 4 4 6 8 10 11 1 - 4 4 7 7 10
11 2 - 2 6 6 11 12 3 - 7 8 12 10 4 - 3 7
7 5 - 7 7 6 - 2 7 - 8
18
1 2 3 4 5 6 7 8 - 2 4 4 6 8 10 11 1 - 4 4 7 7 10
11 2 - 2 6 6 11 12 3 - 7 8 12 10 4 - 3 7
7 5 - 7 7 6 - 2 7 - 8
1,2 3 4 5 6 7 8 - 4 4 6.5 7.5 10 11 1,2 - 2
6 6 11 12 3 - 7 8 12 10 4 - 3 7 7 5 - 7 7
6 - 2 7 - 8
1,2 3 4 5 6 7 8 - 4 4 6.5 7.5 10 11 1,2 - 2
6 6 11 12 3 - 7 8 12 10 4 - 3 7 7 5 - 7 7
6 - 2 7 - 8
1,2 3 4 5 6 7 8 - 4 4 6.5 7.5 10 11 1,2 - 2
6 6 11 12 3 - 7 8 12 10 4 - 3 7 7 5 - 7 7
6 - 2 7 - 8
1,2 3,4 5 6 7 8 - 4 6.5 7.5 10 11 1,2 - 6.
5 7 11.5 11 3,4 - 3 7 7 5 - 7 7 6 - 2 7
- 8
1,2 3,4 5,6 7,8 - 4 7 10.5 1,2 - 6.75
11.25 3,4 - 7 5,6 - 7,8
1,2,3,4 5,6 7,8 - 6.875 10.875 1,2,3,4 -
7 5,6 - 7,8
1,2 3,4 5 6 7,8 - 4 6.5 7.5 10.5 1,2 - 6
.5 7 11.25 3,4 - 3 7 5 - 7 6 - 7,8
1-6 7,8 - 8.9375 1-6 - 7,8
19
1 2 3 4 5 6 7 8
20
Algoritmi di Linkage discussione
  • Nessuno dei tre algoritmi garantisce di ottenere
    il vero albero filogenetico delle sequenze
    prese in esame
  • Se tutti e tre gli algoritmi producono lo stesso
    albero, è molto plausibile che quello sia il
    vero albero filogenetico
  • Se un certo raggruppamento/sottoalbero (ingl.
    clade, da gr. ???d??, gruppo) compare in tutti
    e tre gli alberi, è molto plausibile che si
    tratti di ununità valida filogeneticamente.

21
Trasformata di Farris (1)
Tutti e tre gli algoritmi di linkage forniscono
sempre il risultato corretto se
Idea usiamo una mappa reale
Esempio
22
Trasformata di Farris (2)
similarità
distanza aggiustata
soddisfa la diseguaglianza ultrametrica
23
Algoritmo di linkage additivo
1
fissare arbitrariamente una sequenza k
2
3
N.B. il risultato è un albero senza radice
24
Neighbor-Joining Method
  • N. Saitou e M. Nei. Molecular Biology and
    Evolution, 4406-425, 1987

1
i
2
j
N
la lunghezza degli archi deve essere una buona
approssimazione delle distanze
25
Neighbor-Joining Method
  • Basato sulla ricerca di unità tassonomiche
    operative (UTO)
  • che minimizzino la lunghezza totale dei rami
    dellalbero
  • e questo ad ogni passo dellalgoritmo di
    raggruppamento
  • Scopo ottenere un albero additivo senza radice
    che approssimi la matrice delle distanze tra le
    sequenze
  • Si procede in N 2 cicli, ripetendo i passi
    seguenti
  • raggruppare le due UTO più prossime, creando un
    arco interno tra quella coppia e le altre UTO,
    seguendo un criterio di minimizzazione della
    lunghezza dellabero ottenuto
  • calcolare la valutazione intermedia
  • ricalcolare la matrice delle distanze
    raggruppando secondo laverage linkage.

26
NJ Albero iniziale a stella
1
i
N
x
2
j
3
...
27
NJ Selezione delle OTU più prossime
lunghezza dellalbero per una topologia in cui i
e j sono raggruppati insieme
k
i
i, j
x
j
h
28
NJ Lunghezze degli archi
ad ogni iterazione, si calcolano solo le
lunghezze di questi due nuovi archi.
29
NJ Ricalcolo della matrice delle distanze
30
PHYLIP
http//cmgm.stanford.edu/phylip/index.html
Phylogeny Inference Package
Una collezione di metodi e algoritmi per la
filogenetica molecolare free, public domain e
open-source.
31
Massima Verosimigianza
  • Assume un tasso di mutazione costante
  • Tra tutti i possibili alberi, sceglie quello che
    soddisfa il criterio di massima verosimigianza
    (probabilità massima).
  • Approccio perfezionato da Felsenstein (1973) e
    Thompson (1975).
  • Casi particolari sono lalgoritmo di Fitch e
    Margoliash (1967), minimi errori standard, e di
    Cavali-Sforza ed Edwards (1967), minimi quadrati.
  • Anche se non esiste allo stato attuale una
    dimostrazione, si pensa che questo approccio alla
    costruzione di alberi filogenetici sia
    NP-difficile (è simile alla costruzione di alberi
    di Steiner).

32
Algoritmi Evolutivi
Numero di alberi possibili di n sequenze
Approcci alla costruzione di alberi filogenetici
basata sul criterio di massima verosimiglianza
con algoritmi genetici sono stati proposti da
Lewis (1998) e Matsuda (1996)
33
Split Decomposition
Invece di tentare a tutti i costi di ricostruire
un albero, è possibile produrre un grafo più
generale che riassume tutti gli
alberi filogenetici plausibili sulla base
dei dati.
SplitsTree
http//www.mathematik.uni-bielefeld.de/huson/phyl
ogenetics/splitstree.html
34
Phylogenetic Split (Fissione Filogenetica)
è un d-split se e solo se
Indice di isolamento di uno split
misura quanto una fissione è supportata dai dati,
e idealmente coincide con la lunghezza del ramo
che unisce i due sottoalberi
35
Split Metric
soddisfa
distanza residua
definisce una metrica che non ammette ulteriori
fissioni con indice di isolamento positivo è il
rumore non scomponibile per fissioni.
percentuale scomponibile per fissioni
della matrice delle distanze
36
Split Decomposition Algoritmo
  • Ricorsivamente posto che tutti i d-split
    relativi al sottoinsieme 1,, i 1 siano già
    stati determinti
  • per ogni split S (A, B) di questo sottoinsieme,
    verificare se

o
siano ammissibili come d-split dellinsieme
allargato a i.
  • La procedura termina quando i N.
  • Si può dimostrare che la complessità di questo
    algoritmo è

37
Metodi Basati sui Caratteri
  • Tutti i metodi visti fin qui utilizzano una
    matrice di distanze tra sequenze
  • Metodi basati sulle distanze guardano
    allevoluzione da lontano, ignorando
    informazioni di dettaglio
  • Metodi basati sui caratteri partono dal dettaglio
  • Cercano di ripercorrere le traiettorie seguite
    dallevoluzione
  • Ricostruzione filologica delle sequenze dei
    progenitori comuni
  • Siccome i metodi basati sulle distanze e sui
    caratteri sono fondamentalmente differenti, una
    loro concordanza nelle conclusioni è considerata
    una forte prova a favore di un albero filogenetico

38
Parsimonia
  • Premesse di fondo
  • Le mutazioni sono eventi estremamente rari
  • Più eventi improbabili un modello deve assumere,
    meno è probabile che il modello sia corretto
  • Allineamento multiplo di sequenze
  • Concetto di sito informativo per essere
    informativa, una posizione deve
  • contenere almeno due nucleotidi diversi
  • ciascuno di questi nucleotidi deve comparire
    almeno due volte
  • Parsimonia pesata

39
Esempio
  • 1 2 3 4 5 6
  • 1. G G G G G G
  • 2. G G G A G T
  • 3. G G A T A G
  • 4. G A T C A T

40
Ricostruzione
GAT
GTA
R
GA
GT
A
G
A
S
G
T
G
G
A
T
A
G
G
T
A
A
GA
G
IF S ? T ? ? THEN R S ? T ELSE R S ? T
A
G
T
G
G
A
A
41
Strategie di Ricerca
  • La ricerca esaustiva su tutti gli alberi non è
    proponibile
  • Metodo branch and bound (Hardy e Penny 1982)
  • Costruzione incrementale dellalbero
  • Limite superiore della lunghezza di un albero
    parsimonioso
  • Non si esplorano strade che portano ad alberi
    peggiori
  • Garanzia di trovare lottimo, ma miglioramento
    solo di scala temporale, non di complessità, che
    resta esponenziale
  • Metodi euristici, approssimati
  • Essenzialmente basati su hillclimbing o simulated
    annealing
  • Lottimo globale non è garantito

42
Bootstrapping
  • Serve a misurare il grado di confidenza
    nellalbero ricostruito
  • Creazione di insiemi di sequenze artificiali,
    ottenuti estraendo a caso le colonne delle
    sequenze reali con reimbussolamento
  • Costruzione per ciascun insieme artificiale, di
    un albero
  • Se gli alberi ricostruiti sono sempre uguali o
    molto simili gt buona confidenza
  • Risultati da trattare con molta attenzione
  • Necessità di eseguire moltissimi test, altrimenti
    rumore
  • Tende a sottostimare la confidenza a livelli
    alti, e a sovrastimarla a livelli bassi
  • Fallacy of multiple tests semplici
    fluttuazioni statistiche sembrano avere
    significatività statistica
Write a Comment
User Comments (0)
About PowerShow.com