Allineamenti e Misure di Similarit - PowerPoint PPT Presentation

1 / 45

About This Presentation

Title:

Allineamenti e Misure di Similarit

Description:

Title: Concetti introduttivi all analisi delle Biosequenze Author: pp pp Last modified by: mfasano Created Date: 5/1/2002 4:20:34 PM Document presentation format – PowerPoint PPT presentation

Number of Views:55

Avg rating:3.0/5.0

Slides: 46

Provided by: ppp91

Category:

more less

Transcript and Presenter's Notes

Title: Allineamenti e Misure di Similarit

1
Allineamenti e Misure di Similarità
2

Evoluzione ? diversità
A livello molecolare le diversità si creano a
causa di errori avvenuti in fase replicativa del
DNA e non corretti dai sistemi di riparo
Ciò implica che frammenti di DNA aventi la stessa
funzione in organismi differenti, o funzioni
correlate nello stesso organismo, non hanno
esattamente la stessa sequenza in quanto sono
avvenute delle sostituzioni puntiformi, delle
delezioni e delle inserzioni.

L'ALFABETO delle biosequenze.
Un testo biologico è costituito da stringhe il
cui alfabeto, indicato con X, ha dimensione D.
Nel caso degli acidi nucleici l'alfabeto è
costituito da 4 caratteri
A(denina), C(itosina), G(uanina) e T(imina nel
DNA) o U(racile nel RNA)) ? (D4),
mentre per le proteine l'alfabeto ha dimensione
D20.

4
Codice Ambiguità Nucleotidi
Codice IUB Nucleotidi A
A C C G G T
T/U M A or C R A or G W A or
T S C or G Y C or T K G or
T V A or C or G H A or C or T D A
or G orT B C or G or T N G or A
or T or C
5
Gli Alfabeti degli Aminoacidi
6
ALFABETO CHIMICO L B M A S R I H (dimension8)
ALFABETO FUNZIONALE H P 0 M (dimension4)
ALFABETO IDROFOBICO 0 I (dimension2)
ALFABETO CHARGE 0 (dimension3) ALFABETO
CHIMICO/FUNZIONALE A H D C I F (dimension6)
7
Symbol 3-letter Aminoacido Codone
Codifica IUB del Codone A Ala Alanine GCT,
GCC, GCA, GCG !GCX B Asp,Asn Aspartic,
Asparagine GAT, GAC, AAT, AAC !RAY C Cys
Cysteine TGT, TGC !TGY D Asp Aspartic
GAT, GAC !GAY E Glu Glutamic GAA,
GAG !GAR F Phe Phenylalanine
TTT,TTC !TTY G Gly Glycine
GGT,GGC,GGA,GGG !GGX H His Histidine
CAT,CAC !CAY I Ile Isoleucine ATT, ATC,
ATA !ATH K Lys Lysine AAA, AAG !AAR L Leu
Leucine TTG, TTA, CTT, CTC, CTA,
CTG !TTR,CTX,YTRYTX M Met Methionine
ATG !ATG N Asn Asparagine AAT,AAC !AAY P
Pro Proline CCT,CCC,CCA,CCG !CCX Q Gln
Glutamine CAA,CAG !CAR R Arg Arginine
CGT,CGC,CGA,CGG,AGA,AGG !CGX,AGR,MGRMGX S Ser
Serine TCT,TCC,TCA,TCG,AGT,AGC !TCX,AGYWSX T
Thr Threonine ACT,ACC,ACA,ACG !ACZ V Val
Valine GTT,GTC,GTA,GTG !GTX W Trp
Tryptophan TGG !TGG X Xxz Unknown !XXX
Y Tyr Tyrosine TAT, TAC !TAY Z Glu, Gln
Glutamic, Glutamine GAA,GAG,CAA,CAG !SAR
End Terminator TAA, TAG, TGA !TAR,TRATRR
8
Misura della SIMILARITA
Anche se dal punto di vista biologico la
similarità tra due sequenze esprime una relazione
di omologia, i termini similarità e omologia
hanno significati distinti
9
SIMILARITA' E OMOLOGIA
Due sequenze si definiscono omologhe se derivano
da una comune sequenza ancestrale in seguito ad
un processo di duplicazione genica o di
speciazione.
10
SIMILARITA' E OMOLOGIA
- Lomologia é dunque un carattere qualitativo
che fa riferimento ad una relazione evolutiva
presente o assente e non é corretto quindi
riferirsi a valori di percentuale di omologia.
- La similarità, invece, può essere espressa in
termini quantitativi, in quanto fa riferimento al
grado di similitudine che viene misurato tra due
sequenze precedentemente allineate. - La
determinazione del grado di similarità tra due o
più sequenze richiede, dunque, che le sequenze in
esame vengano previamente allineate.
11
Allineamento Determinazione di una relazione
tra i residui della prima sequenza con quelli
della seconda in modo da rendere massimo il grado
di similarità o analogamente rendere minimo il
numero di differenze. Stabilisce una relazione
biunivoca tra due sequenze (o parti di esse) in
modo da minimizzare il numero di operazioni
necessarie per la trasformazione di una
nellaltra.
12
SA E V D Q K I S K W D SB E V K K I T R P K W
D
allineamento
E V D Q K I - - S K W D E
V - K K I T R P K W D
match
gap
mismatch
13
Fra due sequenze di lunghezza n e m il numero
possibile di differenti allineamenti e pari a
nm-1 quando si esclude linserimento di gaps.
Allineamento ottenuto facendo scorrere una
sequenza sullaltra. Vince lallineamento con il
max n. di match.
14
Fra tutti i possibili allineamenti con o senza
gaps vince quello che in base allalgoritmo
scelto e in base ai parametri impostati
corrisponde al più alto grado di similarità
Se si volesse lavorare in modo rigoroso,
bisognerebbe provare fra gli nm-1 allineamenti e
scegliere il migliore, ma ciò implicherebbe tempi
lunghi in quanto si dovrebbero eseguire n m
confronti si seguono quindi vie alternative.
15

Le vie alternative allallineamento esatto
Utilizzo di algoritmi basati sulla programmazione
dinamica.
Utilizzo di algoritmi euristici (approssimati)
La scelta dellalgoritmo dipende anche dalle
finalità che lallineamento si propone
allineamento globale
allineamento locale

16
Programmazione dinamica

Utilizzo di algoritmi basati sulla programmazione
dinamica implementati
? nel metodo di Needleman e Wunsch per la ricerca
dellallineamento globale
? nel metodo di Smith e Waterman per la ricerca
dellallineamento locale.

17
Dot plot
DotPlot permette di individuare graficamente
regioni allineabili
Versione semplice una croce o un punto sono
collocati allincrocio fra due caratteri identici
Con solo 4 caratteri si introduce molto rumore di
fondo
18
Dot plots
Versione Window o finestra, una stringa corta
interna alla sequenza.
Qui si utilizza una finestra di 3 nucleotidi e
poniamo il punto se ci sono almeno 2 match nella
finestra in esame (analisi con stringenza 2)
Regioni allineabili si individuano sul grafico
per la presenza di diagonali piu o meno estese
19
Caratteristiche di una matrice dotplot
Diagonali
Diagonali appaiono quando 2 sequenze sono
sufficientemente simili
Interruzioni
Interruzioni di diagonali o spostamenti di
diagonali indicano la presenza di delezioni o
inserzioni
20
Allineamento semplice
Lallineamento semplice si ottiene facendo
scorrere una sequenza sullaltra spostandosi di
un nucleotide per volta
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C CGAAATCGCATCAGCATAC
GATCGCATGC
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C
CGAAATCGCATCAGCATACGATCGCATGC
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C
CGAAATCGCATCAGCATACGATCGCATGC
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C
CGAAATCGCATCAGCATACGATCGCATGC
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C
CGAAATCGCATCAGCATACGATCGCATGC
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C
CGAAATCGCATCAGCATACGATCGCATGC
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C
CGAAATCGCATCAGCATACGATCGCATGC
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C
CGAAATCGCATCAGCATACGA
TCGCATGC
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C
CGAAATCGCATCAGCATACGATCGCATGC
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C

CGAAATCGCATCAGCATACGATCGCATGC
21
Allineamento semplice
Lallineamento semplice implica la ricerca sulla
matrice dot-plot della diagonale piu lunga
corrispondente alla regione la cui somma degli
scores è massima.
22
Allineamento con Gaps
Lallineamento semplice non funziona sempre bene
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C
CGAAATCGCATCACGCATACGATCGCATGC
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C
CGAAATCGCATCACGCATACGATCGCATGC
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C
CGAAATCGCATCACGCATACGATCGCATGC
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C
CGAAATCGCATCACGCATACGATCGCATGC
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C
CGAAATCGCATCACGCATACGATCGCATGC
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C
CGAAATCGCATCACGCATACGATCGCATGC
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C
CGAAATCGCATCACGCATACGATCGCATGC
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C
CGAAATCGCATCACGCATACGATCGCAT
GC
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C

CGAAATCGCATCACGCATACGATCGCATGC
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAA
C
CGAAATCGCATCACGCATACGATC
GCATGC
A meno che le sequenze non siano perfettamente
coincidenti conviene introdurre I gaps
23
Allineamento con Gaps
I gaps nellallieneamento appaiono come shifts
nella diagonale.
Uno shift orizzontale rappresenta uninserzione
nella sequenza orizzontale.
24
Allineamento con Gaps
Lallineamento con Gaps ottimale (max similarità)
corrisponde al percorso sulla dot-plot
corrispondente alla max somma di scores.
Ci sono molti percorsi nella dot-plot.
25
Algoritmi euristici

Utilizzo di algoritmi euristici (approssimati)
implementati nei metodi di Database Similarity
Searching (FASTA e BLAST)

26
GRADO DI SIMILARITA
s(ai,bi) é il punteggio di similarità relativo al
confronto tra i residui ai e bi, e lindice i
individua una qualunque posizione
dellallineamento in cui non siano presenti
inserzioni o delezioni (gaps).
27
La presenza di NG gaps decrementa il punteggio di
similarità in misura proporzionale ai valori che
vengono imposti ai parametri d e ? che
corrispondono rispettivamente alla penalità
costante d attribuita alla creazione di un gap e
alla penalità variabile ?l(k)-1) attribuita
alla estensione del k-mo gap che incrementa la
penalità costante delta in misura proporzionale
alla lunghezza del gap pari a l(k).
28
Per la determinazione del grado di similarità tra
sequenze di nucleotidi si utilizza essenzialmente
il criterio identità/non identità
(match/mismatch) nel calcolo di s(ai,bi) Match
s(ai,bi) 1 Mismatch s(ai,bi) 0
29
Per la determinazione del grado di similarità tra
sequenze di proteine possono essere applicati
diversi metodi basati essenzialmente sulle
proprietà chimico-fisiche degli aminoacidi
omologhi
30

Criterio di identità/non-identità, secondo il
quale si attribuisce un punteggio costante alle
coppie di residui identici con la possibilità di
usare alfabeti differenti per la codifica degli
aminoacidi.
Qui oltre al codice classico che per gli
aminoacidi utilizza un alfabeto di venti lettere,
possono essere utilizzati altri alfabeti che
raggruppano gli aminoacidi sulla base delle loro
similarità chimico-funzionali.

Criterio del codice genetico, secondo il quale il
punteggio di similarità per una coppia di
aminoacidi è correlato al numero di sostituzioni
nucleotidiche che sulla base del codice genetico
è necessario per la loro interconversione.
Gli aminoacidi sono considerati tanto più simili
quante meno sono le sostituzioni necessarie per
la loro conversione.

32
T ? W s(T,W)a ACN ? UGG
A ? V s(A,V)b GCN ? GUN
a lt b
33

Criterio del codice genetico congiunto ad un peso
legato alla similarità strutturale degli
aminoacidi.
Viene considerato congiuntamente il peso legato
alla facilità di conversione tra gli aminoacidi e
quello legato alle loro somiglianze strutturali
(Feng et al., 1985).

34
T W
s(T,W)1 ACN UGG
CH3
CHOH
C
NH2
COOH
H
NH
C C
H
CH2
C
NH2
COOH
H
35
A V
s(A,V)5 GCN GUN
36
scala arbitraria utilizzata per pesare la
similarità tra i 20 aminoacidi (rappresentati dal
codice ad una lettera) basata sulla somiglianza
strutturale e sulla interconvertibilità genetica
(Feng et al., 1985)
37

Criterio basato sui dati di interconvertibilità
degli aminoacidi determinati dalla osservazione
di insiemi di proteine omologhe
Matrici Dayhoff PAM
Blocks Substitution Matrix BLOSUM

38
MATRICE PAM
La matrice proposta da Dayhoff et al. (1978) si
basa su una compilazione di sostituzioni
aminoacidiche osservate su una collezione di
proteine omologhe. Sono state considerate 1572
sostituzioni aminoacidiche da 71 gruppi di
proteine omologhe con un grado di similarità
superiore all85. La DAYHOFF introducendo il
concetto di mutazione puntiforme accettata
(PAM, point accepted mutation) per indicare una
sostituzione aminoacidica accettata dalla
selezione naturale, determina una serie di
matrici i cui elementi sono utilizzati come
punteggio di similarità per ciascuna coppia di
aminoacidi. Le varie matrici corrispondono a
differenti valori di distanza evolutiva.
39
Calcolo Matrice PAM

s(a,b) int(10 x log(M(a,b)/C(a,b)
dove int sta per intero del valore
ottenuto moltiplicando per 10 il logaritmo
decimale del rapporto fra M(a,b) e C(a,b).
M(a,b) è la frequenza di sostituzione
dellamminoacido a nellamminoacido b osservata
nei 71 gruppi di proteine omologhe considerate
C(a,b) è la frequenza di sostituzione attesa,
stimata come prodotto delle frequenze degli
amminoacidi a e b nei 71 gruppi di proteine
omologhe considerate

40
PAM - 250
A
2
R
-2
6
N
0
0
2
D
0
-1
2
4
C
-2
-4
-4
-5
12
Q
0
1
1
2
-5
4
E
0
-1
1
3
-5
2
4
G
1
-3
0
1
-3
-1
0
5
H
-1
2
2
1
-3
3
1
-2
6
I
-1
-2
-2
-2
-2
-2
-2
-3
-2
5
L
-2
-3
-3
-4
-6
-2
-3
-4
-2
2
6
K
-1
3
1
0
-5
1
0
-2
0
-2
-3
5
M
-1
0
-2
-3
-5
-1
-2
-3
-2
2
4
0
6
F
-3
-4
-3
-6
-4
-5
-5
-5
-2
1
2
-5
0
9
P
1
0
0
-1
-3
0
-1
0
0
-2
-3
-1
-2
-5
6
S
1
0
1
0
0
-1
0
1
-1
-1
-3
0
-2
-3
1
2
T
1
-1
0
0
-2
-1
0
0
-1
0
-2
0
-1
-3
0
1
3
W
-6
2
-4
-7
-8
-5
-7
-7
-3
-5
-2
-3
-4
0
-6
-2
-5
17
Y
-3
-4
-2
-4
0
-4
-4
-5
0
-1
-1
-4
-2
7
-5
-3
-3
0
10
V
0
-2
-2
-2
-2
-2
-2
-1
-2
4
2
-2
2
-1
-1
-1
0
-6
-2
4
A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
41
MATRICI BLOSUM
Henikoff Henikoff (1992) usano un approccio
differente basato sullosservazione di circa 2000
blocchi di segmenti di sequenze allineate
corrispondenti a più di 50 gruppi di proteine
omologhe, producendo le cosiddette matrici BLOSUM
(Blocks Substitution Matrices) che test empirici
hanno mostrato essere più accurate per il calcolo
del grado di similarità tra due sequenze
aminoacidiche.
42
Matrice BLOSUM
Al fine di ridurre il contributo di coppie di
aminoacidi relative a proteine strettamente
correlate, le sequenze che mostrano una
percentuale di identità al di sopra di un valore
soglia predeterminato costituiscono un
raggruppamento cui viene attribuito il peso di
una singola sequenza. In questo modo, variando
la percentuale di similarità usata come soglia si
possono ottenere matrici differenti. Ad esempio
la matrice BLOSUM-62, che è quella più
comunemente utilizzata, viene costruita
raggruppando tutte le sequenze con una
percentuale di identità superiore al 62.
43
Calcolo Matrice BLOSUM

s(a,b) int(kxlog(M(a,b)/C(a,b)
dove int sta per intero del valore
ottenuto moltiplicando per k il logaritmo
decimale del rapporto fra M(a,b) e C(a,b).
M(a,b) è la frequenza di sostituzione
dellamminoacido a nellamminoacido b, osservata
nei blocchi di proteine omologhe considerate.
C(a,b) è la frequenza di sostituzione attesa,
stimata come prodotto delle frequenze degli
amminoacidi a e b nella totalità dei blocchi di
proteine omologhe considerate.

44
BLOSUM - 62
45
La matrice Dotplot può essere generata con gli
scores al posto dei dots
In questo esempio, due proteine sono confrontate
e per ogni coppia di aa si inserisce lo score
derivato dalla matrice BLOSUM-50.
H E A G A W G H E E P A W H E A E
H E A G A W G H E E P -2 -1 -1 -2
-1 -4 -2 -2 -1 -1 A -2 -1 5 0 5 -3 0 -2 -1 -1
W -3 -3 -3 -3 -3 15 -3 -3 -3 -3 H 10 0 -2 -2 -2
-3 -2 10 0 0 E 0 6 -1 -3 -1 -3 -3 0 6 6 A
-2 -1 5 0 5 -3 0 -2 -1 -1 E 0 6 -1 -3 -1 -3
-3 0 6 6

Write a Comment

User Comments (0)