Title: Alineamiento de Secuencias
1Alineamiento de Secuencias
2Aspectos Generales
- Por qué comparar secuencias ?
- Cómo comparar secuencias ?
- Aspectos biológicos
- Aspectos computacionales
3Aspectos Generales
4Modelo Evolutivo (Mutaciones)
- Cambios en las secuencias
- Reemplazo puntual
- Sinónimos/No-Sinónimos
- Inserción y Delección (InDels)
- Afecta pautas de lectura
- Traslocación
- Duplicación
- En todos los niveles y escalas
- de organización
ATG GAC CCA CGT TCG GAG
MDPRSE
5Modelo Evolutivo (Mutaciones)
- Cambios en las secuencias
- Reemplazo puntual
- Sinónimos/No-Sinónimos
- Inserción y Delección (InDels)
- Afecta pautas de lectura
- Traslocación
- Duplicación
- En todos los niveles y escalas
- de organización
GAT GCA TAG ATG GAC CCA CGT TCG GAG
MDPRSE DA
Evoluc
6Modelo Evolutivo (Mutaciones)
7Conceptos Generales
- Secuencia. Cadena lineal finita y ordenada de
sÃmbolos pertenecientes a un alfabeto - Alfabeto. Conjunto de sÃmbolos básicos de las
secuencias - ADN A a,c,g,tu
- Proteinas Aa,c,d,e,f,g,h,I,k,l,m,n,p,q,r,s,t
,v,w,y - ADN y Proteinas son cadenas co-lineles
- Existen otros diversos alfabetos
- Comparación. Encontrar la posición relativa entre
dos - secuencias que maximice su parecido
8Comparación por Identidades
- Seq X TCA GAC GAT TG (n11)
- Seq Y ATC GGA GCT G (m10)
Algoritmo Desplazar una secuencia debajo de la
otra anotando el número de coincidencias que
ocurren, seleccionando como resultado la posición
de mayor valor
9Comparación por Identidades
- TCAGACGATTG (r0)
- ATCGGAGCTG
- TCAGACGATTG (r1)
- ATCGGAGCTG
- TCAGACGATTG (r0)
- ATCGGAGCTG
10Comparación por Identidades
- TCAGACGATTG (r0)
- ATCGGAGCTG
- TCAGACGATTG (r1)
- ATCGGAGCTG
- TCAGACGATTG (r0)
- ATCGGAGCTG
Resultado Posición con mayor número de
coincidencias
11Comparación por Identidades
0 1 2 3 4 5 6 7 8 9 10
11 -------------------------------------------
---- 0 T C A G A C G A T
T G ---------------------------
--------- -1 A 1 1
1 -----------------------
------------- -2 T 1
2 1 ------------------
------------------ -3 C 2
1 --------------
---------------------- -4 G
1 2 3
------------------------------------
-5 G 3 1
1 --------------------------------
---- -6 A 1 4 2
---------------------------
--------- -7 G 2 2
2 -----------------------
------------- -8 C 1 1
------------------
------------------ -9 T 1
3 1 --------------
---------------------- -10 G
2 3 2
-----------------------------------------------
- TCAGACGATTG (r4)
-
- ATCGGAGCTG
12Comparación por Identidades
ACCGT CAGT ACCGT CAGT ACCGT CAGT
ACCGT ACCGT CAGT CAGT
ACCGT CAGT
ACCGT CAGT ACCGT
CAGT
Desplazar una secuencia bajo la otra Equivale
a Recorrer una matriz por sus diagonales Complejid
ad O( N M )
13Comparación por Identidades
0 1 2 3 4 5
Diagonaldesplazamiento relativo entre secuencias
0 -1 -2 -3 -4
h 12345 sH ACCGT sV CAGT v
1234 D h v Si xh alÃnea con yv
Complejidad AlgorÃtmica Número de operaciones
para la solución del problema O( N 2 )
14Comparación por Identidades
Los fragmentos alineados aparecen como diagonales
en la matriz
15Comparación por Identidades
Matriz de Puntos Dot-Plot
16Algunos Números
EMBL Nucleotide Sequence Database (18.Enero.2000)
(http//www.ebi.ac.uk/embl/index.html) Â
? Nº Entradas gt 5.3 millones ? Nº Bases gt 5
GigaBytes ? Proyectos Genoma (Ene/Ago 99) gt
1.6 Mills de entradas nuevas ( gt 1.3 GB ) Media
6.400entradas (5.4 MegaBases/dia) Â Recursos
Computacionales CPU 4,77 MHz
(1983) Intel 8088 gt 500 MHz (Dic.99) (Pent
III-Xeon, Celeron, Itanium...) gt 1.5 GigaHz
(Feb.01) Transistores 0,029 x 106 (1983)
... gt 30 millones (hoy) lthttp//www.prisma.uvsq
.fr/mirror/CIC/summary/localgt
17 Reducción de la Complejidad AlgorÃtmica Optimiza
ción para reducir tiempos de cálculo
18 Reducción de la Complejidad AlgorÃtmica Optimiza
ción para reducir tiempos de cálculo
 Complejidad Cada elemento de sY vs el número
de elementos hash para ese sÃmbolo
O(Nmedia) mediaM / LongTabla (N, M
long de SeqX y SeqY) k-tuplas entradas
(LlAlfk) -gt - elementos por entrada Proteinas
lAlf20, Si k2 gt L 202 400 entradas.
Long. Proteina N400 -gt 1 valor por entrada gt
complejidad O(NM)
19 Comparación por Semejanzas Mejoras en la
Sensibilidad
- Limitaciones de los Métodos
- basados en Identidad
- Código genético redundante
- Sustituciones sin influencia sobre la función
global - Inserción y pérdida de residuos.
- Cantidad de información (frecuencia) de cada
sÃmbolo - Conocimiento biológico en la valoración
Distancia El coste de transformar una secuencia
en otra por medio de la aplicación de una serie
de operaciones (sustitución, inserción, borrado),
cada una con un coste asociado. Para cada
pareja de sÃmbolos (ai,aj) ? A2 un esquema de
costes w(ai,aj) establece la relación entre ellos
20 Esquemas de Puntuación Capturar el significado
biológico de las semejanzas
Considerar los reemplazos conservativos y las
diferencias en las frecuencias observadas Matrice
s PAM. Dayhoff (1972) Evolutivo, proporcional
a log(fAB/f'AB) para alinear el residuo A con el
B fAB frecuencia AB en alineamientos
relacionados f'AB frecuencia en los alineamientos
no relacionados (f'ABfAxfB) fAB Depende de la
semejanza entre las proteinas Pequeña para
secuencias muy relacionadas Crece a mayores
distancias evolutivas Azar a distancias
evolutivas muy grandes
21Esquemas de Puntuación Capturar el significado
biológico de las semejanzas
Matrices BLOSUM. Altschul (1991) ? No se
conoce a priori lo semejante que son las
secuencias a buscar ? PAM extrapola las
relaciones lejanas a partir de relaciones
cercanas (Hipótesis que favorece las
posiciones más mutables)
Fuente Alineamientos de bloques de secuencias.
Bloque Matriz cuyas filas representan segmentos
de secuencias alineadas sin interrupciones
BLOSUMnn (BLOcks SUbstitution Matrices) (nn
umbral de identidad utilizado para la seleccionar
bloques) Un blosum bajo (umbral bajo de
identidad) se corresponde con un número alto
de PAM (distancia evolutiva grande).
22Esquemas de PuntuaciónCapturar el significado
biológico de las semejanzas
pam250 (inferior) y BLOSUM62 (superior)
A R N D C Q E G H I L K M F
P S T W Y V B Z X --------------------
--------------------------------------------------
-------- 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1
-1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 A
5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3
-2 -3 -1 0 -1 -4 R A 2 6 1 -3 0 0 0
1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4
N R -2 6 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3
-1 0 -1 -4 -3 -3 4 1 -1 -4 D N 0 0 2
9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1
-3 -3 -2 -4 C D 0 -1 2 4 5 2 -2 0 -3
-2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 Q C
-2 -4 -4 -5 12 5 -2 0 -3 -3 1 -2 -3 -1 0
-1 -3 -2 -2 1 4 -1 -4 E Q 0 1 1 2 -5 4
6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2
-1 -4 G E 0 -1 1 3 -5 2 4 8 -3 -3 -1
-2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 H G 1 -3
0 1 -3 -1 0 5 4 2 -3 1 0 -3 -2 -1 -3
-1 3 -3 -3 -1 -4 I H -1 2 2 1 -3 3 1 -2
6 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4
L I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 5 -1 -3
-1 0 -1 -3 -2 -2 0 1 -1 -4 K L -2 -3 -3 -4
-6 -2 -3 -4 -2 2 6 5 0 -2 -1 -1 -1 -1 1
-3 -1 -1 -4 M K -1 3 1 0 -5 1 0 -2 0 -2
-3 5 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 F M
-1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 7 -1
-1 -4 -3 -2 -2 -1 -2 -4 P F -4 -4 -4 -6 -4 -5
-5 -5 -2 1 2 -5 0 9 4 1 -3 -2 -2 0 0
0 -4 S P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1
-2 -5 6 5 -2 -2 0 -1 -1 0 -4 T S 1 0
1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 11
2 -3 -4 -3 -2 -4 W T 1 -1 0 0 -2 -1 0 0
-1 0 -2 0 -1 -3 0 1 3 7 -1 -3 -2 -1 -4
Y W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0
-6 -2 -5 17 4 -3 -2 -1 -4 V Y -3 -4 -2 -4
0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10
4 1 -1 -4 B V 0 -2 -2 -2 -2 -2 -2 -1 -2 4
2 -2 2 -1 -1 -1 0 -6 -2 4 4 -1 -4 Z B
0 -1 2 3 -4 1 2 0 1 -2 -3 1 -2 -5 -1 0 0
-5 -3 -2 2 -1 -4 X Z 0 0 1 3 -5 3 3
-1 2 -2 -3 0 -2 -5 0 0 -1 -6 -4 -2 2 3
1 X 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
-----------------------------------------------
------------------------------- A R N D
C Q E G H I L K M F P S T W Y V B
Z X Otros distancias, i.e. Matriz de
Hidrofobicidad (Engleman Steitz)
23Frecuencias de residuos y Valor Esperado de
matrices de pesos
24Comparación por Semejanzas (Global)
Esquema de Pesos ------------------- A
C G T --------------- A 4 -3
1 -3 --------------- C -3 4 -3
1 --------------- G 1 -3 4 -3
--------------- T -3 1 -3 4
------------------- 4 Residuos iguales 1
Residuos del mismo tipo purinas (AG),
pirimidinas (CT) -3 Combinaciones restantes. E
-0,26 0,25x0,25 4x4 1x4 (-3)x8 Score 1 4
4-3 4 4-3 1-3 4 SeqH G T C C G A C T A G T
G SeqV C A T C G G A G C T G Acum 1 5 9 6 1 1 1
1 9 1 0 4 1 2 3
25 Comparación por Semejanzas (LOCAL)
Fragmento con puntuación acumulada máxima No se
puede incrementar estirando ni recortando por los
extremos
Inicia en Celda positiva Avanza acumulando
valores (mientras acumgt0) Fin Fin de
diagonal Acumulado lt 0 -gt regresar al
máximo  No incorpora zonas no-conservadas
------------------- A C G T
--------------- A 4 -3 1 -3
--------------- C -3 4 -3 1
--------------- G 1 -3 4 -3
--------------- T -3 1 -3 4
-------------------
Recorrido Exhaustivo de Diagonales
26Una HeurÃstica para Comparar por
Semejanza Velocidad a cambio de Precisión
No asegura un resultado óptimo, pero en ocasiones
es la única solución Exhaustivo Recorrer todas
las diagonales O(NM) HeurÃstico Limitar las
diagonales a recorrer (aquellas con más
identidades)
27Las Interrupciones (Gaps) Aumentar el parecido
deformando los objetos
La idea Frg TT, CC, AG, GG, AA (Sc18)
puede (a) Extender en diagonal (C y G) sin gaps
(pierde 3 puntos, hasta 15). (b)
Emparejar C (sX) con alguno (CTC) sY (gaps en
sY) (c) Emparejar G (sY) con alguno (GATTG)
sX (gaps en la sec.X)
28 Las Interrupciones (2)Observaciones
(1) Evitar la deformación de las secuencias
Penalizar los gaps
agiGeG(g-1), g (nº gaps) y iG 0, eG 0 ? ag
0 (2)Saltos (a) a derecha-sgte fila (b)
abajo-sgte columna de la celda actual (3)A más
penalización, menos gaps (opción limitar la
longitud del gap) (4) Análisis exhaustivo. s/gaps
O(N 2), c/gaps O(N 3), c/posición 2N cálculos.
Programación Dinámica (NeedlemanWunsch, 1970
SmithWaterman 1981) (5) Implementación desde
que celdas puedo llegar a la celda actual
ax 0 penalización inicio/extensión de gap
29 Programación Dinámica
Dado Matriz S, Esquema de pesos w y esquema de
penalización por gap.
Cálculo de cada Celda Máximo valor entre Celda
anterior en diagonal Mejor celda en fila anterior
a izquierda Mejor celda en columna anterior,
arriba En el caso LOCAL Si,j max(Si,j , 0 )
30 Programación Dinámica
Esquema de Pesos 4 residuos iguales 2
residuos del mismo tipo -3 Resto. iGap -5
eGap -2 Mejor alineamiento
TCAGACGATTG . .. ATCGGA--GCTG
31Búsquedas Rápidas FASTA(Lipman Pearson, 1985,
Pearson Lipman 1988)
Reducir el espacio de búsqueda En qué
diagonales es más probable que se encuentre el
mejor alineamiento ?
Etapa I Búsqueda de Regiones (diagonales) por
Identidad y sin Gaps Uso de k-tuplas para
acelerar Resultado Las mejores diagonales
(10) Complejidad O(NM)Etapa IIRe-evaluación
de las regiones por semejanza Unión de regiones
con GapsEtapa IIIEvaluación exhaustiva de las
mejores secuencias
Reducciones de hasta 2 órdenes de magnitud en los
tiempos de búsqueda. Velocidad a cambio de
sensibilidad y selectividad(pierde reemplazos
conservativos y palabras más pequeñas que k)
32Basic Local Alignment Search Tool
(BLAST) Altschul, S.F., Gish W., Miller W.,
Myers E.W., and Lipman D.J. J. Mol. Biol. (1990)
215403-10.
Identificación de las mejores diagonales
utilizando criterios de semejanza
- Uso de k-tuplas por semejanza (amplÃa el espacio
de búsqueda de FASTA) - Corte estadÃstico (baja probabilidad de
ocurrencia) - Identificación rápida de segmentos (MSP maximal
segment pair. - Segmento sub-secuencia continua de cualquier
longitud. - Puntaje Suma de la semejanza de cada par
- Análisis detallado de MSPs con mas probabilidad
de formar el alineamiento final - Tabla Hash (longw) de Sq con Score gt T (umbral
de SS) - La long de la tabla es función de w y T.
33 A C G T A 4 -3 1 -3 C -3
4 -3 1 Sea Sq TCAGACGATTGAAC
(L14) G 1 -3 4 -3 T -3 1 -3 1
BLAST original Ejemplo
w2 16 (42) palabras AA, AC, AG, AT, CA, CC,
CG, CT, GA, GC, GC, GT, TA, TC, TG y TT .
Buscar cada palabras en Sq con Score gt T
(posición y puntaje) Tgt1 ----------------------
------------------ AA 9 (CA,2, 1)(AG,3,
5)(GA, 4, 5)(AC, 5, 1)(GA, 7, 5)(AT, 8, 1)(GA,11,
5)(AA,12, 8)(AC,13, 1) AC 6 (TC,1, 1)(AG,3,
1)(AC, 5, 8)(AT, 8, 5)(AA,12, 1)(AC,13, 8) AG
10 (AG,3, 8)(GA,4, 2)(AC, 5, 1)(CG, 6, 1)(GA,
7, 2)(AT, 8, 1)(TG,10, 1)(GA,11, 2)(AA,12,
5)(AC,13,1) AT 6 (AG,3, 1)(AC,5, 5)(AT, 8,
8)(TT, 9, 1)(AA,12, 1)(AC,13, 5) CA 7 (CA,2,
8)(GA,4, 1)(CG, 6, 5)(GA, 7, 1)(TG,10, 2)(GA,11,
1)(AA,12, 1) CC 6 (TC,1, 5)(CA,2, 1)(AC, 5,
1)(CG, 6, 1)(TT, 9, 2)(AC,13, 1) CG 4 (CA,2,
5)(AG,3, 1)(CG, 6, 8)(TG,10, 5) CT 5 (TC,1,
2)(CA,2, 1)(CG, 6, 1)(AT, 8, 1)(TT, 9, 5) GA 6
(CA,2, 1)(AG,3, 2)(GA, 4, 8)(GA, 7, 8)(GA,11,
8)(AA,12, 5) GC 7 (TC,1, 1)(GA,4, 1)(AC, 5,
5)(GA, 7, 1)(AT, 8, 2)(GA,11, 1)(AC,13, 5) GG
7 (AG,3, 5)(GA,4, 5)(CG, 6, 1)(GA, 7, 5)(TG,10,
1)(GA,11, 5)(AA,12, 2) GT 7 (GA,4, 1)(AC,5,
2)(GA, 7, 1)(AT, 8, 5)(TT, 9, 1)(GA,11, 1)(AC,13,
2) TA 9 (TC,1, 1)(CA,2, 5)(GA, 4, 1)(CG, 6,
2)(GA, 7, 1)(TT, 9, 1)(TG,10, 5)(GA,11, 1)(AA,12,
1) TC 5 (TC,1, 8)(AC,5, 1)(TT, 9, 5)(TG,10,
1)(AC,13, 1) TG 6 (TC,1, 1)(CA,2, 2)(AG, 3,
1)(CG, 6, 5)(TT, 9, 1)(TG,10, 8) TT 4 (TC,1,
5)(AT,8, 1)(TT, 9, 8)(TG,10, 1)
34 A C G T A 4 -3 1 -3 C -3
4 -3 1 Sea Sq TCAGACGATTGAAC
(L14) G 1 -3 4 -3 T -3 1 -3 1
BLAST original Ejemplo
w2 16 (42) palabras AA, AC, AG, AT, CA, CC,
CG, CT, GA, GC, GC, GT, TA, TC, TG y TT .
Buscar cada palabras en Sq con Score gt T
(posición y puntaje) Tgt5-----------------------
--- AA 5 (AG, 3, 5)(GA, 4, 5)(GA, 7,
5)(GA,11, 5)(AA,12, 8) AC 3 (AC, 5, 8)(AT, 8,
5)(AC,13, 8) AG 2 (AG, 3, 8)(AA,12, 5) AT
3 (AC, 5, 5)(AT, 8, 8)(AC,13, 5) CA 2 (CA,
2, 8)(CG, 6, 5) CC 1 (TC, 1, 5) CG 3 (CA,
2, 5)(CG, 6, 8)(TG,10, 5) CT 1 (TT, 9, 5) GA
4 (GA, 4, 8)(GA, 7, 8)(GA,11, 8)(AA,12, 5) GC
2 (AC, 5, 5)(AC,13, 5) GG 4 (AG, 3,
5)(GA, 4, 5)(GA, 7, 5)(GA,11, 5) GT 1 (AT, 8,
5) TA 2 (CA, 2, 5)(TG,10, 5) TC 2 (TC, 1,
8)(TT, 9, 5) TG 2 (CG, 6, 5)(TG,10, 8) TT
2 (TC, 1, 5)(TT, 9, 8)
35 A C G T A 4 -3 1 -3 C -3
4 -3 1 Sea Sq TCAGACGATTGAAC
(L14) G 1 -3 4 -3 T -3 1 -3 1
BLAST original Ejemplo
w2 16 (42) palabras AA,AC,AG,AT,CA,CC,CG,CT,GA,
GC,GC,GT,TA,TC,TG y TT Buscar cada palabras en
Sq con Score gt T (posición y puntaje) Tgt8
---- AA 1 (AA,12, 8) AC 2 (AC, 5,
8)(AC,13, 8) AG 1 (AG, 3, 8) AT 1 (AT, 8,
8) CA 1 (CA, 2, 8) CC 0 CG 1 (CG, 6,
8) CT 0 GA 3 (GA, 4, 8)(GA, 7, 8)(GA,11,
8) GC 0 GG 0 GT 0 TA 0 TC
1 (TC, 1, 8) TG 1 (TG,10, 8) TT 1 (TT,
9, 8)
36 BLAST original Ejemplo
w2 16 (42) palabras AA,AC,AG,AT,CA,CC,CG,CT,GA,
GC,GC,GT,TA,TC,TG y TT Buscar cada palabras en
Sq con Score gt T (posición y puntaje)
---- Tgt1 ------- AA 9 (CA,2, 1)(AG,3,
5)(GA, 4, 5)(AC, 5, 1)(GA, 7, 5) (AT, 8,
1)(GA,11, 5)(AA,12, 8)(AC,13, 1) AC 6 (TC,1,
1)(AG,3, 1)(AC, 5, 8)(AT, 8, 5)(AA,12,
1) (AC,13, 8) ---- Tgt5 ------- AA
5 (AG, 3, 5)(GA, 4, 5)(GA, 7, 5)(GA,11,
5)(AA,12, 8) AC 3 (AC, 5, 8)(AT, 8, 5)(AC,13,
8) ---- Tgt8 ------- AA 1 (AA,12, 8) AC
2 (AC, 5, 8)(AC,13, 8)
37Gapped BLAST and PSI-BLASTA new Generation of
Protein DB search ProgramsAltschul, S.F., Madden
T.L., Schaffer A.A., Zhanng J., Zhang Z., Miller
W., and Lipman D.J. Nucleid Acids Research
(1997) v.25, n.17 3389-3402
- Mejoras sobre la versión original
- Two-hits method.
- Exige la presencia dos palabras (no solapen,
misma diagonal, distancia A entre ellas) Para
recuperar sensitividad, disminuir T - (2) Gapped segments.
- Dos fragmentos forman el mismo alineamiento ?
- Programación dinámica limitando el ancho de
ventana - Alineamientos alternativos que no disminuyen el
puntaje más de Xg. - (3) Búsqueda iterativa
- Construcción de una matriz de pesos especÃfica
por posición
38