Alineamiento de Secuencias - PowerPoint PPT Presentation

1 / 38
About This Presentation
Title:

Alineamiento de Secuencias

Description:

Alineamiento de Secuencias Por qu comparar secuencias ? ... CAG Q CCG P CGG R CTG L. CAT H CCT P CGT R CTT L. GAA E GCA A GGA G GTA V. GAC D GCC A GGC G GTG V ... – PowerPoint PPT presentation

Number of Views:100
Avg rating:3.0/5.0
Slides: 39
Provided by: andrs9
Category:

less

Transcript and Presenter's Notes

Title: Alineamiento de Secuencias


1
Alineamiento de Secuencias
2
Aspectos Generales
  • Por qué comparar secuencias ?
  • Cómo comparar secuencias ?
  • Aspectos biológicos
  • Aspectos computacionales

3
Aspectos Generales
4
Modelo Evolutivo (Mutaciones)
  • Cambios en las secuencias
  • Reemplazo puntual
  • Sinónimos/No-Sinónimos
  • Inserción y Delección (InDels)
  • Afecta pautas de lectura
  • Traslocación
  • Duplicación
  • En todos los niveles y escalas
  • de organización

ATG GAC CCA CGT TCG GAG
MDPRSE
5
Modelo Evolutivo (Mutaciones)
  • Cambios en las secuencias
  • Reemplazo puntual
  • Sinónimos/No-Sinónimos
  • Inserción y Delección (InDels)
  • Afecta pautas de lectura
  • Traslocación
  • Duplicación
  • En todos los niveles y escalas
  • de organización

GAT GCA TAG ATG GAC CCA CGT TCG GAG
MDPRSE DA
Evoluc
6
Modelo Evolutivo (Mutaciones)
7
Conceptos Generales
  • Secuencia. Cadena lineal finita y ordenada de
    símbolos pertenecientes a un alfabeto
  • Alfabeto. Conjunto de símbolos básicos de las
    secuencias
  • ADN A a,c,g,tu
  • Proteinas Aa,c,d,e,f,g,h,I,k,l,m,n,p,q,r,s,t
    ,v,w,y
  • ADN y Proteinas son cadenas co-lineles
  • Existen otros diversos alfabetos
  • Comparación. Encontrar la posición relativa entre
    dos
  • secuencias que maximice su parecido

8
Comparación por Identidades
  • Seq X TCA GAC GAT TG (n11)
  • Seq Y ATC GGA GCT G (m10)

Algoritmo Desplazar una secuencia debajo de la
otra anotando el número de coincidencias que
ocurren, seleccionando como resultado la posición
de mayor valor
9
Comparación por Identidades
  • TCAGACGATTG (r0)
  • ATCGGAGCTG
  • TCAGACGATTG (r1)
  • ATCGGAGCTG
  • TCAGACGATTG (r0)
  • ATCGGAGCTG

10
Comparación por Identidades
  • TCAGACGATTG (r0)
  • ATCGGAGCTG
  • TCAGACGATTG (r1)
  • ATCGGAGCTG
  • TCAGACGATTG (r0)
  • ATCGGAGCTG

Resultado Posición con mayor número de
coincidencias
11
Comparación por Identidades
0 1 2 3 4 5 6 7 8 9 10
11 -------------------------------------------
---- 0 T C A G A C G A T
T G ---------------------------
--------- -1 A 1 1
1 -----------------------
------------- -2 T 1
2 1 ------------------
------------------ -3 C 2
1 --------------
---------------------- -4 G
1 2 3
------------------------------------
-5 G 3 1
1 --------------------------------
---- -6 A 1 4 2
---------------------------
--------- -7 G 2 2
2 -----------------------
------------- -8 C 1 1
------------------
------------------ -9 T 1
3 1 --------------
---------------------- -10 G
2 3 2
-----------------------------------------------
  • TCAGACGATTG (r4)
  • ATCGGAGCTG

12
Comparación por Identidades
ACCGT CAGT ACCGT CAGT ACCGT CAGT
ACCGT ACCGT CAGT CAGT
ACCGT CAGT
ACCGT CAGT ACCGT
CAGT
Desplazar una secuencia bajo la otra Equivale
a Recorrer una matriz por sus diagonales Complejid
ad O( N M )
13
Comparación por Identidades
0 1 2 3 4 5
Diagonaldesplazamiento relativo entre secuencias
0 -1 -2 -3 -4
h 12345 sH ACCGT sV CAGT v
1234 D h v Si xh alínea con yv
Complejidad Algorítmica Número de operaciones
para la solución del problema O( N 2 )
14
Comparación por Identidades
Los fragmentos alineados aparecen como diagonales
en la matriz
15
Comparación por Identidades
Matriz de Puntos Dot-Plot
16
Algunos Números
EMBL Nucleotide Sequence Database (18.Enero.2000)
(http//www.ebi.ac.uk/embl/index.html)  
? Nº Entradas gt 5.3 millones ? Nº Bases gt 5
GigaBytes ? Proyectos Genoma (Ene/Ago 99) gt
1.6 Mills de entradas nuevas ( gt 1.3 GB ) Media
6.400entradas (5.4 MegaBases/dia)  Recursos
Computacionales CPU 4,77 MHz
(1983) Intel 8088 gt 500 MHz (Dic.99) (Pent
III-Xeon, Celeron, Itanium...) gt 1.5 GigaHz
(Feb.01) Transistores 0,029 x 106 (1983)
... gt 30 millones (hoy) lthttp//www.prisma.uvsq
.fr/mirror/CIC/summary/localgt
17
Reducción de la Complejidad Algorítmica Optimiza
ción para reducir tiempos de cálculo
18
Reducción de la Complejidad Algorítmica Optimiza
ción para reducir tiempos de cálculo
 Complejidad Cada elemento de sY vs el número
de elementos hash para ese símbolo
O(Nmedia) mediaM / LongTabla (N, M
long de SeqX y SeqY) k-tuplas entradas
(LlAlfk) -gt - elementos por entrada Proteinas
lAlf20, Si k2 gt L 202 400 entradas.
Long. Proteina N400 -gt 1 valor por entrada gt
complejidad O(NM)
19
Comparación por Semejanzas Mejoras en la
Sensibilidad
  • Limitaciones de los Métodos
  • basados en Identidad
  • Código genético redundante
  • Sustituciones sin influencia sobre la función
    global
  • Inserción y pérdida de residuos.
  • Cantidad de información (frecuencia) de cada
    símbolo
  • Conocimiento biológico en la valoración

Distancia El coste de transformar una secuencia
en otra por medio de la aplicación de una serie
de operaciones (sustitución, inserción, borrado),
cada una con un coste asociado. Para cada
pareja de símbolos (ai,aj) ? A2 un esquema de
costes w(ai,aj) establece la relación entre ellos
20
Esquemas de Puntuación Capturar el significado
biológico de las semejanzas
Considerar los reemplazos conservativos y las
diferencias en las frecuencias observadas Matrice
s PAM. Dayhoff (1972) Evolutivo, proporcional
a log(fAB/f'AB) para alinear el residuo A con el
B fAB frecuencia AB en alineamientos
relacionados f'AB frecuencia en los alineamientos
no relacionados (f'ABfAxfB) fAB Depende de la
semejanza entre las proteinas Pequeña para
secuencias muy relacionadas Crece a mayores
distancias evolutivas Azar a distancias
evolutivas muy grandes
21
Esquemas de Puntuación Capturar el significado
biológico de las semejanzas
Matrices BLOSUM. Altschul (1991) ? No se
conoce a priori lo semejante que son las
secuencias a buscar ? PAM extrapola las
relaciones lejanas a partir de relaciones
cercanas (Hipótesis que favorece las
posiciones más mutables)
Fuente Alineamientos de bloques de secuencias.
Bloque Matriz cuyas filas representan segmentos
de secuencias alineadas sin interrupciones
BLOSUMnn (BLOcks SUbstitution Matrices) (nn
umbral de identidad utilizado para la seleccionar
bloques) Un blosum bajo (umbral bajo de
identidad) se corresponde con un número alto
de PAM (distancia evolutiva grande).
22
Esquemas de PuntuaciónCapturar el significado
biológico de las semejanzas
pam250 (inferior) y BLOSUM62 (superior)
A R N D C Q E G H I L K M F
P S T W Y V B Z X --------------------
--------------------------------------------------
-------- 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1
-1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 A
5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3
-2 -3 -1 0 -1 -4 R A 2 6 1 -3 0 0 0
1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4
N R -2 6 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3
-1 0 -1 -4 -3 -3 4 1 -1 -4 D N 0 0 2
9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1
-3 -3 -2 -4 C D 0 -1 2 4 5 2 -2 0 -3
-2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 Q C
-2 -4 -4 -5 12 5 -2 0 -3 -3 1 -2 -3 -1 0
-1 -3 -2 -2 1 4 -1 -4 E Q 0 1 1 2 -5 4
6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2
-1 -4 G E 0 -1 1 3 -5 2 4 8 -3 -3 -1
-2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 H G 1 -3
0 1 -3 -1 0 5 4 2 -3 1 0 -3 -2 -1 -3
-1 3 -3 -3 -1 -4 I H -1 2 2 1 -3 3 1 -2
6 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4
L I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 5 -1 -3
-1 0 -1 -3 -2 -2 0 1 -1 -4 K L -2 -3 -3 -4
-6 -2 -3 -4 -2 2 6 5 0 -2 -1 -1 -1 -1 1
-3 -1 -1 -4 M K -1 3 1 0 -5 1 0 -2 0 -2
-3 5 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 F M
-1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 7 -1
-1 -4 -3 -2 -2 -1 -2 -4 P F -4 -4 -4 -6 -4 -5
-5 -5 -2 1 2 -5 0 9 4 1 -3 -2 -2 0 0
0 -4 S P 1 0 -1 -1 -3 0 -1 -1 0 -2 -3 -1
-2 -5 6 5 -2 -2 0 -1 -1 0 -4 T S 1 0
1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 11
2 -3 -4 -3 -2 -4 W T 1 -1 0 0 -2 -1 0 0
-1 0 -2 0 -1 -3 0 1 3 7 -1 -3 -2 -1 -4
Y W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0
-6 -2 -5 17 4 -3 -2 -1 -4 V Y -3 -4 -2 -4
0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10
4 1 -1 -4 B V 0 -2 -2 -2 -2 -2 -2 -1 -2 4
2 -2 2 -1 -1 -1 0 -6 -2 4 4 -1 -4 Z B
0 -1 2 3 -4 1 2 0 1 -2 -3 1 -2 -5 -1 0 0
-5 -3 -2 2 -1 -4 X Z 0 0 1 3 -5 3 3
-1 2 -2 -3 0 -2 -5 0 0 -1 -6 -4 -2 2 3
1 X 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0
-----------------------------------------------
------------------------------- A R N D
C Q E G H I L K M F P S T W Y V B
Z X Otros distancias, i.e. Matriz de
Hidrofobicidad (Engleman Steitz)
23
Frecuencias de residuos y Valor Esperado de
matrices de pesos
24
Comparación por Semejanzas (Global)
Esquema de Pesos ------------------- A
C G T --------------- A 4 -3
1 -3 --------------- C -3 4 -3
1 --------------- G 1 -3 4 -3
--------------- T -3 1 -3 4
------------------- 4 Residuos iguales 1
Residuos del mismo tipo purinas (AG),
pirimidinas (CT) -3 Combinaciones restantes. E
-0,26 0,25x0,25 4x4 1x4 (-3)x8 Score 1 4
4-3 4 4-3 1-3 4 SeqH G T C C G A C T A G T
G SeqV C A T C G G A G C T G Acum 1 5 9 6 1 1 1
1 9 1 0 4 1 2 3
25
Comparación por Semejanzas (LOCAL)
Fragmento con puntuación acumulada máxima No se
puede incrementar estirando ni recortando por los
extremos
Inicia en Celda positiva Avanza acumulando
valores (mientras acumgt0) Fin Fin de
diagonal Acumulado lt 0 -gt regresar al
máximo  No incorpora zonas no-conservadas
------------------- A C G T
--------------- A 4 -3 1 -3
--------------- C -3 4 -3 1
--------------- G 1 -3 4 -3
--------------- T -3 1 -3 4
-------------------
Recorrido Exhaustivo de Diagonales
26
Una Heurística para Comparar por
Semejanza Velocidad a cambio de Precisión
No asegura un resultado óptimo, pero en ocasiones
es la única solución Exhaustivo Recorrer todas
las diagonales O(NM) Heurístico Limitar las
diagonales a recorrer (aquellas con más
identidades)
27
Las Interrupciones (Gaps) Aumentar el parecido
deformando los objetos
La idea Frg TT, CC, AG, GG, AA (Sc18)
puede (a) Extender en diagonal (C y G) sin gaps
(pierde 3 puntos, hasta 15). (b)
Emparejar C (sX) con alguno (CTC) sY (gaps en
sY) (c) Emparejar G (sY) con alguno (GATTG)
sX (gaps en la sec.X)
28
Las Interrupciones (2)Observaciones
(1) Evitar la deformación de las secuencias
Penalizar los gaps
agiGeG(g-1), g (nº gaps) y iG 0, eG 0 ? ag
0 (2)Saltos (a) a derecha-sgte fila (b)
abajo-sgte columna de la celda actual (3)A más
penalización, menos gaps (opción limitar la
longitud del gap) (4) Análisis exhaustivo. s/gaps
O(N 2), c/gaps O(N 3), c/posición 2N cálculos.
Programación Dinámica (NeedlemanWunsch, 1970
SmithWaterman 1981) (5) Implementación desde
que celdas puedo llegar a la celda actual
ax 0 penalización inicio/extensión de gap
29
Programación Dinámica
Dado Matriz S, Esquema de pesos w y esquema de
penalización por gap.
Cálculo de cada Celda Máximo valor entre Celda
anterior en diagonal Mejor celda en fila anterior
a izquierda Mejor celda en columna anterior,
arriba En el caso LOCAL Si,j max(Si,j , 0 )
30
Programación Dinámica
Esquema de Pesos 4 residuos iguales 2
residuos del mismo tipo -3 Resto. iGap -5
eGap -2 Mejor alineamiento
TCAGACGATTG . .. ATCGGA--GCTG
31
Búsquedas Rápidas FASTA(Lipman Pearson, 1985,
Pearson Lipman 1988)
Reducir el espacio de búsqueda En qué
diagonales es más probable que se encuentre el
mejor alineamiento ?
Etapa I Búsqueda de Regiones (diagonales) por
Identidad y sin Gaps Uso de k-tuplas para
acelerar Resultado Las mejores diagonales
(10) Complejidad O(NM)Etapa IIRe-evaluación
de las regiones por semejanza Unión de regiones
con GapsEtapa IIIEvaluación exhaustiva de las
mejores secuencias
Reducciones de hasta 2 órdenes de magnitud en los
tiempos de búsqueda. Velocidad a cambio de
sensibilidad y selectividad(pierde reemplazos
conservativos y palabras más pequeñas que k)
32
Basic Local Alignment Search Tool
(BLAST) Altschul, S.F., Gish W., Miller W.,
Myers E.W., and Lipman D.J. J. Mol. Biol. (1990)
215403-10.
Identificación de las mejores diagonales
utilizando criterios de semejanza
  • Uso de k-tuplas por semejanza (amplía el espacio
    de búsqueda de FASTA)
  • Corte estadístico (baja probabilidad de
    ocurrencia)
  • Identificación rápida de segmentos (MSP maximal
    segment pair.
  • Segmento sub-secuencia continua de cualquier
    longitud.
  • Puntaje Suma de la semejanza de cada par
  • Análisis detallado de MSPs con mas probabilidad
    de formar el alineamiento final
  • Tabla Hash (longw) de Sq con Score gt T (umbral
    de SS)
  • La long de la tabla es función de w y T.

33
A C G T A 4 -3 1 -3 C -3
4 -3 1 Sea Sq TCAGACGATTGAAC
(L14) G 1 -3 4 -3 T -3 1 -3 1
BLAST original Ejemplo
w2 16 (42) palabras AA, AC, AG, AT, CA, CC,
CG, CT, GA, GC, GC, GT, TA, TC, TG y TT .
Buscar cada palabras en Sq con Score gt T
(posición y puntaje) Tgt1 ----------------------
------------------ AA 9 (CA,2, 1)(AG,3,
5)(GA, 4, 5)(AC, 5, 1)(GA, 7, 5)(AT, 8, 1)(GA,11,
5)(AA,12, 8)(AC,13, 1) AC 6 (TC,1, 1)(AG,3,
1)(AC, 5, 8)(AT, 8, 5)(AA,12, 1)(AC,13, 8) AG
10 (AG,3, 8)(GA,4, 2)(AC, 5, 1)(CG, 6, 1)(GA,
7, 2)(AT, 8, 1)(TG,10, 1)(GA,11, 2)(AA,12,
5)(AC,13,1) AT 6 (AG,3, 1)(AC,5, 5)(AT, 8,
8)(TT, 9, 1)(AA,12, 1)(AC,13, 5) CA 7 (CA,2,
8)(GA,4, 1)(CG, 6, 5)(GA, 7, 1)(TG,10, 2)(GA,11,
1)(AA,12, 1) CC 6 (TC,1, 5)(CA,2, 1)(AC, 5,
1)(CG, 6, 1)(TT, 9, 2)(AC,13, 1) CG 4 (CA,2,
5)(AG,3, 1)(CG, 6, 8)(TG,10, 5) CT 5 (TC,1,
2)(CA,2, 1)(CG, 6, 1)(AT, 8, 1)(TT, 9, 5) GA 6
(CA,2, 1)(AG,3, 2)(GA, 4, 8)(GA, 7, 8)(GA,11,
8)(AA,12, 5) GC 7 (TC,1, 1)(GA,4, 1)(AC, 5,
5)(GA, 7, 1)(AT, 8, 2)(GA,11, 1)(AC,13, 5) GG
7 (AG,3, 5)(GA,4, 5)(CG, 6, 1)(GA, 7, 5)(TG,10,
1)(GA,11, 5)(AA,12, 2) GT 7 (GA,4, 1)(AC,5,
2)(GA, 7, 1)(AT, 8, 5)(TT, 9, 1)(GA,11, 1)(AC,13,
2) TA 9 (TC,1, 1)(CA,2, 5)(GA, 4, 1)(CG, 6,
2)(GA, 7, 1)(TT, 9, 1)(TG,10, 5)(GA,11, 1)(AA,12,
1) TC 5 (TC,1, 8)(AC,5, 1)(TT, 9, 5)(TG,10,
1)(AC,13, 1) TG 6 (TC,1, 1)(CA,2, 2)(AG, 3,
1)(CG, 6, 5)(TT, 9, 1)(TG,10, 8) TT 4 (TC,1,
5)(AT,8, 1)(TT, 9, 8)(TG,10, 1)
34
A C G T A 4 -3 1 -3 C -3
4 -3 1 Sea Sq TCAGACGATTGAAC
(L14) G 1 -3 4 -3 T -3 1 -3 1
BLAST original Ejemplo
w2 16 (42) palabras AA, AC, AG, AT, CA, CC,
CG, CT, GA, GC, GC, GT, TA, TC, TG y TT .
Buscar cada palabras en Sq con Score gt T
(posición y puntaje) Tgt5-----------------------
--- AA 5 (AG, 3, 5)(GA, 4, 5)(GA, 7,
5)(GA,11, 5)(AA,12, 8) AC 3 (AC, 5, 8)(AT, 8,
5)(AC,13, 8) AG 2 (AG, 3, 8)(AA,12, 5) AT
3 (AC, 5, 5)(AT, 8, 8)(AC,13, 5) CA 2 (CA,
2, 8)(CG, 6, 5) CC 1 (TC, 1, 5) CG 3 (CA,
2, 5)(CG, 6, 8)(TG,10, 5) CT 1 (TT, 9, 5) GA
4 (GA, 4, 8)(GA, 7, 8)(GA,11, 8)(AA,12, 5) GC
2 (AC, 5, 5)(AC,13, 5) GG 4 (AG, 3,
5)(GA, 4, 5)(GA, 7, 5)(GA,11, 5) GT 1 (AT, 8,
5) TA 2 (CA, 2, 5)(TG,10, 5) TC 2 (TC, 1,
8)(TT, 9, 5) TG 2 (CG, 6, 5)(TG,10, 8) TT
2 (TC, 1, 5)(TT, 9, 8)
35
A C G T A 4 -3 1 -3 C -3
4 -3 1 Sea Sq TCAGACGATTGAAC
(L14) G 1 -3 4 -3 T -3 1 -3 1
BLAST original Ejemplo
w2 16 (42) palabras AA,AC,AG,AT,CA,CC,CG,CT,GA,
GC,GC,GT,TA,TC,TG y TT Buscar cada palabras en
Sq con Score gt T (posición y puntaje) Tgt8
---- AA 1 (AA,12, 8) AC 2 (AC, 5,
8)(AC,13, 8) AG 1 (AG, 3, 8) AT 1 (AT, 8,
8) CA 1 (CA, 2, 8) CC 0 CG 1 (CG, 6,
8) CT 0 GA 3 (GA, 4, 8)(GA, 7, 8)(GA,11,
8) GC 0 GG 0 GT 0 TA 0 TC
1 (TC, 1, 8) TG 1 (TG,10, 8) TT 1 (TT,
9, 8)
36
BLAST original Ejemplo
w2 16 (42) palabras AA,AC,AG,AT,CA,CC,CG,CT,GA,
GC,GC,GT,TA,TC,TG y TT Buscar cada palabras en
Sq con Score gt T (posición y puntaje)
---- Tgt1 ------- AA 9 (CA,2, 1)(AG,3,
5)(GA, 4, 5)(AC, 5, 1)(GA, 7, 5) (AT, 8,
1)(GA,11, 5)(AA,12, 8)(AC,13, 1) AC 6 (TC,1,
1)(AG,3, 1)(AC, 5, 8)(AT, 8, 5)(AA,12,
1) (AC,13, 8) ---- Tgt5 ------- AA
5 (AG, 3, 5)(GA, 4, 5)(GA, 7, 5)(GA,11,
5)(AA,12, 8) AC 3 (AC, 5, 8)(AT, 8, 5)(AC,13,
8) ---- Tgt8 ------- AA 1 (AA,12, 8) AC
2 (AC, 5, 8)(AC,13, 8)
37
Gapped BLAST and PSI-BLASTA new Generation of
Protein DB search ProgramsAltschul, S.F., Madden
T.L., Schaffer A.A., Zhanng J., Zhang Z., Miller
W., and Lipman D.J. Nucleid Acids Research
(1997) v.25, n.17 3389-3402
  • Mejoras sobre la versión original
  • Two-hits method.
  • Exige la presencia dos palabras (no solapen,
    misma diagonal, distancia A entre ellas) Para
    recuperar sensitividad, disminuir T
  • (2) Gapped segments.
  • Dos fragmentos forman el mismo alineamiento ?
  • Programación dinámica limitando el ancho de
    ventana
  • Alineamientos alternativos que no disminuyen el
    puntaje más de Xg.
  • (3) Búsqueda iterativa
  • Construcción de una matriz de pesos específica
    por posición

38
Write a Comment
User Comments (0)
About PowerShow.com