Title: Secuencia de ADN
1Secuencia de ADN
Secuencia de ADN
T
A
G
A
C
T
A
G
C
T
A
G
G
T
C
A
T
G
Complemento de ADN
A
T
C
T
G
A
T
C
G
A
T
C
C
A
G
T
A
C
2Secuenciación por Hibridización
l2
3Secuenciación por Hibridización
A ACTGA
A TGACT
Espectro(e) AC,CT,GA,TG
l2
4Secuenciación por Hibridización
- Sin errores de hibridización el espectro es
ideal. - La secuencia se reconstruye encontrando un tour
de Euler 1.
A ACTGA
A TGACT
Espectro(e) AC,CT,GA,TG
5Errores en SBH
A ACTGA
A TGACT
Error Negativo
eCT,GA, TG,TA
TA
Error Positivo
6SBH con errores y es equivalente al problema
del viajante selectivo 2 (Selective Traveling
Salesman Problem STSP).
7Selective Traveling Salesman Problem STSP
- Dado un digrafo completo G(V,A), un costo no
negativo c(u,v) asociado a cada arco (u,v) A,
una ganancia pi asociada a cada vértice vi el
problema consiste en encontrar un ciclo que
maximice la ganancia de los vértices visitados
(V?V) sin que el costo exceda un valor
especifícado B. - El costo del ciclo se define como la suma de
los arcos en el ciclo.
8SBH es equivalente a STSP
- Por cada elemento del espectro si se construye un
vértice vi.
e acat,ggat,catg,tgca
9SBH es equivalente a STSP
- Una ganancia de 1 asociada a cada vértice vi.
e acat,ggat,catg,tgca
10SBH es equivalente a STSP
- El costo del arco (u,v), se define por la
diferencia entre l (longitud de los oligos) y la
cantidad de traslape que existe entre la cadena
su y sv.
11STSP Costo de los arcos
e acat,ggat,catg,tgca
l4
acat
a
c
t
catg
c
a
t
tras (acat,catg) 3
12STSP Costo de los arcos
e acat,ggat,catg,tgca
l4
catg
acat
tras (catg,acat) 0
13STSP Costo de los arcos
e acat,ggat,catg,tgca
l4
3
14STSP es equivalente a SBH
- Encontrar una ruta que maximice la ganancia de
los vértices visitados con un costo menor o igual
a n-l (n es la longitud de la secuencia original
y l es la longitud de los cadenas del espectro).
15Ruta en STSP
e acat,ggat,catg,tgca
l4
n7
acat
ggat
Ruta acat?catg?tgca
3
1
Secuencia acatgca
catg
tgca
2
Costo 1 2 3
16Algoritmos de Aproximación para STSP una
equivalencia a SBH.
- El problema del viajante selectivo es conocido
tambien como problema de Orientación. - Algoritmos de aproximación para orientación
3,4,5,6,7 solo para grafos no dirigidos. - No se conocen algoritmos de aproximación para
STSP cuando es equivalente a SBH.
17 Algoritmos de aproximación para SBH con errores
y - es un problema abierto
?
18Un modelo reducido de error
- Parámetros experimentales adecuados permiten
reducir el porcentaje de un error a costa de
incrementar el otro 8. - Versión relajada de SBH
- Solo errores negativos.
- El problema de la supercadena común mas corta es
un modelo abstracto de SBH con solo errores (-).
19SBH con solo errores Negativos es equivalente
al problema de la supercadena más corta 8 (The
shortest superstring problem).
20Shortest common Superstring
- Dado un conjunto Ps1,s2,,sn el objetivo
consiste en encontrar la cadena S de longitud
mínima tal que cada si P sea una subcadena de
S. -
- Ejemplo
- P acacg,ataga,cacgt,gtaat
- S(P) acacgtaataga
21Shortest common Superstring
- Dado un conjunto Ps1,s2,,sn el objetivo
consiste en encontrar la cadena S de longitud
mínima tal que cada si P sea una subcadena de
S. -
- Ejemplo
- P acacg,ataga,cacgt,gtaat
- S(P) acacgtaataga
22Shortest common Superstring
- Dado un conjunto Ps1,s2,,sn el objetivo
consiste en encontrar la cadena S de longitud
mínima tal que cada si P sea una subcadena de
S. -
- Ejemplo
- P acacg,ataga,cacgt,gtaat
- S(P) acacgtaataga
23Shortest common Superstring
- Dado un conjunto Ps1,s2,,sn el objetivo
consiste en encontrar la cadena S de longitud
mínima tal que cada si P sea una subcadena de
S. -
- Ejemplo
- P acacg,ataga,cacgt,gtaat
- S(P) acacgtaataga
24Shortest common Superstring
25Supercadena común mas corta
- Cada cadena si P se asocia a un vértice vi
V.
P aggtg,ggcaa,tctga,tgagt
26Supercadena común mas corta
- El costo del arco c(i,j) A se define por
- pref(si,sj)si-over(s
i,sj)
P aggtg,ggcaa,tctga,tgagt
5-14
27Supercadena común mas corta
P aggtg,ggcaa,tctga,tgagt
aggtg
ggcaa
ggcaa
aggtg
4
4
aggtg
Tour Óptimo
,ggcaa
5
5
,tctga
,tgagt
,aggtg
4
5
5
5
Costo
4
5
2
5 16
5
3
tctga
tgagt
tctga
tgagt
2
4
28SCS es equivalente a ATSP
P aggtg,ggcaa,tctga,tgagt
Tour Óptimo aggtg,ggcaa,tctga,tgagt,aggtg
Como se forma la supercadena óptima a partir
del tour?
29SCS es equivalente a ATSP
P aggtg,ggcaa,tctga,tgagt
Tour Optimo aggtg,ggcaa,tctga,tgagt,aggtg
SCS aggtggcaa
30SCS es equivalente a ATSP
P aggtg,ggcaa,tctga,tgagt
Tour Optimo aggtg,ggcaa,tctga,tgagt,aggtg
SCS aggtggcaatctgagt
31SCS es equivalente a ATSP
P aggtg,ggcaa,tctga,tgagt
Tour Optimo aggtg,ggcaa,tctga,tgagt,aggtg
SCS aggtggcaatctgagt16
ATSP SCS
32Algoritmos de Aproximacion para SCS
- El mejor factor de aproximación para ATSP es
O(log n) 9. - Algoritmos de Aproximación para SCS proporcionan
soluciones en base otro problema llamado
cubrimiento de ciclos cycle cover.
33Cycle Cover
- Un cycle cover es una colección de ciclos
disjuntos que cubren todos los vértices V de
G(V,A). - Su costo equivale a la suma de los costos de cada
uno de sus ciclos. - Cycle cover puede ser encontrado en O(n3)
utilizando el algoritmo hungaro 10.
34Cycle Cover
aggtg
ggcaa
4
4
5
5
4
5
5
5
5
3
tctga
tgagt
2
4
35Algoritmo 4-aproximación para el problema de la
supercadena 11.Tiempo de Ejecución O(n3)
36Algoritmo 4-aproximación para SCS
- Entrada Conjunto de Cadenas P.
- Obtener el grafo de distancia G(V,A) a partir
del conjunto P.
37Algoritmo 4-aproximación para SCS
2. Obtener el cycle cover CC(G) de costo mínimo
a partir de G(V,A).
38Algoritmo 4-aproximación para SCS
- Formar las cadenas representativas de los ciclos.
Rompiendo el ciclo en un vértice arbitrario.
Ciclo 1 ltcctccg?ctccgagt
cctccg
Cadena 1
ctccga
39Algoritmo 4-aproximación para SCS
- Formar las cadenas representativas de los ciclos.
Rompiendo el ciclo en un vértice arbitrario.
Ciclo 2 ltcctcct?tcctccgt
cctcct
Cadena 2
tcctcc
40Algoritmo 4-aproximación para SCS
- Formar las cadenas representativas de los ciclos.
Sea T el conjunto de cadenas representativas.
cctcctcc
Cadena 2
Tcctccga,cctcctcc
41Algoritmo 4-aproximación para SCS
4. La supercadena regresada por el algoritmo es
la concatenación arbitraria de las cadenas en T.
Tcctccga,cctcctcc
S(P) cctccga cctcctcc
S(P) cctccgacctcctcc 15
42Algoritmo 3-aproximación para el problema de la
supercadena 12 Tiempo de Ejecución O(n3)
43Algoritmo 3-aproximación para SCS
Pasos 1, 2 y 3 son idénticos al algoritmo
4- aproximación. 4. Obtener el grafo de
distancia G a partir de T.
Tcctccga,cctcctcc
44Algoritmo 3-aproximación para SCS
5. Encontrar un cycle cover no trivial de G.
Es decir no se permiten autociclos.
45Algoritmo 3-aproximación para SCS
6. Formar las cadenas representativas de los
ciclos. Rompiendo el ciclo en el mejor vértice.
Ciclo 1 ltcctccga?cctcctccgt
cctccga
cctcctcc
V1
V2
cctccga
cctcctcc
46Algoritmo 3-aproximación para SCS
6. La supercadena regresada por el algoritmo
S(P) es la concatenación arbitraria de T.
vs
S4arb(P)cctccgacctcctcc15
47 Variantes propuestas para los algoritmos 4-arb y
3-arb.
48Variantes Propuestas
En el paso 3 de ambos algoritmos, se encuentran
las cadenas rompiendo los ciclos en un punto
arbitrario, se propone que estos se rompan en el
mejor vértice.
Longitud de Scij.
49Implementación
50Implementación de los algoritmos
- Se implementaron los algoritmos 4 y 3
aproximación así como las variantes propuestas. - No existen casos tipo disponibles públicamente,
los casos de entrada fueron generados
aleatoriamente. - Se utilizaron 3 métodos distintos de generación
para los casos de entrada.
51Métodos de Generación de Casos
- Método DADN El conjunto de cadenas de entrada es
la salida de un experimento de hibridización con
errores NEGATIVOS. - Se obtiene una cadena b de ADN real de un banco
de secuencias (Genbank). - Se deriva el espectro ideal de b es decir todas
las cadenas (oligos) de longitud l. - En forma aleatoria se elimina un porcentaje de
estas cadenas. Simulando asi errores negativos. - El conjunto de cadenas resultantes es la entrada
para SCS.
52Métodos de Generación de Casos
- Método DRAND
- Este método es similar al anterior (DADN)
con una diferencia la secuencia de la cual se
parte no es real, sino una cadena b generada
aleatoriamente y con distribución uniforme sobre
el alfabeto S A,C,T,G. Se aplican los pasos
2-4 de DADN sobre b.
53Métodos de Generación de Casos
- Método IRAND
- Se generan m cadenas independientes de
longitud l. Donde cada símbolo de S A,C,T,G
que compone a la cadena si es generado de forma
independiente sobre los demás símbolos con
probabilidad 1/S.
54Implementación
Algoritmo 4arb
Algoritmo 3arb
Algoritmo 4all
Algoritmo 3all
55Evaluación de la Calidad de la Solución
- Cota Held-Karp 13
- Es una cota inferior para TSP, conocida como
subtour elimination polytope la cual es una
relajación sobre el modelo de programación entera
de TSP. - HK(G) TSP(G)
56Evaluación de la Calidad de la Solución
- Un caso B de ATSP puede transformarse a un caso
B de TSP. - El costo del tour de B es igual al costo del
tour de B. - La cota HK es un cota inferior para B y por lo
tanto para B. - CC(G) HK(G) ATSP(G) S(P)
57Calculo de la cota HK
- Se transformó el digrafo de distancias G(V,A) en
un grafo no dirigido G(3V,E), es decir se
transformó de ATSP a TSP 14. - Se ejecutó el programa disponible publicamente
concorde cuya entrada es la matriz de costos del
problema transformado 15.
58RESULTADOS
59Principales resultados obtenidos
60Principales resultados obtenidos
61Principales resultados obtenidos
62Tiempo de Ejecución (seg)
63Conclusiones
- Los algoritmos 4arb y 3arb para el caso promedio
presentan una razón de 1 contrario a su razón
teórica 4/3 1.333 - Casos de entrada donde todas las cadenas
traslapan en (l-1) presentan factores de
aproximación menores que cadenas con poco
traslape (l-1). - Los porcentajes de las variantes propuestas nunca
excedieron el 101. - Las cotas no son ajustadas.