Secuencia de ADN - PowerPoint PPT Presentation

1 / 63
About This Presentation
Title:

Secuencia de ADN

Description:

none – PowerPoint PPT presentation

Number of Views:665
Avg rating:3.0/5.0
Slides: 64
Provided by: AV865
Category:

less

Transcript and Presenter's Notes

Title: Secuencia de ADN


1
Secuencia de ADN
Secuencia de ADN
T
A
G
A
C
T
A
G
C
T
A
G
G
T
C
A
T
G
Complemento de ADN
A
T
C
T
G
A
T
C
G
A
T
C
C
A
G
T
A
C
2
Secuenciación por Hibridización
l2
3
Secuenciación por Hibridización
A ACTGA
A TGACT
Espectro(e) AC,CT,GA,TG
l2
4
Secuenciación por Hibridización
  • Sin errores de hibridización el espectro es
    ideal.
  • La secuencia se reconstruye encontrando un tour
    de Euler 1.

A ACTGA
A TGACT
Espectro(e) AC,CT,GA,TG
5
Errores en SBH
A ACTGA
A TGACT
Error Negativo
eCT,GA, TG,TA
TA
Error Positivo
6
SBH con errores y es equivalente al problema
del viajante selectivo 2 (Selective Traveling
Salesman Problem STSP).
7
Selective Traveling Salesman Problem STSP
  • Dado un digrafo completo G(V,A), un costo no
    negativo c(u,v) asociado a cada arco (u,v) A,
    una ganancia pi asociada a cada vértice vi el
    problema consiste en encontrar un ciclo que
    maximice la ganancia de los vértices visitados
    (V?V) sin que el costo exceda un valor
    especifícado B.
  • El costo del ciclo se define como la suma de
    los arcos en el ciclo.

8
SBH es equivalente a STSP
  • Por cada elemento del espectro si se construye un
    vértice vi.

e acat,ggat,catg,tgca
9
SBH es equivalente a STSP
  • Una ganancia de 1 asociada a cada vértice vi.

e acat,ggat,catg,tgca
10
SBH es equivalente a STSP
  • El costo del arco (u,v), se define por la
    diferencia entre l (longitud de los oligos) y la
    cantidad de traslape que existe entre la cadena
    su y sv.

11
STSP Costo de los arcos
e acat,ggat,catg,tgca
l4
acat
a
c
t
catg
c
a
t
tras (acat,catg) 3
12
STSP Costo de los arcos
e acat,ggat,catg,tgca
l4
catg
acat
tras (catg,acat) 0
13
STSP Costo de los arcos
e acat,ggat,catg,tgca
l4
3
14
STSP es equivalente a SBH
  • Encontrar una ruta que maximice la ganancia de
    los vértices visitados con un costo menor o igual
    a n-l (n es la longitud de la secuencia original
    y l es la longitud de los cadenas del espectro).

15
Ruta en STSP
e acat,ggat,catg,tgca
l4
n7
acat
ggat
Ruta acat?catg?tgca
3
1
Secuencia acatgca
catg
tgca
2
Costo 1 2 3
16
Algoritmos de Aproximación para STSP una
equivalencia a SBH.
  • El problema del viajante selectivo es conocido
    tambien como problema de Orientación.
  • Algoritmos de aproximación para orientación
    3,4,5,6,7 solo para grafos no dirigidos.
  • No se conocen algoritmos de aproximación para
    STSP cuando es equivalente a SBH.

17
Algoritmos de aproximación para SBH con errores
y - es un problema abierto
?
18
Un modelo reducido de error
  • Parámetros experimentales adecuados permiten
    reducir el porcentaje de un error a costa de
    incrementar el otro 8.
  • Versión relajada de SBH
  • Solo errores negativos.
  • El problema de la supercadena común mas corta es
    un modelo abstracto de SBH con solo errores (-).

19
SBH con solo errores Negativos es equivalente
al problema de la supercadena más corta 8 (The
shortest superstring problem).
20
Shortest common Superstring
  • Dado un conjunto Ps1,s2,,sn el objetivo
    consiste en encontrar la cadena S de longitud
    mínima tal que cada si P sea una subcadena de
    S.
  • Ejemplo
  • P acacg,ataga,cacgt,gtaat
  • S(P) acacgtaataga

21
Shortest common Superstring
  • Dado un conjunto Ps1,s2,,sn el objetivo
    consiste en encontrar la cadena S de longitud
    mínima tal que cada si P sea una subcadena de
    S.
  • Ejemplo
  • P acacg,ataga,cacgt,gtaat
  • S(P) acacgtaataga

22
Shortest common Superstring
  • Dado un conjunto Ps1,s2,,sn el objetivo
    consiste en encontrar la cadena S de longitud
    mínima tal que cada si P sea una subcadena de
    S.
  • Ejemplo
  • P acacg,ataga,cacgt,gtaat
  • S(P) acacgtaataga

23
Shortest common Superstring
  • Dado un conjunto Ps1,s2,,sn el objetivo
    consiste en encontrar la cadena S de longitud
    mínima tal que cada si P sea una subcadena de
    S.
  • Ejemplo
  • P acacg,ataga,cacgt,gtaat
  • S(P) acacgtaataga

24
Shortest common Superstring
  • Representación de grafos

25
Supercadena común mas corta
  • Cada cadena si P se asocia a un vértice vi
    V.

P aggtg,ggcaa,tctga,tgagt
26
Supercadena común mas corta
  • El costo del arco c(i,j) A se define por
  • pref(si,sj)si-over(s
    i,sj)

P aggtg,ggcaa,tctga,tgagt
5-14
27
Supercadena común mas corta
P aggtg,ggcaa,tctga,tgagt
aggtg
ggcaa
ggcaa
aggtg
4
4
aggtg
Tour Óptimo
,ggcaa
5
5
,tctga
,tgagt
,aggtg
4
5
5
5
Costo
4
5
2
5 16
5
3
tctga
tgagt
tctga
tgagt
2
4
28
SCS es equivalente a ATSP
P aggtg,ggcaa,tctga,tgagt
Tour Óptimo aggtg,ggcaa,tctga,tgagt,aggtg
Como se forma la supercadena óptima a partir
del tour?
29
SCS es equivalente a ATSP
P aggtg,ggcaa,tctga,tgagt
Tour Optimo aggtg,ggcaa,tctga,tgagt,aggtg
SCS aggtggcaa
30
SCS es equivalente a ATSP
P aggtg,ggcaa,tctga,tgagt
Tour Optimo aggtg,ggcaa,tctga,tgagt,aggtg
SCS aggtggcaatctgagt
31
SCS es equivalente a ATSP
P aggtg,ggcaa,tctga,tgagt
Tour Optimo aggtg,ggcaa,tctga,tgagt,aggtg
SCS aggtggcaatctgagt16
ATSP SCS
32
Algoritmos de Aproximacion para SCS
  • El mejor factor de aproximación para ATSP es
    O(log n) 9.
  • Algoritmos de Aproximación para SCS proporcionan
    soluciones en base otro problema llamado
    cubrimiento de ciclos cycle cover.

33
Cycle Cover
  • Un cycle cover es una colección de ciclos
    disjuntos que cubren todos los vértices V de
    G(V,A).
  • Su costo equivale a la suma de los costos de cada
    uno de sus ciclos.
  • Cycle cover puede ser encontrado en O(n3)
    utilizando el algoritmo hungaro 10.

34
Cycle Cover
aggtg
ggcaa
4
4
5
5
4
5
5
5
5
3
tctga
tgagt
2
4
35
Algoritmo 4-aproximación para el problema de la
supercadena 11.Tiempo de Ejecución O(n3)
36
Algoritmo 4-aproximación para SCS
  • Entrada Conjunto de Cadenas P.
  • Obtener el grafo de distancia G(V,A) a partir
    del conjunto P.

37
Algoritmo 4-aproximación para SCS
2. Obtener el cycle cover CC(G) de costo mínimo
a partir de G(V,A).
38
Algoritmo 4-aproximación para SCS
  • Formar las cadenas representativas de los ciclos.
    Rompiendo el ciclo en un vértice arbitrario.

Ciclo 1 ltcctccg?ctccgagt
cctccg
Cadena 1
ctccga
39
Algoritmo 4-aproximación para SCS
  • Formar las cadenas representativas de los ciclos.
    Rompiendo el ciclo en un vértice arbitrario.

Ciclo 2 ltcctcct?tcctccgt
cctcct
Cadena 2
tcctcc
40
Algoritmo 4-aproximación para SCS
  • Formar las cadenas representativas de los ciclos.
    Sea T el conjunto de cadenas representativas.

cctcctcc
Cadena 2
Tcctccga,cctcctcc
41
Algoritmo 4-aproximación para SCS
4. La supercadena regresada por el algoritmo es
la concatenación arbitraria de las cadenas en T.
Tcctccga,cctcctcc
S(P) cctccga cctcctcc
S(P) cctccgacctcctcc 15
42
Algoritmo 3-aproximación para el problema de la
supercadena 12 Tiempo de Ejecución O(n3)
43
Algoritmo 3-aproximación para SCS
Pasos 1, 2 y 3 son idénticos al algoritmo
4- aproximación. 4. Obtener el grafo de
distancia G a partir de T.
Tcctccga,cctcctcc
44
Algoritmo 3-aproximación para SCS
5. Encontrar un cycle cover no trivial de G.
Es decir no se permiten autociclos.
45
Algoritmo 3-aproximación para SCS
6. Formar las cadenas representativas de los
ciclos. Rompiendo el ciclo en el mejor vértice.
Ciclo 1 ltcctccga?cctcctccgt
cctccga
cctcctcc
V1
V2
cctccga
cctcctcc
46
Algoritmo 3-aproximación para SCS
6. La supercadena regresada por el algoritmo
S(P) es la concatenación arbitraria de T.
vs
S4arb(P)cctccgacctcctcc15
47
Variantes propuestas para los algoritmos 4-arb y
3-arb.
48
Variantes Propuestas
En el paso 3 de ambos algoritmos, se encuentran
las cadenas rompiendo los ciclos en un punto
arbitrario, se propone que estos se rompan en el
mejor vértice.
Longitud de Scij.

49
Implementación
50
Implementación de los algoritmos
  • Se implementaron los algoritmos 4 y 3
    aproximación así como las variantes propuestas.
  • No existen casos tipo disponibles públicamente,
    los casos de entrada fueron generados
    aleatoriamente.
  • Se utilizaron 3 métodos distintos de generación
    para los casos de entrada.

51
Métodos de Generación de Casos
  • Método DADN El conjunto de cadenas de entrada es
    la salida de un experimento de hibridización con
    errores NEGATIVOS.
  • Se obtiene una cadena b de ADN real de un banco
    de secuencias (Genbank).
  • Se deriva el espectro ideal de b es decir todas
    las cadenas (oligos) de longitud l.
  • En forma aleatoria se elimina un porcentaje de
    estas cadenas. Simulando asi errores negativos.
  • El conjunto de cadenas resultantes es la entrada
    para SCS.

52
Métodos de Generación de Casos
  • Método DRAND
  • Este método es similar al anterior (DADN)
    con una diferencia la secuencia de la cual se
    parte no es real, sino una cadena b generada
    aleatoriamente y con distribución uniforme sobre
    el alfabeto S A,C,T,G. Se aplican los pasos
    2-4 de DADN sobre b.

53
Métodos de Generación de Casos
  • Método IRAND
  • Se generan m cadenas independientes de
    longitud l. Donde cada símbolo de S A,C,T,G
    que compone a la cadena si es generado de forma
    independiente sobre los demás símbolos con
    probabilidad 1/S.

54
Implementación
Algoritmo 4arb
Algoritmo 3arb
Algoritmo 4all
Algoritmo 3all
55
Evaluación de la Calidad de la Solución
  • Cota Held-Karp 13
  • Es una cota inferior para TSP, conocida como
    subtour elimination polytope la cual es una
    relajación sobre el modelo de programación entera
    de TSP.
  • HK(G) TSP(G)

56
Evaluación de la Calidad de la Solución
  • Un caso B de ATSP puede transformarse a un caso
    B de TSP.
  • El costo del tour de B es igual al costo del
    tour de B.
  • La cota HK es un cota inferior para B y por lo
    tanto para B.
  • CC(G) HK(G) ATSP(G) S(P)

57
Calculo de la cota HK
  • Se transformó el digrafo de distancias G(V,A) en
    un grafo no dirigido G(3V,E), es decir se
    transformó de ATSP a TSP 14.
  • Se ejecutó el programa disponible publicamente
    concorde cuya entrada es la matriz de costos del
    problema transformado 15.

58
RESULTADOS
59
Principales resultados obtenidos

60
Principales resultados obtenidos

61
Principales resultados obtenidos

62
Tiempo de Ejecución (seg)
63
Conclusiones
  • Los algoritmos 4arb y 3arb para el caso promedio
    presentan una razón de 1 contrario a su razón
    teórica 4/3 1.333
  • Casos de entrada donde todas las cadenas
    traslapan en (l-1) presentan factores de
    aproximación menores que cadenas con poco
    traslape (l-1).
  • Los porcentajes de las variantes propuestas nunca
    excedieron el 101.
  • Las cotas no son ajustadas.
Write a Comment
User Comments (0)
About PowerShow.com