Desafos en Bioinformtica - PowerPoint PPT Presentation

1 / 46
About This Presentation
Title:

Desafos en Bioinformtica

Description:

Robotics, Graphics (Surfaces, Volumes), Comparison and 3D Matching, (Vision, recognition) ... Tomando un conjunto de pares de prote nas de una familia y un conjunto de ... – PowerPoint PPT presentation

Number of Views:49
Avg rating:3.0/5.0
Slides: 47
Provided by: Eri5190
Category:

less

Transcript and Presenter's Notes

Title: Desafos en Bioinformtica


1
Desafíos en Bioinformática
2
Plan de la presentación
  • Consideraciones Generales
  • Predicción de Funciones
  • Interacción PP
  • Plegamiento Un modelo de juguete

3
Consideraciones Generales
Databases Building, Querying Text String
Comparison Text Search, 1D Alignment,
Statistics Finding Patterns AI / Machine
Learning, Clustering, Mining Geometry
Robotics, Graphics (Surfaces, Volumes),
Comparison and 3D Matching, (Vision,
recognition) Physical Simulation Newtonian
Mechanics, Electrostatics, Numerical
Algorithms, Simulation
4
Predicción de funciones
  • Introducción
  • Antecedentes
  • Método planteado
  • Problema Computacional

5
Introducción
  • Las proteínas intervienen en todas las funciones
    vitales de los organismos.

Biochemistry, 3rd Edition, Mathews, van Holde,
Ahern. Mc Graw Hill
6
Introducción
Situación actual
  • El Proyecto Proteoma Humano es la continuación
    del Proyecto Genoma Humano. Su meta es
    encontrar la función de todas la proteínas
    identificadas en el genóma.

Nature 402, 715720, 1999 Nature 403, 815-816,
2000
  • Debido a varios proyectos Internacionales como el
    Structural Genomics Iniciative se ha encontrado
    la estructura terciaria de una gran cantidad de
    proteínas, sin embargo el determinar la función
    de éstas no se hace a la misma velocidad, y esta
    brecha se incrementa día con día.
  • Gran necesidad de métodos automáticos para
    predicción de funciones de proteínas.

7
Introducción
Paradigmas de predicción automática de función de
las proteínas
  • Transferencia de función basada en homólogos.
  • Métodos filogenómicos.
  • Patrones en las secuencias.
  • Métodos basados en alineamiento de estructuras.
  • Métodos basados en patrones de estructuras.

Friedberg, 2006
8
Introducción
Dificultad del problema
  • La definición de función de una proteína es
    ambigua, (aspectos bioquímicos, biológicos,
    fisiológico, clínico, etc.) Friedberg, 2006.
  • Función es todo aquello que le sucede o se hace a
    través de una proteína Rost, 2003.
  • La caracterización de las proteínas o
    anotaciones almacenadas en las bases de datos
    no tienen un lenguaje estandarizado, y en
    consecuencia son difícil de interpretar por los
    sistemas de cómputo Friedberg, 2006.
  • Generalmente las anotaciones están en lenguaje
    natural con cometarios particulares Friedberg,
    2006.

9
Introducción
Dificultad del problema
Por lo anterior, se propuso delimitar el trabajo
a algún grupo de enzymas. Con esto nos enfocamos
a las funciones de catálisis de procesos
bioquímicos.
El tipo de funciones está bien caracterizado y
existen varias clasificaciones de estás.
Existen varias bases de datos con información
estructurada sobre Enzimas.
Con lo que se probará el método sobre un caso
bien estudiado.
10
Qué se requiere?
  • Desarrollar un método eficiente y robusto para
    determinar la función de proteínas (enzimas) con
    estructura tridimensional conocida. El método
    determinará si la proteína pertenece o no a un
    conjunto particular de enzimas con función o
    características funcionales similares.

11
Antecedentes
  • La estructura de una proteína está correlacionada
    con las características funcionales de bajo nivel
    de ésta Martin et al., 1998.
  • Las enzimas están clasificadas en base a su
    función bioquímica. Esta clasificación está
    estructurada en 4 niveles de lo general a lo
    particular y representada mediante un código
    llamado E.C. formado por 4 números
    consecutivos.

12
Antecedentes
  • El sitio activo (sitio catalítico) de las enzimas
    generalmente se encuentra en la primera o
    segunda cavidad más grande de la superficie de la
    enzima Laskowski et al., 1996.

Lugar más probable para el sitio catalítico
13
Antecedentes
  • La función catalítica de las enzimas está
    definida por cuatro o menos residuos en el sitio
    catalítico de la enzima Porter et al., 2004.
  • La CSA (Catalytic Site Atlas) es una base de
    datos en la que se encuentran documentados todos
    los sitos catalíticos encontrados
    experimentalmente y varios más transferidos por
    homología (PSI-BLAST) con los anteriores Porter
    et al., 2004.

14
Antecedentes
  • Se demostró que es posible diferenciar cavidades
    que son sitios activos y las que no lo son,
    usando un clasificador Bayesiano y representando
    los datos de estás como tres vectores ortogonales
    (eigen-vectores). Kim s. et al., 2006

15
Método
Se usará la información de estructuras terciarias
y de sitios catalíticos de enzimas ya
caracterizadas, la cual está disponible en el PDB
y el CSA. Procesando estos datos con métodos de
clasificación se buscarán patrones de relación
entre la estructura y la función de la enzima.
El proceso está integrado por dos fases
  • Entrenamiento del Clasificador
  • Clasificación de la enzima

16
Una propuesta
17
Método
Entrenamiento del Clasificador
1.- Determinar la clase de enzimas que se quiere
reconocer. En base a esto seleccionar de las
bases de datos PDB y CSA un conjunto de enzimas
representativas de dicho grupo, y otro conjunto
de enzimas ajenas al grupo. Con estos dos
conjuntos se crea el conjunto de entrenamiento.
En la actualidad existen varios criterios para
clasificar las enzimas Clasificación de
funciones de proteínas en el PDB http//function.
rcsb.org8080/pdb/function_distribution/index.html
Enzyme Classification GO - Biological
process GO - Cell Component GO -
Molecular Function Disease
18
Método
Entrenamiento del Clasificador
2.- Para cada sitio activo de cada elemento del
conjunto de prueba se obtienen tres vectores
ortogonales generados a partir de la orientación
de los residuos del sitio activo Kim S. et al.,
2006.
19
Método
Entrenamiento del Clasificador
A matrix 6 3 6 residuos con 3
dimensiones c/u
En general A matriz i X 3
M ATA matriz 3 3
20
Método
Entrenamiento del Clasificador
3.- Con los vectores obtenidos en el paso
anterior se crea un clasificador binario que
identifique las enzimas de la clase y las que no
lo son. Dicho clasificador se definirá después de
experimentar con diferentes paradigmas como
Bayesiano, NN, SVM, etc.
21
Método
Identificación de la enzima
1.- Se usa SURFNET Laskowski, 1995 para
encontrar las cavidades superficiales de la
enzima con función desconocida, de las cuales se
seleccionan las dos de mayor tamaño.
22
Método
Identificación de la enzima
1.- Se usa SURFNET Laskowski, 1995 para
encontrar las cavidades superficiales de la
proteína con función desconocida, de las cuales
se seleccionan las dos de mayor tamaño.
23
Método
Identificación de la enzima
2.- Selección de los residuos correspondientes a
las dos cavidades y se obtienen los vectores
característicos de las cavidades Kim S. et al.,
2006 .
3.- Con los vectores característicos de cada
cavidad, se evalúa la probabilidad de que la
cavidad pertenezca a la clase de la enzima .
24
Problema computacional
Encontrar una correlación entre las
características estructurales de las enzimas y el
grupo funcional al que pertenecen, de tal forma
que se pueda predecir si una proteína con
estructura conocida pertenece a un grupo
determinado o no.
Las características estructurales pueden
definirse en base a la posición en el espacio de
los residuos que integran la proteína y sus
características químicas como Hidrofobicidad, y
carga de estos.
25
Qué se aportaría?
  • Desarrollo de una herramienta de apoyo en la
    determinación de funciones de algunas enzimas.
  • Proponer formas adecuadas de representación de
    proteínas para usarse en algoritmos
    computacionales.
  • Evaluar el desempeño de diversos algoritmos de
    clasificación y determinar el más adecuado para
    clasificación de enzimas.

26
Interacción proteína-proteína
  • Asociaciones entre proteínas.
  • Existe gran diversidad de interacciones Nooren,
    2003.
  • La mayoría de las funciones biológicas son
    mediadas por interacciones de proteínas Carugo,
    2004.
  • Aumenta el conocimiento de las enfermedades y
    puede propiciar el desarrollo de innovaciones en
    la farmacología Rojas, 2007.

26
27
Ejemplo de interacción P-P
  • Interleucinas o interleukinas. Conjunto de
    proteínas que tienen como función la
    intercomunicación, participando en la respuesta
    del sistema inmunitario.

27
28
Investigación previa relevante
  • Uso de secuencia y estructura para identificar
    sitios de ligado proteína-proteína Chung, 2006.
  • Una SVM fue entrenada para identificar residuos
    de sitios de ligado.
  • La identificación de los sitios de ligado es muy
    importante para el diseño de medicamentos y
    entender los mecanismo de reconocimiento
    molecular.
  • Máquinas de vectores de soporte para análisis de
    proteínas Lewis, 2006.
  • Determinar el desempeño de SVM a partir de una
    combinación de secuencia de aminoácidos y
    estructura de proteínas.

28
29
Investigación previa relevante (2)
  • Métodos Núcleo para predicción de interacción
    proteína-proteína Ben-Hur, 2005.
  • Núcleos en conjunto con un clasificador SVM y
    combinación de fuentes de datos secuencias de
    proteínas, anotaciones ontológicas, entre otras.
  • Predicción de interacción proteína-proteína
    usando SVM.
  • Base a la estructura tridimensional.
  • Concluyen los autores que las SVM son muy útiles
    para la predicción de sitios de interacción entre
    proteínas Minakuchi, 2002.
  • Desempeño de predicción usando sólo información
    de secuencia puede no ser suficiente para uso
    práctico Koike, 2004.

29
30
Definición del problema
  • Se propone el análisis de los diferentes
    algoritmos basados en secuencia y/o estructura de
    proteínas y sus formas de representación de los
    datos para alimentar la SVM.
  • De tal forma, que se pueda discernir cuál es el
    enfoque que mejor determina la posible
    interacción entre un par de proteínas de una
    familia.

30
31
Qué se pretende?
  • Tomando un conjunto de pares de proteínas de una
    familia y un conjunto de algoritmos propuestos en
    la literatura,
  • cuál es el algoritmo con el enfoque de
    representación de información de proteínas
    analizado con mayor exactitud para determinar la
    posible interacción entre un par de proteínas?
  • Exactitud error de clasificación para un
    conjunto predefinido de proteínas.

31
32
Importancia
  • Realizar estudios de farmacogenómica in vitro es
    una tarea muy costosa en tiempo y recursos
    materiales ACEFFYN, 2000.
  • Este costo podría ser disminuido si podemos tener
    alguna orientación previa acerca de la
    posibilidad de interacción de un par de proteína,
    es decir, limitar el espacio de búsqueda Chung,
    2006 Carugo, 2004 Gómez, 2003 y Ben-Hur, 2005.

32
33
Importancia de la investigación (2)
  • Información puede servir para desarrollo de
    mejores algoritmos para el problema de
    interacción proteína-proteína.
  • Proveer lineamientos fundamentados en la
    investigación, para resolver un problema de
    clasificación dentro del contexto del aprendizaje
    de máquinas y la bioinformática.

33
34
Un modelo de juguete
Problema del plegamiento de proteínas (Olivares y
García, 2004) (Figura Gómez-MorenoSancho)
. . . M L V V I
N P G . . .
35
Planteamiento del Problema
  • Número exponencial de posibles conformaciones
  • (Olivares y García, 2004)
  • Cálculo de la energía libre muy complejo
  • (Fogel y Corne, 2003)
  • Necesidad de modelos simplificados (Dill, 1985)
  • Modelo hidrofóbico polar

C vN,
si v2 y N100,
C 2100
36
Replanteamiento del Problema(Yue y Dill, 1993,
1995, Un modelo de Juguete)
  • Ecuación del plegamiento
  • tHH S/2 G ((z-2)/nH)/2
  • Maximización de contactos H-H ? Minimización de
    superficie
  • Manejo de Centros-H

37
Replanteamiento del Problema(Yue y Dill, 1993,
1995)
  • Acomodo a través de búsqueda exhaustiva
  • Manejo de restricciones
  • Estructuras P-singlets
  • Longitud de atado

3
4
4
2
4
2
2
2
3
1
3
3
4
2
3
3
4
3
4
2
2
2
2
4
2
3
4
3
3
4
4
4
3
3
2
1
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
21
20
22
23
26
25
24
29
28
27
31
30
34
33
36
32
35
47
48
43
44
45
46
39
40
38
37
41
42
38
Fin
39
Enzyme Classification
  • Administrado por
  • IUPAC-IUBMB International Union of Pure and
    Applied Chemistry - International Union of
    Biochemistry and Molcular Biology
  • JCBN Joint Commission on Biochemical Nomenclature

40
Enzyme Classification
Ejemplo de número EC
41
Catalytic Site Atlas
  • Base de datos administrada por la EBI (European
    Bioinformatics Institute).
  • Documenta sitios activos y residuos catalíticos
    en enzimas con estructura tridimensional conocida
    (880 entradas de la literatura y 18784 usando
    PSI-BLAST, marzo de 2007 )
  • Incluye únicamente los residuos involucrados en
    algún aspecto de la reacción catalizada por la
    enzima.

42
Catalytic Site Atlas
Ejemplo de información en el CSA
43
Protein Data Bank
  • Base de datos administrada por el RCSB (Research
    Collaboratory for Structural Bioinformatics)
  • Es el mayor repositorio de estructuras
    tridimensionales de proteínas. 42,400 estructuras
    registradas.
  • Se almacenan las coordenadas (x, y, z) de cada
    átomo de la proteína.
  • Los datos se obtienen principalmente por
    Cristalografía de rayos X y NMR.

44
Protein Data Bank
Estructura terciaria de una proteína
45
Protein Data Bank
Ejemplo de información en el PDB
13
12
11
8
9
7
10
46
  • Oxido-reductasas catalizan reacciones de
    oxido-reducción, las que implican la ganancia (o
    reducción) o pérdida de electrones (u oxidación).
    Las más importantes son las deshidrogenasas y las
    oxidasas
  • Transferasas transfieren grupos funcionales de
    una molécula a otra. Ej. quinasas transfieren
    fosfatos del ATP a otra molécula.
  • Hidrolasas rompen varios tipos de enlaces
    introduciendo radicales -H y -OH.
  • Liasas adicionan grupos funcionales a los dobles
    enlaces.
  • Isomerasas convierten los sustratos isómeros
    unos en otros.
  • Ligasas o Sintasas forman diversos tipos de
    enlaces aprovechando la energía de la ruptura del
    ATP. Ej polimerasas
Write a Comment
User Comments (0)
About PowerShow.com