Title: Desafos en Bioinformtica
1DesafÃos en Bioinformática
2Plan de la presentación
- Consideraciones Generales
- Predicción de Funciones
- Interacción PP
- Plegamiento Un modelo de juguete
3Consideraciones Generales
Databases Building, Querying Text String
Comparison Text Search, 1D Alignment,
Statistics Finding Patterns AI / Machine
Learning, Clustering, Mining Geometry
Robotics, Graphics (Surfaces, Volumes),
Comparison and 3D Matching, (Vision,
recognition) Physical Simulation Newtonian
Mechanics, Electrostatics, Numerical
Algorithms, Simulation
4Predicción de funciones
- Introducción
- Antecedentes
- Método planteado
- Problema Computacional
5Introducción
- Las proteÃnas intervienen en todas las funciones
vitales de los organismos.
Biochemistry, 3rd Edition, Mathews, van Holde,
Ahern. Mc Graw Hill
6Introducción
Situación actual
- El Proyecto Proteoma Humano es la continuación
del Proyecto Genoma Humano. Su meta es
encontrar la función de todas la proteÃnas
identificadas en el genóma.
Nature 402, 715720, 1999 Nature 403, 815-816,
2000
- Debido a varios proyectos Internacionales como el
Structural Genomics Iniciative se ha encontrado
la estructura terciaria de una gran cantidad de
proteÃnas, sin embargo el determinar la función
de éstas no se hace a la misma velocidad, y esta
brecha se incrementa dÃa con dÃa.
- Gran necesidad de métodos automáticos para
predicción de funciones de proteÃnas.
7Introducción
Paradigmas de predicción automática de función de
las proteÃnas
- Transferencia de función basada en homólogos.
- Métodos filogenómicos.
- Patrones en las secuencias.
- Métodos basados en alineamiento de estructuras.
- Métodos basados en patrones de estructuras.
Friedberg, 2006
8Introducción
Dificultad del problema
- La definición de función de una proteÃna es
ambigua, (aspectos bioquÃmicos, biológicos,
fisiológico, clÃnico, etc.) Friedberg, 2006. - Función es todo aquello que le sucede o se hace a
través de una proteÃna Rost, 2003. - La caracterización de las proteÃnas o
anotaciones almacenadas en las bases de datos
no tienen un lenguaje estandarizado, y en
consecuencia son difÃcil de interpretar por los
sistemas de cómputo Friedberg, 2006. - Generalmente las anotaciones están en lenguaje
natural con cometarios particulares Friedberg,
2006.
9Introducción
Dificultad del problema
Por lo anterior, se propuso delimitar el trabajo
a algún grupo de enzymas. Con esto nos enfocamos
a las funciones de catálisis de procesos
bioquÃmicos.
El tipo de funciones está bien caracterizado y
existen varias clasificaciones de estás.
Existen varias bases de datos con información
estructurada sobre Enzimas.
Con lo que se probará el método sobre un caso
bien estudiado.
10Qué se requiere?
- Desarrollar un método eficiente y robusto para
determinar la función de proteÃnas (enzimas) con
estructura tridimensional conocida. El método
determinará si la proteÃna pertenece o no a un
conjunto particular de enzimas con función o
caracterÃsticas funcionales similares.
11Antecedentes
- La estructura de una proteÃna está correlacionada
con las caracterÃsticas funcionales de bajo nivel
de ésta Martin et al., 1998.
- Las enzimas están clasificadas en base a su
función bioquÃmica. Esta clasificación está
estructurada en 4 niveles de lo general a lo
particular y representada mediante un código
llamado E.C. formado por 4 números
consecutivos.
12Antecedentes
- El sitio activo (sitio catalÃtico) de las enzimas
generalmente se encuentra en la primera o
segunda cavidad más grande de la superficie de la
enzima Laskowski et al., 1996.
Lugar más probable para el sitio catalÃtico
13Antecedentes
- La función catalÃtica de las enzimas está
definida por cuatro o menos residuos en el sitio
catalÃtico de la enzima Porter et al., 2004.
- La CSA (Catalytic Site Atlas) es una base de
datos en la que se encuentran documentados todos
los sitos catalÃticos encontrados
experimentalmente y varios más transferidos por
homologÃa (PSI-BLAST) con los anteriores Porter
et al., 2004.
14Antecedentes
- Se demostró que es posible diferenciar cavidades
que son sitios activos y las que no lo son,
usando un clasificador Bayesiano y representando
los datos de estás como tres vectores ortogonales
(eigen-vectores). Kim s. et al., 2006
15Método
Se usará la información de estructuras terciarias
y de sitios catalÃticos de enzimas ya
caracterizadas, la cual está disponible en el PDB
y el CSA. Procesando estos datos con métodos de
clasificación se buscarán patrones de relación
entre la estructura y la función de la enzima.
El proceso está integrado por dos fases
- Entrenamiento del Clasificador
- Clasificación de la enzima
16Una propuesta
17Método
Entrenamiento del Clasificador
1.- Determinar la clase de enzimas que se quiere
reconocer. En base a esto seleccionar de las
bases de datos PDB y CSA un conjunto de enzimas
representativas de dicho grupo, y otro conjunto
de enzimas ajenas al grupo. Con estos dos
conjuntos se crea el conjunto de entrenamiento.
En la actualidad existen varios criterios para
clasificar las enzimas Clasificación de
funciones de proteÃnas en el PDB http//function.
rcsb.org8080/pdb/function_distribution/index.html
Enzyme Classification GO - Biological
process GO - Cell Component GO -
Molecular Function Disease
18Método
Entrenamiento del Clasificador
2.- Para cada sitio activo de cada elemento del
conjunto de prueba se obtienen tres vectores
ortogonales generados a partir de la orientación
de los residuos del sitio activo Kim S. et al.,
2006.
19Método
Entrenamiento del Clasificador
A matrix 6 3 6 residuos con 3
dimensiones c/u
En general A matriz i X 3
M ATA matriz 3 3
20Método
Entrenamiento del Clasificador
3.- Con los vectores obtenidos en el paso
anterior se crea un clasificador binario que
identifique las enzimas de la clase y las que no
lo son. Dicho clasificador se definirá después de
experimentar con diferentes paradigmas como
Bayesiano, NN, SVM, etc.
21Método
Identificación de la enzima
1.- Se usa SURFNET Laskowski, 1995 para
encontrar las cavidades superficiales de la
enzima con función desconocida, de las cuales se
seleccionan las dos de mayor tamaño.
22Método
Identificación de la enzima
1.- Se usa SURFNET Laskowski, 1995 para
encontrar las cavidades superficiales de la
proteÃna con función desconocida, de las cuales
se seleccionan las dos de mayor tamaño.
23Método
Identificación de la enzima
2.- Selección de los residuos correspondientes a
las dos cavidades y se obtienen los vectores
caracterÃsticos de las cavidades Kim S. et al.,
2006 .
3.- Con los vectores caracterÃsticos de cada
cavidad, se evalúa la probabilidad de que la
cavidad pertenezca a la clase de la enzima .
24Problema computacional
Encontrar una correlación entre las
caracterÃsticas estructurales de las enzimas y el
grupo funcional al que pertenecen, de tal forma
que se pueda predecir si una proteÃna con
estructura conocida pertenece a un grupo
determinado o no.
Las caracterÃsticas estructurales pueden
definirse en base a la posición en el espacio de
los residuos que integran la proteÃna y sus
caracterÃsticas quÃmicas como Hidrofobicidad, y
carga de estos.
25Qué se aportarÃa?
- Desarrollo de una herramienta de apoyo en la
determinación de funciones de algunas enzimas. - Proponer formas adecuadas de representación de
proteÃnas para usarse en algoritmos
computacionales. - Evaluar el desempeño de diversos algoritmos de
clasificación y determinar el más adecuado para
clasificación de enzimas.
26Interacción proteÃna-proteÃna
- Asociaciones entre proteÃnas.
- Existe gran diversidad de interacciones Nooren,
2003. - La mayorÃa de las funciones biológicas son
mediadas por interacciones de proteÃnas Carugo,
2004. - Aumenta el conocimiento de las enfermedades y
puede propiciar el desarrollo de innovaciones en
la farmacologÃa Rojas, 2007.
26
27Ejemplo de interacción P-P
- Interleucinas o interleukinas. Conjunto de
proteÃnas que tienen como función la
intercomunicación, participando en la respuesta
del sistema inmunitario.
27
28Investigación previa relevante
- Uso de secuencia y estructura para identificar
sitios de ligado proteÃna-proteÃna Chung, 2006. - Una SVM fue entrenada para identificar residuos
de sitios de ligado. - La identificación de los sitios de ligado es muy
importante para el diseño de medicamentos y
entender los mecanismo de reconocimiento
molecular. - Máquinas de vectores de soporte para análisis de
proteÃnas Lewis, 2006. - Determinar el desempeño de SVM a partir de una
combinación de secuencia de aminoácidos y
estructura de proteÃnas.
28
29Investigación previa relevante (2)
- Métodos Núcleo para predicción de interacción
proteÃna-proteÃna Ben-Hur, 2005. -
- Núcleos en conjunto con un clasificador SVM y
combinación de fuentes de datos secuencias de
proteÃnas, anotaciones ontológicas, entre otras. - Predicción de interacción proteÃna-proteÃna
usando SVM. -
- Base a la estructura tridimensional.
- Concluyen los autores que las SVM son muy útiles
para la predicción de sitios de interacción entre
proteÃnas Minakuchi, 2002. -
- Desempeño de predicción usando sólo información
de secuencia puede no ser suficiente para uso
práctico Koike, 2004.
29
30Definición del problema
- Se propone el análisis de los diferentes
algoritmos basados en secuencia y/o estructura de
proteÃnas y sus formas de representación de los
datos para alimentar la SVM. - De tal forma, que se pueda discernir cuál es el
enfoque que mejor determina la posible
interacción entre un par de proteÃnas de una
familia.
30
31Qué se pretende?
- Tomando un conjunto de pares de proteÃnas de una
familia y un conjunto de algoritmos propuestos en
la literatura, -
- cuál es el algoritmo con el enfoque de
representación de información de proteÃnas
analizado con mayor exactitud para determinar la
posible interacción entre un par de proteÃnas? - Exactitud error de clasificación para un
conjunto predefinido de proteÃnas.
31
32Importancia
- Realizar estudios de farmacogenómica in vitro es
una tarea muy costosa en tiempo y recursos
materiales ACEFFYN, 2000. - Este costo podrÃa ser disminuido si podemos tener
alguna orientación previa acerca de la
posibilidad de interacción de un par de proteÃna,
es decir, limitar el espacio de búsqueda Chung,
2006 Carugo, 2004 Gómez, 2003 y Ben-Hur, 2005.
32
33Importancia de la investigación (2)
- Información puede servir para desarrollo de
mejores algoritmos para el problema de
interacción proteÃna-proteÃna. - Proveer lineamientos fundamentados en la
investigación, para resolver un problema de
clasificación dentro del contexto del aprendizaje
de máquinas y la bioinformática.
33
34Un modelo de juguete
Problema del plegamiento de proteÃnas (Olivares y
GarcÃa, 2004) (Figura Gómez-MorenoSancho)
. . . M L V V I
N P G . . .
35Planteamiento del Problema
- Número exponencial de posibles conformaciones
- (Olivares y GarcÃa, 2004)
- Cálculo de la energÃa libre muy complejo
- (Fogel y Corne, 2003)
- Necesidad de modelos simplificados (Dill, 1985)
- Modelo hidrofóbico polar
C vN,
si v2 y N100,
C 2100
36Replanteamiento del Problema(Yue y Dill, 1993,
1995, Un modelo de Juguete)
- Ecuación del plegamiento
- tHH S/2 G ((z-2)/nH)/2
- Maximización de contactos H-H ? Minimización de
superficie - Manejo de Centros-H
37Replanteamiento del Problema(Yue y Dill, 1993,
1995)
- Acomodo a través de búsqueda exhaustiva
- Manejo de restricciones
- Estructuras P-singlets
- Longitud de atado
3
4
4
2
4
2
2
2
3
1
3
3
4
2
3
3
4
3
4
2
2
2
2
4
2
3
4
3
3
4
4
4
3
3
2
1
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
21
20
22
23
26
25
24
29
28
27
31
30
34
33
36
32
35
47
48
43
44
45
46
39
40
38
37
41
42
38Fin
39Enzyme Classification
- Administrado por
- IUPAC-IUBMB International Union of Pure and
Applied Chemistry - International Union of
Biochemistry and Molcular Biology - JCBN Joint Commission on Biochemical Nomenclature
40Enzyme Classification
Ejemplo de número EC
41Catalytic Site Atlas
- Base de datos administrada por la EBI (European
Bioinformatics Institute).
- Documenta sitios activos y residuos catalÃticos
en enzimas con estructura tridimensional conocida
(880 entradas de la literatura y 18784 usando
PSI-BLAST, marzo de 2007 )
- Incluye únicamente los residuos involucrados en
algún aspecto de la reacción catalizada por la
enzima.
42Catalytic Site Atlas
Ejemplo de información en el CSA
43Protein Data Bank
- Base de datos administrada por el RCSB (Research
Collaboratory for Structural Bioinformatics)
- Es el mayor repositorio de estructuras
tridimensionales de proteÃnas. 42,400 estructuras
registradas.
- Se almacenan las coordenadas (x, y, z) de cada
átomo de la proteÃna.
- Los datos se obtienen principalmente por
CristalografÃa de rayos X y NMR.
44Protein Data Bank
Estructura terciaria de una proteÃna
45Protein Data Bank
Ejemplo de información en el PDB
13
12
11
8
9
7
10
46-
- Oxido-reductasas catalizan reacciones de
oxido-reducción, las que implican la ganancia (o
reducción) o pérdida de electrones (u oxidación).
Las más importantes son las deshidrogenasas y las
oxidasas -
- Transferasas transfieren grupos funcionales de
una molécula a otra. Ej. quinasas transfieren
fosfatos del ATP a otra molécula. - Hidrolasas rompen varios tipos de enlaces
introduciendo radicales -H y -OH. -
- Liasas adicionan grupos funcionales a los dobles
enlaces. -
- Isomerasas convierten los sustratos isómeros
unos en otros. - Ligasas o Sintasas forman diversos tipos de
enlaces aprovechando la energÃa de la ruptura del
ATP. Ej polimerasas