Title: Algoritmos Genticos y Prediccin de Plegamiento de Proteinas
1AlgoritmosGenéticosyPredicción dePlegamiento
de Proteinas
2Primera Parte
- Descripción del problema y Breve repaso
3El problema
Predecir la estructura de una proteina dada la
secuencia de aminoácidos que forma dicha proteina.
4Breve repaso
5Aminoácidos
Grupo Carboxido (ácido)
Grupo Amino
Residuo
6O
C
OH
O
C
OH
H
H2N
Ca
Ca
H
H2N
R
R
7O
OH
H
C
OH
O
H N
C
Ca
H
Unión Péptida
Ca
H
H2N
R
R
8Proteinas
C
O
H N
C
Ca
O
H N
C
Ca
H
R
H N
Ca
H
R
R
9Angulos de torsión
C
O
H N
C
Ca
O
H N
C
Ca
H
R
H N
Ca
H
R
R
10Segunda Parte
- Introducción a los Algoritmos Genéticos
11Descripción
- Encuentran soluciones buenas en un tiempo
razonable. - Representan las posibles soluciones de un
problema como genes. - Los algorítmos genéticos generan una población de
genes (posibles soluciones) y los hacen
evolucionar para obtener genes mas aptos (mejores
soluciones).
12Inspiración
- En la naturaleza los individuos compiten por los
recursos del medio ambiente. Algunos son mejores
que otros, esos son los que tienen mas
posibilidades de sobrevivir y propagar su
material genético. - En un AG los genes son evaluados según una
función llamada Fitness function y los mejores
son los que pasarán a la próxima iteración.
13Representación de los genes
Una secuencia de nucleótidos
- En un algoritmo genético (ejemplos)
Un valor numérico (178) expresado en binario
Una secuencia de movimientos
14Pasos de un algoritmo genético
- Generar una población de n genes aleatoreos.
- Evaluar a todos los individuos según la función
de aptitud (fitness function). - Generar nuevos individuos utilizando funciones
como Mutar, Cruzar (crossover), Variar, etc. - Seleccionar a los individuos que formarán la
próxima generación. (Seleccionar a los hijos
(offsprings) o seleccionar a los n mejores) - Volver a 2 hasta que se encuentre un valor
predefinido o se hallan cumplido una cantidad
predeterminada de iteraciones.
15Mutación
- Se decide con alguna probabilidad si se aplica la
mutación o no. - De aplicarse se selecciona con alguna
probabilidad el bit (o item del arreglo) a mutar. - De no ser un bit (que sería negado) se elije con
alguna probabilidad en que muta.
16Cruza
- Se decide con alguna probabilidad si se aplica la
cruza o no. - De aplicarse se selecciona con alguna
probabilidad la posición del arreglo donde se
aplica.
Gen A
Gen B
Gen AB
Gen BA
17Selección de la pareja
Existen dos formas de seleccionar la pareja con
la cual se va a cruzar un gen
- En función de la función de aptitud.
- Seleccionar de un grupo aleatorio el mas apto.
18Variación
- Se decide con alguna probabilidad si se aplica la
funcion o no. - De aplicarse se cambia el valor de una de las
posiciones del arreglo de forma tal que el dato
codificado varíe levemente.
19Links
- The Genetic Algorithms Archivehttp//www.aic.nrl.
navy.mil/galist/ - Genetic Algorithms and Artificial
LifeResourceshttp//www.scs.carleton.ca/csgs/re
sources/gaal.html - Genetic Algorithmshttp//d.felk.cvut.cz/xobitko/
ga/
20Tercera Parte
- Utilizando Algoritmos Genéticos para Resolver el
Problema del Plegamiento de Proteinas
21Simulación de Plegamiento de Proteinas por
Optimización del Campo de Fuerza
22Representación de la información (codificación de
los genes)
23Definición del operador Mutar
Para la definición del operador Mutar se
analizaron estadisticamente los ángulos de
torsión de 129 proteinas de la base de datos
Brookhaven (PDB). Se utilizaron intervalos de a
10 y se tomaron los 10 intervalos que ocurrian
con mas frecuencia (cada uno representado por su
extremo izquierdo) para utilizar como ángulos a
reemplazar por el operador Mutar.
24Definición del operador Variar
El operador Variar consta de tres componentes
1, 5 y 10. Para cada uno de los ángulos de
torsión se toman dos decisiones primero si se
aplica o no el operador, y luego, en caso de
aplicarse se elije cual de los 3 componentes se
utilizará para incrementar o decrementar dicho
ángulo de torsión
25Definición del operador Cruza
El operador Cruza consta de dos componentes
Cruza uniforme y Cruza de dos puntos. Los genes
son agrupados de a pares y luego se decide si se
aplica o no el operador, de aplicarse se decide
cual de los dos componentes se utilizará. La
Cruza uniforme consiste en decidir (con
probabilidad del 50) si se intercambia cada uno
de los ángulos de torsión de los dos genes. La
Cruza de dos puntos selecciona al azar dos
residuos de un individuo e intercambia el
fragmento entre los residuos con el otro
individuo.
26Steric Potential Energy Function(Función de
aptitud)
EEbondEphiEtorEimprEvdWEelEHEcrEchpi
27Simplificaciones
EEbondEphiEtorEimprEvdWEelEHEcrEchpi
- Como asumimos longitudes y ángulos de enlace
constantes tenemos que Ebond (Potencial de la
longitud del enlace), Ephi (Potecial del ángulo
del enlace) y Eimpr (Potencial del ángulo
impropio de torsión) son constantes. - Se omite EH porque se tendría que haber tenido en
cuenta en EvdW y Eel - Como simulamos el plegamiento de la proteina en
el vacio (sin ligadores ni solventes) los valores
de Eci y Echpi son constantes.
28Entropía
EEtorEvdWEel
Epe
- Si utilizamos unicamente Etor , EvdW y Eel no
obtendríamos suficiente energía para llevar a la
proteina a un estado compacto de plegado.
- Es muy complicado calcular la diferencia de
entropia entre un estado plegado y un desplegado
(esta relacionado con la interacción entre la
proteina y el solvente).
- Para tener esto en cuenta utilizaremos un término
ad-hoc (Que tiene en cuenta el diámetro de la
proteina obtenido y el esperado)
29Parametrización
Los parametros controlan el comportamiento del
algoritmo. Y pueden variar mientras se el
algoritmo se ejecuta.
30Estructura del Crambin (estructura determinada
con una resolución de 1.5 ? Tamaño 46 residuos)
31Uno de los plegamientos generados por el algoritmo
32Resultados
- Ninguno de los 10 individuos muestra similaridad
estructural con la forma del crambin. - Los resultados obtenidos tienen forma de
proteina, no tienen nudos ni extremos
sobresalientes - En la última generación se obtuvieron dos
familias distintas de estructuras, con valores de
rms de aproximandamente 2 entre los miembros de
cada familia y de 9 entre las familias
33Resultados
Los individuos generados por el AG tienen un
mayor potencial electroestático que el cambrin
original, esto se debe principalmente a
Energias en la última generación.
El crambin tiene 6 residuos parcialmente cargados
que no fueron neutralizados en este
experimento El algoritmo favorese a las
configuraciones con menor energia total lo cual
es facilmente alcanzable optimizando las
contribuciones electroestaticas.
34Resultados
- Teniendo en cuenta el tamaño de la población, y
el hecho de que en la última generación se
encontraron dos familias de conformaciones
podemos decir que - Los resultados no fueron tan malos!!!
- Habría que encontrar una función de aptitud que
represente mejor las conformaciones.
35Optimización Multi-criterio de la Conformación de
la Proteina
36Nueva función de aptitud
37Resultado obtenido utilizando unicamente Polar,
Epe, Etor, Eel, Hydro, Crippen y
Solvent r.m.s6.27Å
38Conclusiones
- Los AGs probaron ser una herramienta de busqueda
eficiente para la representacion tridimensional
de las proteinas. - Utilzando Campos de fuerza como función de
aptitud y una pequeña población el algoritmo
genera diversos individuos pero con una funcion
de aptitud bastante optima. - El mayor problema recae en la función de aptitud,
ya que no se puede encontrar una lo
suficientemente precisa se encuentran soluciones
sub-optimas diversas alejadas de la solucion
óptima