Title: Identificacin de genes
1Identificación de genes
- Bioinformática
- Maestría en Biología Molecular Médica
- Viernes, 5 de agosto 2006
2Probabilidades
3Probabilidades
- Condición necesaria y suficiente de independencia
- Sean A y B dos sucesos cualesquiera. Entonces
A y B son independientes si y solo si
4Probabilidades
- Propiedades
- Sean A y B dos sucesos tales que P(B) gt 0.
Entonces - Sean A y B dos sucesos tales que P(A),P(B) gt 0.
Entonces
diremos que A es independiente de B si
A es independiente de B si y solo si B es
independiente de A
5Probabilidades
- Teorema de Bayes
- Sea A1, A2, ... ,An un conjunto de sucesos
incompatibles cuya unión es el total y tales que
la probabilidad de cada uno de ellos es distinta
de cero. Sea B un suceso cualquiera del que se
conocen las probabilidades condicionales P(BAi).
entonces la probabilidad P(AiB) viene dada por
la expresión - donde
- P(Ai) son las probabilidades a priori.
- P(B Ai) es la probabilidad de B en la hipótesis
Ai. - P(Ai B) son las probabilidades a posteriori.
6Cadenas de Markov
- Una cadena de Markov es una serie de eventos, en
la cual la probabilidad de que ocurra un evento
depende del evento inmediato anterior. - Las cadenas de este tipo tienen memoria. Es
decir, recuerdan el último evento y esto
condiciona las posibilidades de los eventos
futuros. - Esta dependencia del evento anterior distingue a
las cadenas de Markov de las series de eventos
independientes, como tirar una moneda al aire o
un dado.
7Cadenas de Markov
8Cadenas de Markov
- Una cadena de Markov se puede caracterizar por la
probabilidad de ir al estado n1 condicionada a
que antes estábamos en el estado n - La propiedad de las cadenas de Markov es que las
transiciones entre los estados, sólo puede
producirse entre estados vecinos. Solo se puede
llegar al estado i desde el estado i-1 o bién de
i1.
Probabilidad de transición del proceso
9Cadenas de Markov
- Una cadena de Markov es una secuencia X1, X2, X3,
... de variables aleatorias. El rango de estas
variables, es llamado espacio estado, el valor de
Xn es el estado del proceso en el tiempo n. Si la
distribución de probabilidad condicional de Xn1
en estados pasados es una función de Xn por sí
sola, entonces
10Modelos de Markov (MM)
11Modelos de Markov
- Conjunto de estados
-
- Probabilidades de transición de estados
-
- Distribución inicial de estados
-
-
12Modelos de Markov
- Colección de estados
- Ssoleado, Slluvioso, Snevado
- Probabilidades de transición de estados
-
- A
- Distribución inicial de estados
- ?i (0.7 0.25 0.05)
13Modelos de Markov
P(Ssoleado) x P(SlluviosoSsoleado) x
P(SlluviosoSlluvioso) xP(SlluviosoSlluvioso) x
P(SnevadoSlluvioso) x P(SnevadoSnevado)
0.7 x 0.15 x 0.6 x 0.6 x 0.02 x 0.2 0.0001512
14Modelos Ocultos de Markov
15Modelos Ocultos de Markov
- Conjunto de estados S1, S2,,SN
- Probabilidades de transición de estados
- Aij P(qt1 Si qt Sj)
- Distribución inicial de estados
- ?i P(q1 Si)
- Observaciones O1, O2,,OM
- Probabilidades de observación
- Bj(k) P(vt Ok qt Sj)
16Modelos Ocultos de Markov
- Estados Ssoleado, Slluvioso, Snevado
- Probabilidades de transición de estados
- A
- Distribución de estados inicial
- ?i (0.7 0.25 0.05)
- Observaciones O1, O2,,OM
- Probabilidad de observación B
0.3
0.6
0.1
0.65
0.3
0.05
0.5
0.5
0.0
17Modelos Ocultos de Markov
P(O) P(Oguantes, Oguantes, Oparaguas,,
Oparaguas) ? P(OQ)P(Q)
P(O) ? P(O,Q)
todo Q
todo Q
18Modelos Ocultos de Markov
Anotación Dado un modelo M y una secuencia
observada S, cual es la secuencia de estados de M
más probable que genera S Clasificación Dado un
modelo M y una secuencia observada S, cual es la
probabilidad de S bajo M Consenso Dado un
modelo M, cual es la secuencia que tiene mayor
probabilidad bajo M Entrenamiento Dado un
conjunto de secuencias y una estructura de un
modelo, encontrar las probabilidades de
transición y emisión asignadas con mayor
probabilidad a las secuencias
19Modelos Ocultos de Markov
- Nucleótidos A,C,G,T (observables)
- Diferentes estados generan nucleótidos con
distintas frecuencias. - Un simple HMM para la identificación de genes
- AAAGC ATG CAT TTA ACG AGA GCA CAA GGG CTC TAA
TGCCG - La secuencias de estados es una anotación de la
secuencia generada - cada nucleótido es generado
por los estados intergenic, start/stop, coding
20Modelos Ocultos de Markov
- Modelo simple de un HMM que tiene en cuenta
intrones, exones y alguna señales - B gene start
- S translation start
- D donor
- A accceptor
- T translation stop
- E gene end
21HMMER (Sean Eddy)
22Probemos con
- http//bioweb.pasteur.fr/seqanal/motif/hmmer-uk.ht
ml
23Probemos con
- http//www.epd.isb-sib.ch/seq_download.html
24Probemos con
- http//www.ebi.ac.uk/clustalw/
25Probemos con
26Plan7
27Probemos con
- Veamos si una secuencia dada cumple con mi modelo
28Probemos con
29Redes Neuronales
- Las redes neuronales artificiales son
simulaciones de estructuras cognitivas de
procesamiento de información, basadas en modelos
de las funciones cerebrales
30Redes Neuronales
31Redes Neuronales
- Una NN tiene la capacidad de generalización, es
capaz de aprenderse las características de una
categoría general de patrones, basándose en una
serie de ejemplos específicos de la categoría. - Tolerantes a fallas.
- Las redes neuronales no se programan, más bien
aprenden o se entrenan en la tarea que ha de
computarse. - Ciertas redes aprenden por ensayo y error.
32Perceptrón simple
- Estructura
- Un Perceptron consta de dos niveles o capas.
- 1er. Nivel unidades de entrada, denominadas
unidades sensoriales - 2do. Nivel unidades de salida, denominadas
unidades de asociación, cuyas entradas son las
salidas de las unidades de entrada ponderadas por
unos pesos. - Las unidades transmiten la señal que aparece en
su entrada.
33Perceptrón simple
http//diwww.epfl.ch/mantra/tutorial/english/aneur
on/html/index.html
- La NN tiene dos entradas y una salida, todas
binarias. - La salida es
34Perceptrón simple
- Seteo los pesos a
- W1 -0.6
- W2 0.2
- U 0
- Pruebo con
- X1 0
- X2 0
35Perceptrón simple
- Seteo los pesos a
- W1 -0.1
- W2 0.2
- U 0
- Pruebo con
- X1 1
- X2 1
36Cálculo de error
- El error se calcula restando al valor esperado el
valor obtenido - C (learning rate)
- ti valor esperado
- xi valor obtenido
- ai valor de entrada
37Forward propagation
- Setear los pesos y el umbral a valores aleatorios
entre -1.0 y 1.0 (lo hace automaticamente) - Setear el patrón de entrada a las neuronas de la
capa de entrada - Activar cada neurona de la capa siguiente
multiplicando el peso de las conexiones que
llegan a esta neurona con la salida de los
valores de las neuronas precedentes - Sumar estos valores
- Pasar el resultado a la función de activación, la
cual calcula el valor de salida a esta neurona - Repetir este proceso hasta que se llegue a la
capa de salida - Comparar el patrón de salido con el patrón
esperado y calcular el valor de error - Cambiar los pesos y el umbral de acuerdo a este
error - Ir al paso 2
- El algoritmo termina cuando todos los patrones de
salida concuerdan con los patrones esperados
38Probemos con
- http//diwww.epfl.ch/mantra/tutorial/english/perce
ptron/html/index.html
39Probemos con
40Probemos con
41Probemos con
42Probemos con
43Probemos con
44Probemos con
45Perceptrón simple
46Probemos con XOR
47Probemos con XOR
48Redes Multicapa
49Redes Multicapa
http//neuron.eng.wayne.edu/bpFunctionApprox/bpFun
ctionApprox.html
50Probemos con
51Probemos con