Title: Inferencia Bayesiana de Filogenias Moleculares
1Inferencia Bayesiana de Filogenias Moleculares
2Métodos de Verosimilitud
3Ziheng Yang Department of Biology University
College London
Joe Felsenstein Department of Genetics,
University of Washington
Bruce Rannala Department Medical Genetics
University of Alberta
John Huelsenbeck Section of Ecology, Behavoir and
Evolution, University of California, San Diego
Nick Goldman EBI. European Bioinformatics
Institute
4 TODOS los métodos en sistemática molecular por
necesidad, asumen un modelo de sustitución para
las secuencias, pues hacen supuestos generales
acerca del proceso evolutivo
5- Métodos basados en verosimilitud
- Tienen un modelo probabilistico explicito
- Tienen importantes bases y soporte estadístico
- Buscan parámetros para obtener la respuesta más
probable
6- Maxima Verosimilitud (ML)
- También podria ser llamada Máxima Probabilidad
- Históricamente es el método más novedoso (ahora
Bayesianos) - Ha sido un método adoptado de manera muy lenta
por la comunidad científica, lo cual tiene que
ver con la dificultad de entender la base teórica
y con la falta de software adecuado - También resultaba impráctico por los tiempos
computacionales al hacer los calculos para muchos
datos - Recientemente, el desarrollo de mejores
computadoras, mejor software, mejores modelos y
mayor dibulgación de la teoría hacen que ML se
convierta en el método de elección. - Popularizado principalmente por Joseph
Felsenstein (Seattle, Washington)
7- En general
- La verosimilitud es la probabilidad de los datos
dado un modelo. - En sistemática se puede decir que el árbol es
parte del modelo, entonces - La verosimilitud es la probabilidad de mis
secuencias alineadas dado el modelo de
sustitución postulado y el árbol
Probabilidad de
dados
8Es decir, verosimilitud es Pr ( D H )
9 es decir, se busca el modelo y las longitudes
de ramas que maximicen la verosimilitud
(probabilidad) de mis datos
Long. ramas
10Verosimilitud en sistemática moleculargt
Diferentes tasas de evolución en diferentes
linajesLos modelos toman en cuenta las
diferentes longitudes de las ramas del árbol. gt
Los modelos son EXPLICITOS y no estan
escondidos(falsabilidad) gt Puedes buscar el
modelo que ajuste mejor a tus datos.gt Es un
método eficiente y poderoso. Utiliza todos los
datos considerando todas las posibilidades de
cambio.
11Verosimilitud otras ventajas - Gran facilidad
para formular y probar hipótesis - Proveen de una
manera de falsear los supuestos - Permiten
estimar la confianza en las filogenias obtenidas
y proveen herramientas para probar las hipótesis
filogenéticas con solidas bases estadísticas -
son métodos consistentes
12ML permite la inferencia de árboles filogenéticos
usando modelos evolutivos complejos - incluyendo
la habilidad de estimar los parámetros del modelo
y hacer inferencias de manera simultánea acerca
de los patrones y procesos de evolución - y
permite comparar diferentes modelos.
13Modelos de sustitucion
La construcción de un modelo puede hacerse -
empiricamente propiedades calculadas a partir de
comparaciones de un gran número de datos. Los
parámetros son fijos y aplicables a todos los
análisis. - parametricamente propiedades
químicas o biológicas de las moléculas. Permiten
derivar los parámetros a partir de nuestros datos.
14Modelos de sustituciónMatrices de probabilidad
de cambioVector de frecuencias
15por qué usar modelos? Recordar que... Solo hay
cuatro caracteres ( A, T, G, C) Homopasia
(Paralelismo, Convergencia, Reversiones)
MULTIPLES SUSTITUCIONES !! A A T C A
G A A T C A G T
C Sustituciones C
T A C
C T A A C C A
T A A C C A G
16- La mayoría de modelos asumen propiedades de
modelos Markovianos - gt Se asume independencia de evolución en cada
sitio - Para cada sitio existe la probabilidad Pij(T) de
que la base i cambiará a j después del tiempo T - Dada una variable estocástica x(t) que describe
la evolución en tiempo t de un sitio en una
secuencia, el supuesto de Markov es que - Pij(T) Prx(sT)j ? x(s)i
- Considere tres diferentes tiempos t consecutivos
t1 lt t2 lt t3 . Se asume que el estado del
nucleotido en t3 depende solo de su estado en t2
y no de t1, si el estado de t2 es conocido. - Un proceso de Markov puede tener tres propiedades
importantes - Homogeneidad la matriz de cambio es
independiente del tiempo - Estacionaridad las frec. de nucleotidos
permanece constantes en t - Reversibilidad ?iPij (t) ?jPji (t)
17Heterogeneidad de tasas Uno de los más
importantes avances recientes en la
reconstrucción filogenética es el reconocimiento
de heterogeneidad de tasas entre sitios. gt
Modelos discretos ejem. Hasegawa, et al., 1985.
Una fracción de sitios cambia a una tasa mientras
que otros son invariantes. gt Modelos
continuos Basados en una distribución de tasas
continua. Lo más usado es utilizar la
distribución gamma Se asume que la tasa de
sustitución en cada sitio esta dada por una
distribución gamma con parámetro de forma ? Si ?
lt 1 gran cantidad de variación entre tasas.
Muchos sitios evolucionan lentamente y
otros rápidamente Si ? gt 1 menor variación.
La mayoría de sitios con tasas similares. El
rango de formas de distribución permite describir
bien la variación encontrada en secuencias de
DNA 0 lt ? lt ?
18Heterogeneidad de tasas
Distribucion gamma
19cambiar el modelo afecta el resultado? CLARO!!!
Hay varios diferentes tipos de modelos Jukes
and Cantor (JC69) La tasa de cambio de una base
a otra es igual en todos los casos. Todas las
bases tienen igual frecuencia (0.25). Kimura
2-Parameter (K2P) Todas las bases tienen igual
frecuencia (0.25 ), considera las diferencias en
las frecuencias de transiciones y
transversiones. Hasegawa-Kishino-Yano
(HKY) Igual al K2P, pero las frecuencias de las
bases varían. General Reversible en el Tiempo
(GTR) Las frecuencia de las bases varíam. Todos
los diferentes tipos de sustitución tienen
diferente probabilidad. etc Todos estos
modelos pueden extenderse acomodando los
parámetros adecuados para sitios invariantes y
tasa de variación sitio por sitio y distribución
gama.
20recordar que los modelos son descriptivos
21(No Transcript)
22Métodos Bayesianos de Inferencia Filogenética
23Maxima verosimilitud Busca el árbol que maximice
la probabilidad de observar los datos P(datos
árbolmodelo) Inferencia Bayesiana Busca el
árbol que maximice la probabilidad de observar el
árbol (y modelo) dados los datos. P(árbolmodelo
datos)
24(No Transcript)
25Se usa la regla de Bayes para obtener la
probabilidad Posterior a partir de la
verosimilitud y la dostribución (prob.)
anterior. De acuerdo a la definición de prob.
condicional Pr (A,B) Pr (A) Pr (B ?A) Pr
(B) Pr (A ?B) Dividiendo ambos lados por Pr
(A) Pr (B ?A) Pr (B) Pr (A ?B)
--------------------- Pr
(A) Donde B es la hipótesis y A los datos
26(No Transcript)
27(No Transcript)
28es decir la distribución posterior en la cual
se basa la inferencia bayesiana es directamente
proporcional al producto de la distribución
anterior y la verosimilitud
29(No Transcript)
30MCMC (Monte carlo Markov Chains) Una manera de
muestrear un espacio de soluciones e ir
seleccionando segun la prob. posterior 1.- Sea
una solución aleatoria N1 2.- Escogase otra
solución aleatoria N2 3.- Si la posterior
(N1ltN2), entonces reemplazar N1 por N2 4.-
Guardar dicha solución 5.- Repetir el paso 2
31MCMC (Monte Carlo Markov Chains)
32(No Transcript)
33bootstrap
prob. posterior
34Suponga que se corre una cadena de Markov... En
una muestra de 100 000 árboles Grupo X aparece
como monofilético en 74 695 árboles. La
probabilidad (ados los datos observados) de que
el grupo X es monofilético es aproximadamente
0.74695, ya que la cadena de Markov visitó
árboles de acuerdo a su probabilidad posterior.
35por que bayesianos y no verosimilitud? 1.-
Velocidad 2.- La verosimilitud representa la
probabilidad de los datos dada la hipótesis ??,
pero los Bayesianos dan la probabilidad de la
hipótesis dados los datos. Es decir, produce
probabilidades para las hipótesis de interés 3.-
Es posible obtener validas medidas de soporte en
menos tiempo, que son conceptualmente mas fáciles
de entender.