Title: Plan
1Plan
- Concepts de base
- Principes
- Distances
- Similitude et distances
- Distances évaluées et observées
- Modèles
- Tests
- Procédures
- UPGMA
- NJ
2Lévolution est-elle parcimonieuse?
Lg moyenne avec les autres données
Lg des arbres avec la b-globine
3Arbres obtenus pour ? et ? globines
4Taxonomie numérique
- Relations de distance et non généalogiques
- Tous les caractères ont le même poids
- Différence mesurée entre paires de taxa, cest
une mesure globale
- Le phénogramme résume les relations taxinomiques
- La distance reflète le sens et la vitesse de
lévolution
- Des hypothèses supplémentaires permettent des
inférences phylogénétiques
5Distance et similitude
6Distances métriques et ultramétriques
Distances métriques 1(Propriété de linégalité
triangulaire )
Distances ultramétriques (donc les 2 plus grandes
distances sont égales 2)
Distances additives
7Correction de distances le problème(0)
On observe le même état de caractère sur deux
taxons actuels.Cela peut résulter de différents
événements.
etc.
etc.
8Correction de distances (1)
Avec K nb de sites observés
- 2 éléments influent sur létat actuel observé
- État A ou B de lancêtre commun A Pbf, B
pb1-f - Probabilité p de changement visible entre
lancêtre et lactuel
f(1-?)2(1-f) ?2
(1-f) ?2
f(1-?)2
A et A
(1-f)(1-?)2(f) ?2
(1-f)(1-?)2
(f) ?2
B et B
(1-?) ?
(1-f)(1-?) ?
f(1-?) ?
A et B
(1-?) ?
f(1-?) ?
(1-f)(1-?) ?
B et A
9Correction de distance (2)Hypothèses
10Correction de distance (3)
Quand verra-t-on une différence entre lancêtre
et le taxon actuel (évaluation de p)? Si le
nombre réel de changements est impair r
1,3,5,7,?
11Correction de distance (4)
Quand verra-t-on une différence entre les deux
taxa actuels?
Comment exprimer la distance réelle (ou une
estimation)?
Comment à partir de la distance observée déduire
la distance réelle estimée?
12Séquences nucléotidiques
A??G ???? ???? C ?? T
Il y a 12 possibilités de changements ??
transition ?? transversion 4 transitions
possibles et 8 transversions possibles.
13Correction de distance (5)
Dans le calcul précédent on na tenu compte que
de deux états de caractère.
Pour lADN il y en a 4 ce qui complique le calcul.
Avec ACGT et tous les changements
équiprobables (JC), la correction devient
Avec ACGT et les transitions équiprobables,
les transversions également, mais la fréquence
transition différente de transversion (K2p), la
correction devient
14Correction de distance les modèles
15Tests statistiques des modèles (1)Test de
linvariant unique
Sous le modèle de JC les paires AG et TC
(transitionsP) sont 2 fois moins observables que
les autres (transversionsQ). On attend donc
2P-Q0. On va donc estimer lécart de JC à sa
valeur théorique 0 avec
Et on compare
- représente le degré de signification souhaité et
- z la valeur seuil au-delà de laquelle la courbe
de la probabilité a la surface ?/2.
16Tests statistiques des modèles (2) Test de
stationnarité
- Dans les modèles
- Tamura,
- Tajima,
- HKY85
- à 8 paramètres,
- à léquilibre la probabilité g du nucléotide x
dans la séquence 1,2, ou m est la même . Cest
ce que lon va tester.
17Tests statistiques des modèles (3) Test des
invariants multiples
Si la condition de stationnarité est satisfaite,
quel est le modèle le plus simple qui rende
compte des données? Il y a 10 couples de
changements possibles (les changements
réciproques étant de même probabilité) AA, AT,
AC, AG, TT, TC, TG, CC, CG, GG avec
Pour chaque modèle il est possible pour Xi
décrire une équation de la forme
ou s indique le sème nucléotide, a et b les
paramètres de chaque modèle
Le modèle de Kimura revient alors à
et tous les autres a et b sont nuls soit
18UPGMA 1
Tetrahymena Ginkgo Epinard Sureau Poireau Mouche Bonite Lapin Rat Cheval
Tetrahymena 0
Ginkgo 68 0
Epinard 72 19 0
Sureau 66 15 17 0
Poireau 61 15 12 9 0
Mouche 69 44 46 50 42 0
Bonite 68 45 48 51 42 23 0
Lapin 68 40 45 48 40 21 17 0
Rat 69 39 44 47 39 20 16 2 0
Cheval 68 43 48 50 42 22 18 6 6 0
1
1
19UPGMA 2
LR
0
16,5
20,5
39,5
47,5
44,5
39,5
68,5
LR
6
Lapin 68 40 45 48 40 21 17
Rat 69 39 44 47 39 20 16
2
3
20UPGMA 3
Tetrahymena Ginkgo Epinard Sureau Poireau Mouche Bonite LRC
Tetrahymena 0
Ginkgo 68 0
Epinard 72 19 0
Sureau 66 15 17 0
Poireau 61 15 12 9 0
Mouche 69 44 46 50 42 0
Bonite 68 45 48 51 42 23 0
LRC 68,33 40,67 45,67 48,33 40,33 21 17 0
21UPGMA 4
Tetrahymena Ginkgo Epinard SP Mouche Bonite LRC
Tetrahymena 0
Ginkgo 68 0
Epinard 72 19 0
SP 68 15 14,5 0
Mouche 69 44 46 50 42 0
Bonite 68 45 48 51 42 23
LRC 68,33 40,67 45,67 44,33 21 17 0
2,75
7,25
22UPGMA 5
Tetrahymena Ginkgo SPE Mouche Bonite LRC
Tetrahymena 0
Ginkgo 68 0
SPE 69,33 16,33 0
Mouche 69 44 46 42 0
Bonite 68 45 47 42 23
LRC 68,33 40,67 44,78 21 17 0
0,915
8,165
23UPGMA 6
Tetrahymena SPEG Mouche Bonite LRC
Tetrahymena 0
SPEG 69 0
Mouche 69 45,5 0
Bonite 68 46,5 42 0
LRC 68,33 43,75 21 17 0
5,5
8,5
24UPGMA 7
Tetrahymena SPEG Mouche RLCB
Tetrahymena 0
SPEG 69 0
Mouche 61 45,5 0
RLCB 68,5 44,43 21,5 0
2,25
10,75
25UPGMA 8
Tetrahymena SPEG RLCBM
Tetrahymena 0
SPEG 69 0
RLCBM 67 44,64 0
11,57
14,155
26UPGMA 9
Tetrahymena SPEGRLCBM
Tetrahymena 0
SPEGRLCBM 67,89 0
12,02
33,94
27Unweighted Pair-Group Method of Arithmetic average
Dbd 3 On répartit cette distance également sur
les 2 branches
28Neibor-joining (1)
D représente une distance observée B représente
une distance estimée
La longueur de larbre correspondant sexprime
(1)
29NJ (2)
et il y a n-2 distances de ce type donc
De la même manière pour les distances de j à tous
les autres différents de i
soit pour toutes les distances entre les n-2 otus
de létoile
30NJ (3)
31NJ (4)
En substituant dans 1 les valeurs données par 2
et 7
32NJ (5)
Daprès léquation (5)
Puis en utilisant la valeur de ?Byk exprimée
dans 7 et en remplaçant ensuite ?Dkl par sa
valeur donnée en 8
33Neighbor-Joining (6)
34Méthodes agglomératives
NJ
UPGMA
- Distances métriques et additives
- Voir la formule
- Arbre non raciné
- Distances ultramétriques
- Vitesse constante sur toutes les branches
- Arbre raciné
35Arbres à 7 taxons obtenus avec NJ ou UPGMA
36Plantes terrestres
Chlorophycées
Bryophytes
Ptéridophytes
Gymnospermes
Dicotylédones 1
Spermatophytes
Monocotylédones
Dicotylédones 2
37FIN (distances)
38Comparaison des deux méthodes de calcul darbre
Méthodes de distance Méthodes de parcimonie
Calcul dune distance globale Un seul arbre retourné par le programme Pas de test de robustesse de larbre unique (excepté le bootstrap) Pas de retour aux caractères pour pouvoir les reconsidérer Rapide, même avec un grand nombre de taxa Examen des caractères les uns après les autres La méthode peut retourner plusieurs arbres également parcimonieux Il y a un test de robustesse des noeuds (mesure de lhomoplasie dans larbre par le calcul du rapport de la longueur minimale de larbre à sa longueur réelle. Retour aux caractères pour éventuellement réévaluer ceux qui donnent des aberrations Vitesse moyenne. Sur de grosses machines on peut en plusieurs jours traiter des données jusqu'à 500 taxa