Title: Rarrangements et phylognie
1Réarrangements et phylogénie
2I. Objectifs
- Reconstruire la phylogénie des espèces en se
basant sur les mutations globales. - Généraliser les distances de réarrangement Ã
létude des réarrangements survenus sur un
ensemble quelconque despèces. - Inférer les génomes ancestraux.
- Étudier la nature, la distribution, et la taille
des évènements de réarrangement sur les
différentes branches de larbre. - Différencier entre les réarrangement récents, et
les plus anciens (avant spéciation).
3II. Reconstruction phylogénétique
- Données
- Ensemble despèces
- Chaque espèce modélisée par un (ou plusieurs)
ordres (signés ou non) de gènes. - Résultat
- Arbre de phylogénie pour lensemble des
espèces -
4- Méthodes de distances Utiliser les distances de
réarrangements corrigées (Moret, Tang, Wang,
Warnow 2002) - Méthodes de parsimonie
- Considérer toutes les topologies darbres
possibles - Pour chaque topologie, trouver une assignation
des nuds internes (ordres ancestraux) permettant
de minimiser le poids total de larbre, i.e. la
somme des poids des arêtes (poids dune arête
distance entre les permutations qui étiquettent
les deux nuds adjacents) - Choisir la topologie et lassignation des nuds
ancestraux de poids minimal - La plupart de ses méthodes sont basées sur la
résolution de la médiane ? ? ? -
5III. Méthode générale basée sur la médiane
- Introduite par Sankoff et Blanchette,1998.
- Pour une topologie non enracinée darbre
- Commencer par un ordre initial raisonnable
des nuds internes - Assigner un nouvel ordre à chaque nud interne,
par un calcul de la médiane des trois génomes
adjacents au nud considéré - Continuer un nombre fixé de fois ou jusquÃ
convergence.
W
W
W
Y
Y
Y
Amélioration de X
Amélioration de Y
X
X
X
A
B
C
A
B
C
A
B
C
6I3
I3
I2
I2
I5
I5
I1
I1
I4
I4
I6
I6
A
B
C
D
E
F
G
H
Problème de la médiane Étant donnés n génomes
A1, An, trouver un génome S telque d(S,A1)
d(S,An) est minimal.
7IV. Problème de la médiane avec distance de
breakpoint
- Introduit par Blanchette et Sankoff ,1998.
- Complexité NP-difficile pour des permutations
signées ou non, circulaires (Peer et Shamir
1998) ou linéaires (Bryant 1998) - Meilleures heuristiques bornées 7/6 pour
permutations signées (Peer et Shamir 2000) et
5/3 pour permutations non signées (Caprara 2002) - Algorithme exact proposé par Blanchette et
Sankoff,1998 Réduction au problème du commis
voyageur. Étendu à des génomes contenant des
gènes différents (Sankoff et Bryant 2000).
8Algorithme de Blanchette et Sankoff 1998 (cas non
signé)
1
1
1
1
1
1
A 1 3 4 2 5 B 1 4 5 3 2 C 1 2 3
4 5
2
2
5
5
2
2
2
1
1
1
1
3
3
4
4
1
1
- Poids dune arête nb de génomes où les gènes ne
sont pas voisins. - Trouver un chemin de poids minimal passant par
chaque sommet une unique fois - Problème du commis voyageur (Traveling Salesman
Problem, ou TSP). Peut-être résolu en temps O(n2
2n). Mais plusieurs heuristiques efficaces
existent.
9- La convergence de lalgorithme dépend grandement
de linitialisation des nuds internes.
Blanchette et Sankoff proposent 3 initialisations
possibles, basées sur la résolution du TSP Ã
chaque nud. Moret et al. 2001 proposent 6 autres
procédures. - Lefficacité de lalgorithme dépend grandement de
la résolution de la médiane et du TSP. Blanchette
et Sankoff utilisent un algo exact de
branch-and-bound. Moret et al. 2001 utilisent des
heuristiques plus rapides. - GRAPPA développé par Moret et al. des millions de
fois plus rapide que le logiciel de Blanchette et
Sankoff (BPAnalysis). - Lun des plus grands ensembles de données analysé
par BPAnalysis 11 metazoan mtDNA contenant
35 marqueurs. - Lun des plus grand ensemble de données analysé
par GRAPPA 13 Campanulaceae cpDNA contenant
105 marqueurs.
10V. Problème de la médiane avec distance
dinversion
- Étudié uniquement dans le cas de permutations
signées. - Introduit par Sankoff et Kececioglu, 1996
- NP-difficile, même pour 3 génomes (Caprara 1999)
- Caprara 2001 combine les stratégies
branch-and-bound et divide-and-conquere sur une
généralisation du graphe des BP. - Moret et. al 2001 recherchent lespace des
réarrangements par une stratégie
branch-and-bound. Implémenté dans GRAPPA. - Bourque et Pevzner 2002 utilisent une stratégie
gready ? ? ?
11V.1 Multiple Genome Rearrangement (MGR) Problem,
par Bourque et Pevzner 2002
- Objectif Reconstruire une phylogénie des espèces
en se basant sur la distance dinversion. - Fonctionne bien pour des arbres additifs.,
i.e. pour lesquels les distances dinversion
reflètent les vraies distances, i.e. pas trop
dinversions se sont produites au cours de
lévolution.
12- Algorithme pour le calcul de la médiane
- Idée Effectuer les inversions qui
rapprochent du génome ancestral. - Soit G1, G2 G3 trois génomes. Une bonne inversion
r sur G1 est une inversion qui réduit la distance
dinversion de G1 Ã G2 ET de G1 Ã G3, i.e. - D(r) (d(G1, G2) d(G1, G3)) (d(G1. r , G2)
d(G1. r, G3)) 2
G1
M
G2
G3
13- Algorithme pour la médiane Effectuer des
inversions successivement sur G1, G2 et G3,
jusquà arriver à une seule et même permutation
M. - Les triplets qui peuvent être résolus en
neffectuant que des bonnes inversions sont
appelés  triplets parfaits - Afin daugmenter les chances de ne pas arriver Ã
une étape sans bonne inversions, la stratégie
suivante est utilisée - À chaque bonne étape, essayer toutes les
bonnes inversions, et effectuer celle qui donne
lieu au plus de bonnes inversions à létape
suivante. - Dans le cas où il ny a pas de bonne inversion,
effectuer une recherche de profondeur k dans
lespace de recherche de toutes les inversions
possibles. Prendre la meilleure suite
dinversions.
14VI. Explorer lespace des topologies darbres
- Différentes méthodes sont proposées pour ne pas
tester TOUTES les topologies darbre possible.
En particulier, Bourque et Pevzner 2002 utilisent
la stratégie suivante - Ordonner lensemble des espèces
- Calculer la médiane des 3 premières espèces et
constuire larbre correspondant - Pour chaque arête e de larbre connectant deux
nuds détiquette u et v (deux permutations) - Considérer la prochaine espèce w,
- Remplacer e par larbre étoile à 3 feuilles u, v,
w, - Calculer la médiane des 3 feuilles,
- Remplacer e par le sous arbre obtenu.