Rarrangements et phylognie - PowerPoint PPT Presentation

1 / 14
About This Presentation
Title:

Rarrangements et phylognie

Description:

tudier la nature, la distribution, et la taille des v nements de r arrangement sur les ... ar te = distance entre les permutations qui tiquettent les deux n uds adjacents) ... – PowerPoint PPT presentation

Number of Views:44
Avg rating:3.0/5.0
Slides: 15
Provided by: mab66
Category:

less

Transcript and Presenter's Notes

Title: Rarrangements et phylognie


1
Réarrangements et phylogénie
  • Nadia El-Mabrouk

2
I. Objectifs
  • Reconstruire la phylogénie des espèces en se
    basant sur les mutations globales.
  • Généraliser les distances de réarrangement à
    létude des réarrangements survenus sur un
    ensemble quelconque despèces.
  • Inférer les génomes ancestraux.
  • Étudier la nature, la distribution, et la taille
    des évènements de réarrangement sur les
    différentes branches de larbre.
  • Différencier entre les réarrangement récents, et
    les plus anciens (avant spéciation).

3
II. Reconstruction phylogénétique
  • Données
  • Ensemble despèces
  • Chaque espèce modélisée par un (ou plusieurs)
    ordres (signés ou non) de gènes.
  • Résultat
  • Arbre de phylogénie pour lensemble des
    espèces

4
  • Méthodes de distances Utiliser les distances de
    réarrangements corrigées (Moret, Tang, Wang,
    Warnow 2002)
  • Méthodes de parsimonie
  • Considérer toutes les topologies darbres
    possibles
  • Pour chaque topologie, trouver une assignation
    des nuds internes (ordres ancestraux) permettant
    de minimiser le poids total de larbre, i.e. la
    somme des poids des arêtes (poids dune arête
    distance entre les permutations qui étiquettent
    les deux nuds adjacents)
  • Choisir la topologie et lassignation des nuds
    ancestraux de poids minimal
  • La plupart de ses méthodes sont basées sur la
    résolution de la médiane ? ? ?

5
III. Méthode générale basée sur la médiane
  • Introduite par Sankoff et Blanchette,1998.
  • Pour une topologie non enracinée darbre
  • Commencer par un ordre initial raisonnable
    des nuds internes
  • Assigner un nouvel ordre à chaque nud interne,
    par un calcul de la médiane des trois génomes
    adjacents au nud considéré
  • Continuer un nombre fixé de fois ou jusquà
    convergence.

W
W
W
Y
Y
Y
Amélioration de X
Amélioration de Y
X
X
X
A
B
C
A
B
C
A
B
C
6
I3
I3
I2
I2
I5
I5
I1
I1
I4
I4
I6
I6
A
B
C
D
E
F
G
H
Problème de la médiane Étant donnés n génomes
A1, An, trouver un génome S telque d(S,A1)
d(S,An) est minimal.
7
IV. Problème de la médiane avec distance de
breakpoint
  • Introduit par Blanchette et Sankoff ,1998.
  • Complexité NP-difficile pour des permutations
    signées ou non, circulaires (Peer et Shamir
    1998) ou linéaires (Bryant 1998)
  • Meilleures heuristiques bornées 7/6 pour
    permutations signées (Peer et Shamir 2000) et
    5/3 pour permutations non signées (Caprara 2002)
  • Algorithme exact proposé par Blanchette et
    Sankoff,1998 Réduction au problème du commis
    voyageur. Étendu à des génomes contenant des
    gènes différents (Sankoff et Bryant 2000).

8
Algorithme de Blanchette et Sankoff 1998 (cas non
signé)
1
1
1
1
1
1
A 1 3 4 2 5 B 1 4 5 3 2 C 1 2 3
4 5
2
2
5
5
2
2
2
1
1
1
1
3
3
4
4
1
1
  • Poids dune arête nb de génomes où les gènes ne
    sont pas voisins.
  • Trouver un chemin de poids minimal passant par
    chaque sommet une unique fois
  • Problème du commis voyageur (Traveling Salesman
    Problem, ou TSP). Peut-être résolu en temps O(n2
    2n). Mais plusieurs heuristiques efficaces
    existent.

9
  • La convergence de lalgorithme dépend grandement
    de linitialisation des nuds internes.
    Blanchette et Sankoff proposent 3 initialisations
    possibles, basées sur la résolution du TSP à
    chaque nud. Moret et al. 2001 proposent 6 autres
    procédures.
  • Lefficacité de lalgorithme dépend grandement de
    la résolution de la médiane et du TSP. Blanchette
    et Sankoff utilisent un algo exact de
    branch-and-bound. Moret et al. 2001 utilisent des
    heuristiques plus rapides.
  • GRAPPA développé par Moret et al. des millions de
    fois plus rapide que le logiciel de Blanchette et
    Sankoff (BPAnalysis).
  • Lun des plus grands ensembles de données analysé
    par BPAnalysis 11 metazoan mtDNA contenant
    35 marqueurs.
  • Lun des plus grand ensemble de données analysé
    par GRAPPA 13 Campanulaceae cpDNA contenant
    105 marqueurs.

10
V. Problème de la médiane avec distance
dinversion
  • Étudié uniquement dans le cas de permutations
    signées.
  • Introduit par Sankoff et Kececioglu, 1996
  • NP-difficile, même pour 3 génomes (Caprara 1999)
  • Caprara 2001 combine les stratégies
    branch-and-bound et divide-and-conquere sur une
    généralisation du graphe des BP.
  • Moret et. al 2001 recherchent lespace des
    réarrangements par une stratégie
    branch-and-bound. Implémenté dans GRAPPA.
  • Bourque et Pevzner 2002 utilisent une stratégie
    gready ? ? ?

11
V.1 Multiple Genome Rearrangement (MGR) Problem,
par Bourque et Pevzner 2002
  • Objectif Reconstruire une phylogénie des espèces
    en se basant sur la distance dinversion.
  • Fonctionne bien pour des arbres additifs.,
    i.e. pour lesquels les distances dinversion
    reflètent les vraies distances, i.e. pas trop
    dinversions se sont produites au cours de
    lévolution.

12
  • Algorithme pour le calcul de la médiane
  • Idée Effectuer les inversions qui
    rapprochent du génome ancestral.
  • Soit G1, G2 G3 trois génomes. Une bonne inversion
    r sur G1 est une inversion qui réduit la distance
    dinversion de G1 à G2 ET de G1 à G3, i.e.
  • D(r) (d(G1, G2) d(G1, G3)) (d(G1. r , G2)
    d(G1. r, G3)) 2

G1
M
G2
G3
13
  • Algorithme pour la médiane Effectuer des
    inversions successivement sur G1, G2 et G3,
    jusquà arriver à une seule et même permutation
    M.
  • Les triplets qui peuvent être résolus en
    neffectuant que des bonnes inversions sont
    appelés  triplets parfaits 
  • Afin daugmenter les chances de ne pas arriver à
    une étape sans bonne inversions, la stratégie
    suivante est utilisée
  • À chaque bonne étape, essayer toutes les
    bonnes inversions, et effectuer celle qui donne
    lieu au plus de bonnes inversions à létape
    suivante.
  • Dans le cas où il ny a pas de bonne inversion,
    effectuer une recherche de profondeur k dans
    lespace de recherche de toutes les inversions
    possibles. Prendre la meilleure suite
    dinversions.

14
VI. Explorer lespace des topologies darbres
  • Différentes méthodes sont proposées pour ne pas
    tester TOUTES les topologies darbre possible.
    En particulier, Bourque et Pevzner 2002 utilisent
    la stratégie suivante
  • Ordonner lensemble des espèces
  • Calculer la médiane des 3 premières espèces et
    constuire larbre correspondant
  • Pour chaque arête e de larbre connectant deux
    nuds détiquette u et v (deux permutations)
  • Considérer la prochaine espèce w,
  • Remplacer e par larbre étoile à 3 feuilles u, v,
    w,
  • Calculer la médiane des 3 feuilles,
  • Remplacer e par le sous arbre obtenu.
Write a Comment
User Comments (0)
About PowerShow.com