Title: D
1Découverte des sites de liaison dans des
séquences ADN des eucaryotes pluricellulaires
- Etat de lart, évaluation des outils existants
Maximilian Haeusser Groupe Symbiose IRISA
Rennes Oct 2003
2Plan
- La situation biologique
- Principales approches en Bioinfo
- Découverte des motifs
- Enumération
- Gibbs Sampler
- Réduire le bruit
- La Pratique Evaluation des outils
- Extraction des séquences
- Comparaison
- Découverte
- Conclusion
3La situation biologique
"The difference between man and monkey isgene
regulation." (Leroy Hood, 2001)
4Les facteurs de transcriptions (FT) sattachent à
leurs fragments de lADN
http//www.psb.rug.ac.be/bioinformatics/psb/curren
t_projects_proana.htm
5Les FT forment des modules
- La distance et lordre peuvent etre important
- Il y a
- des FT, qui ne peuvent pas se lier seul. Il leur
faut un autre FT. - des FT qui empêchent dautres FT à se lier
- Des modules de plusieurs FT qui sont empechés
- par dautres modules de se lier
- Toute une logique permettant de ninitier la
transcription que sous certaines conditions - Les sites ont une structure spécifique
Tutorial Regulatory Sequences, T. Werner, ISMB
2000
6Les modules sont nombreux
Une impression du nombre et de la structure des
motifs pour quelques gènes de la drosophilie
7Le cas de bactéries est plus facile
- Les bactériens nont quune cellule, donc, moins
de conditions pour la régulation - Elles ont moins de place sur le génome pour les
éléments régulateurs, il est donc plus facile de
trouver les sites - Ils nont pas dintrons
- Presque tous les logiciels pour trouver les sites
de liaison sappliquent quaux bactéries
8Dautres circonstances sur la transcription
- Chromatine, la flexibilité, méthylation, etc.
- S/MARs, LCRs, etc
- gt Etre présent ne veut pas dire quon trouve
vraiment un effet
Felsenfeld et al, Nature 421, 448 - 453 (23
January 2003)
9Pas dexpériences haut-débit
- In vitro Essais gel shift / ADNase / ChiP
- Longue a mettre au point
- In vivo Mutations systématiques
- Beaucoup plus longue, difficile pour les
mammifères - Donc Trop de boulot, puisquil y a des milliers
des FTs
10Réduire le nombre des mutations nécessaires
- Il y a des gènes qui ont des sites de liaison en
commun - On cherche les fragments que plusieurs genes ont
en commun - Comment trouver des tels gènes?
- Expression (Mme Lagarrigue)
- Réseau génétique (Mme Theret)
- fonction ou tissu identiques (GO)
11 The twilight zone of pattern discovery
(Pevzner2002)
- Lévolution change lADN
- Des mutations qui empêchent le FT de se fixer a
lADN ne sont pas viables - Des mutations qui font le motif trop semblable
aux dautres motifs ne sont pas viables - Des mutations qui préservent juste la capacité
dattirer le FT et sont assez uniques dans le
génome restent - Les motifs sont bien cachés mais ils
- devraient rester trouvables
12Principales approches pour la découverte de
motifs
Petite etude bibliographique
13Découverte des motifs
- Plutôt informatique
- Enumerisation
- Arbre des suffix
- Plutôt statistiques
- Gibbs Sampler
- Expectation maximization
- Dictionary based
14Enumerisation -approche naïve-
- Le modèle du motif est une chaîne de lettres.
- On fait une liste de toutes les combinaisons des
letters ATCG dun certain longueur - On compte combien de fois ces fragments
apparaissent dans les séquences - On compte aussi les fragments qui sont similaire
- (p.ex. ACCCT est presque ACTCT , comme ça,
on augmente les compteurs des deux fragments) - Les meilleurs fragments sont retournés
- Petite amélioration Au lieu de 1., on prend
juste tous les fragments quon trouve dans les
séquences
15Arbre des suffixes
Un peu la même chose que lenumérisation mais
plus rapide et il prend moins de mémoire
16Les motifs consensus sont à eviter
- Dire que la boite TATA a un consensus de TATAAT
donne une mauvaise impression de la réalité - Seulement 14 de 291 sites correspondent à ce
modèle - Et si on compte les positions où il y a des
desappariements, on ne sait pas où ils se
trouvent
TATAAT ?
http//www.lecb.ncifcrf.gov/toms/
17Matrice pondérée
Le modèle du motif est une liste des probabilités
Chaque position donne pour chaque acide nucléide
une probabilité En plus, linformation content
mesure la répartition des probabilités Plus
une base est bruitée, plus il est bas gt Le logo
ameliore la recherche des motifs connus
18Gibbs Sampler
Piqué de Denis Thiery, ESIL Marseille
19Réduire le bruit
- Des bases conservées
- Les motifs sont mieux conservés que le reste de
la région non codante (pression sélective) - Un motif qui est mieux conservé quun autre est
plutôt un vrai motifs - gt Moins quun motif est bruité, plus son score
est haut - Des données dexpression
- Idée Forte expression
- ltgt Forte probabilité quun FT se lie a ce
fragment - ltgt motif bien conserve ou plusieurs motifs dans
la seq - (Et le contraire Faible expression ltgt motif
dégénéré) - gt Des motifs qui correspondent a ce modèle ont
un haut score
20Un essai concret
Les genes LXR, SREBF1, ABCA1 et FASN qui ont tous
au moins le motif LXRE en commun -gt Est-ce
quon va le trouver?
21Les problèmes
- Extraction en masse des régions promotrices dun
génome - (Trouver des régions conservées)
- Trouver des motifs communs
- 4. Trouver les combinaisons communes
http//www.stud.uni-potsdam.de/haussler/diplom/Pr
ocess.html
221 - Extraction de la region promotrices
Debut de translation
Initiation de transcription
La région en amont de la région codante nest
pas, pour les eucaryotes, la région promotrices.
Lexon 1 est souvent pas codant. Il y a de
longues introns (quelques milliers des bases)
Source Genomatix Tutorial http//www.genomatix.de
23Extraction des régions en amont dun gène
- Problème
- Pas de TSS annoté
- séquences RefSeq pas assez longues
- gt Sites dinitiation souvent incorrects (DBTSS
30) - gt la recherche pour la région en amont dun
gène prend beaucoup de temps et est diffcile à
trouver sans expériences pour quelques gènes
24Outils dextraction des promoteurs
- On aligne quelques séquences ARNm sur le génome
et prend la région devant. Le nombre des
séquences varie selon loutil - RSA-Tools 1999, PEG 2001, FIE 2002, Upstreamer
2002, Ensmart 2002, Promoser 2003 - On essaie de trouver la région promotrices en
exploitant sa composition - PromoterInspector 2001, McPromoter 2001, Dragon
Promoter Finger 2002, PromH 2003 (autour de 70
de sensitivité?)
25LAlignment des EST
TSS?
UCSC Browser BLAT result view, prediction TSS de
Promoser contre FIE, humain, gène SREBF1
26 Exemple Le vrai TSS pour LXR
Différence 1200 bp (Toucan utilise
lannotation dEnsembl, ou lxre est donc
introuvable)
NR1H3 humain Vu par DBTSS http//dbtss.hgc.jp
27Problème On trouve trop de sites
- Même si on connaît le motif, on trouve trop
dinstances 1300 - et si on filtre et prend seulement des motifs
qui apparaissent dans toutes les quatre
séquences 370
FASN, ABCA1, CYP7A1, SREBF1 de la souris en
Genomatix Matinspector
28Avec un modèle Markov (Toucan)
- Le modèle Markov est un modèle de bruit
- Tous les Gibbs Sampler actuels lont
- A quel prix?
- Klaus May Exercice statistique sans valeur, on
perd aussi les vrais, faibles motifs (en
général?), qui se fixent en modules - Gert Thijs et al Très utile, on trouve mieux
les motifs déjà décrits (exemple Les
procaryotes) - gt Les motifs déjà décrits, sont-ils aussi les
motifs les mieux conservés?
MotifScanner avec epd mouse 3rdorder et
Transfac public vertebrate
29Quelques Algos pour la découverte des motifs
MEME 1994
MACAW 1994
CoResearch 1996
RMES 1997
AlignACE 1998
Yebis 1998
CONSENSUS 1999
Et les resultats furent autour de 1998
Motifs Spellman et al 1998, Mol Biol Cell 9,
3273-3297, Réseaux Tavazoie et al. 1999, Nat
Genetics, 22281-285
3048 Algos pour la découverte des motifs
3148 49 Algos pour la découverte des motifs
32Comment choisir?
- Comparaisons nécessaires
- Pas dexemple commun
- Pas dexemple reconnu (comme lEPD pour la
prédiction des promoteurs) - On choisit un exemple qui donne le meilleure
résultat pour larticle - Un bon résultat dans larticle nen dit pas
beaucoup - Compétition de M. Tompa
- Données artificielles
- Pas encore prêtes
33MotifSampler
- Motifsampler
- Gibbs Sampler avec modèle Markov
- Repeatmasker
- Une belle interface
- Sans exemple négatif
- 15 fragments, dont 3 corrects, 1 non trouvé
- Le reste? 12 ? Décrit? Nouveau?
34MotifSampler sans Repeatmasker
MotifSampler devient plutôt un détecteur des
répétitions
En bleu, rempli les motifs trouvé par
MotifSampler En noir les vrais motifs
LXRE En jaune et bleu les régions répétées
Parameters MotifSampler- 50 runs, 2 executions,
filtrer les sites communs Repeatmasker rodent,
sensitive - LXRE dapres la litterature
35La structure 3D de lADN nest pas négligeable
Information Content
SREBF1c-Motif from Genomatix Matrix Database,
ACC VSREBP.03
Srebf1 from NCBI, viewed in Cn3D, ACC mmid7919
36Idée, daprès Moses et al
- On peut distinguer les vrais motifs des artéfacts
des algorithmes - On compare
- les changements des fragments de ce motifs quon
observe dans les mêmes régions des plusieurs
espèces assez proches avec - les changements des fragments de ce motif dans
les séquences analysées - Sils sont corrélés, il sagit plutôt dun vrai
motif - Cela nécessite quelques séquences dautres
- espèces proches
- gtDébut de la sequenciation des chimpanzees
en janvier 03, premières contigs pour les
macaques déjà sur NCBI
37Penser en modules
- A TF binding site becomes only biologically
relevant in its context (Klaus May, Genomatix) - Trouver un site de liaison ne dit rien, ce sont
les autres sites qui rendent le motif fonctionnel - Les combinaisons des motifs peuvent être plus
faibles, car ils ont plus de points de contact - Les motifs plus faibles sont plus importants
- Il va falloir se concentrer sur la composition
des modules, à la manière des protéines - Classification Clustering pour élucider les
combinaisons des sites de liaisons - Arbre de décision? (déjà fait, pas
dimplementation) - Réseau de bayes? Chaval? (à faire)
Classification avec linférence grammaticale? (à
faire)
38Il faut dabord des données propres
Sont ils vraiement corregulés directement? Comment
trouver un exemple dentrainement
A-t-on la vraie région 5 ????
Exist-il une séquence assez proche? Quel algo
pour les alignements?
Quest ce que une bonne base de motifs
et un bon algo pour la découverte?
A la fin Pas trop derreurs accumulés?
39Résume
- La découverte de motifs nécessite une gamme
dautres outils en bioinformatique - Il parait improbable que les motifs dans les
eucaryotes soient assez bien conservés quon
puisse utiliser la découverte de motifs seul pour
les élucider - Mais au moyen terme la comparaison entre espèces
va aider beaucoup et il va indiquer les vrais
motifs - Pour trouver les modules, on pourrait déjà
essayer dappliquer la classification, si on
avait des bons exemples (ou quelquun qui faisait
toutes ces expériences)
40(No Transcript)
41Annexe le chemin long dun FT
42On peut les grouper selon leur structure
Helix-turn-Helix
Homeobox
Zinc Finger
Alberts et al, Molecular Biology of the Cell, 3rd
Ed., Chapitre 9
43Gibbs sampler
- On prend un fragment dun longeur w par hasard.
On le prend comme matrice. - On la compare avec tous les fragments du longeur
w dans nos séquences - Sil y en a un qui lui ressemble assez, on le
prend comme fragment de ce motif et on met a jour
la matrice avec lui - Amélioration contesté Pour avoir une idee de
se ressembler on prend une chaine Markov pour
le bruit background.
44Pas toujours, mais il réduit le nombre des
possibilités
UCSC Browser, souris, gène Abca1, BLAT des deux
meilleurs prédictions de Promoser
45Celui qui cherche va trouver
- Séquences tout a fait random
- Mais MotifSampler trouve plein de motifs
- Avec un score plus bas que pour les vrais
séquences - Mais seulement pour les quatre meilleurs motifs!
46La structure 3D, II
Rate of evolution
IC in bits
Moses et al., BMC evol Biol 319, 28/08/2003
47Outils de comparaison
- ClustalW
- AVID
- Dalign
- Dynalign
- Idées?
- Pattern Explorer!