Title: Pr
1Lalgorithme de Kandel et al. pour la génération
de séquences génomiques aléatoires.
Licences (L3) parcours Bioinformatique et
Biostatistiques 2006-2007 Alain Denise et
Stéphane Vialette Université Paris-Sud 11
2Introduction motivations et généralités
3Structure de lADN
G C 5 T A A T C G C G C G A T T A C
G A T
3
4Analyse dun génome
5
3
ARNt ARNr Introns ...
- Faire linventaire du contenu génétique.
- Puis comprendre son organisation, les relations
entre structure et fonction de linformation, les
processus qui permettent son expression.
5CACCACAATTGCAAAACTCCCAAGCCCGTCCACAAAAGAAGGACGGATTC
TCACAGTTCATGCCATCTGCAACTACGAAGAACCCATATGCCCAGTAACT
CGACCGACTGGTTGTAATTTTACAAAAAGAGAGACAATTAAGAAAAGAA
ACAAGCGCCAGGCTTCCGTATCCCAGTTTTTCATCTCACTTTCTGGGCAC
G ATTGTAATAATACTTCATGATAATAACTAAACTATATAAGTAGTGTCT
CATCCGTAAATATACATTTAGACAGATTCTTGTATTTTCTCCGGGCAATT
TT TAACTTTTTTTCTGTTAGGGCACATGACACTTGCCTATTATGGACAG
CCAGTAAAGATGTGCCCATATATTGCCCCCTTTACGCTCTCTGCCAGTAT
TAG TGGGAAAAAAAAAACTGAAAAAAAAAAATCGCAGGACTACTAATAA
TCACGTGATATTTCTTTTCACTCTCTTCATAAAGTTGCTAAAAACACACA
ATCG AATGAGCCTCTGAGCAGTATAAATTGTACTTCAAAGCACTATGCA
TGAAAAACGCTTACATTAGTTCAGTTTGTCAAGGTTATGCTATTACTTGT
ACTTA TTTCTTGCTATTGTTAGTGGCTCCCCACATTGACGTATTTTCAC
GTGATGCGCCTCACTGCGGAAGGCGCCACACATTGCCTGCAAAAAATTGT
GGATGC ACTCATTTGATAGTAAACTAAGTCATGTTAATCGTTTGGATTT
GGCACACACCCACAAATATACACATTACATATATATATATATTCAAAATA
CAGCTGC GTCCAATAGATGAGCTTCCGCTTCGTTGTACAACCTACCTGC
TATCTTGTTCACGGATATTTCTTGCTTTTAATAAACAAAAGTAACTCTAG
AACAGTCA AGTCTTCGATAATTTTTTTAGTCACAGGGTCCGTCTAAAGT
TTCTCTTTATTTGGAATAATAGAAAAGAAAGAAAAAAACGTAGTATAAAA
GGAATGTCG CATACTTTAAAATCGAAAACGCTCCAAGAGCTGGACATTG
AGGAGATTAAGGAAACTAACCCATTGCTCAAACTAGTTCAAGGGCAGAGG
ATTGTTCAAG TTCCGGAACTAGTGCTTGAGTCTGGCGTGGTCATAAATA
ATTTCCCTATTGCTTATAAGACGTGGGGTACACTGAATGAAGCTGGTGAT
AATGTTCTGGT AATTTGTCATGCCTTGACTGGGTCCGCAGATGTTGCTG
ACTGGTGGGGCCCTCTTCTGGGTAACGACTTAGCATTCGACCCATCAAGG
TTTTTTATCATA TGTTTAAACTCTATGGGCTCTCCATATGGGTCTTTTT
CGCCATTAACGATAAATGAGGAGACGGGCGTTAGATATGGACCCGAATTC
CCATTATGTACTG TGCGCGATGACGTTAGAGCTCACAGAATTGTTCTGG
ATTCTCTGGGAGTAAAGTCAATAGCCTGTGTTATTGGTGGCTCTATGGGG
GGGATGCTGAGTTT GGAATGGGCTGCCATGTATGGTAAGGAATATGTGA
AGAATATGGTTGCTCTGGCGACATCAGCAAGACATTCTGCCTGGTGCATA
TCGTGGTCTGAGGCT CAAAGACAATCGATTTACTCAGATCCCAACTACT
TGGACGGGTACTATCCGGTAGAGGAGCAACCTGTGGCCGGACTATCGGCT
GCACGTATGTCTGCAT TGTTGACGTACAGGACAAGAAACAGTTTCGAGA
ACAAATTCTCCAGAAGATCTCCTTCAATAGCACAACAACAAAAAGCTCAA
AGGGAGGAGACACGCAA ACCATCTACTGTCAGCGAACACTCCCTACAAA
TCCACAATGATGGGTATAAAACAAAAGCCAGCACTGCCATCGCTGGCATT
TCTGGGCAAAAAGGTCAA AGCGTGGTGTCCACCGCATCTTCTTCGGATT
CATTGAATTCTTCAACATCGATGACTTCGGTAAGTTCTGTAACGGGTGAA
GTGAAGGACATAAAGCCTG CGCAGACGTATTTTTCTGCACAAAGTTACT
TGAGGTACCAGGGCACAAAGTTCATCAATAGGTTCGACGCCAATTGTTAC
ATTGCCATCACACGTAAACT GGATACGCACGATTTGGCAAGAGACAGAG
TAGATGACATCACTGAGGTCCTTTCTACCATCCAACAACCATCCCTGATC
ATCGGTATCCAATCTGATGGA CTGTTCACATATTCAGAACAAGAATTTT
TGGCTGAGCACATACCGAAGTCGCAATTAGAAAAAATTGAATCTCCCGAA
GCCACGATGCCTTCCTATTGGA GTTTAAGCTGATAAACAAACTGATAGT
ACAATTTTTAAAAACCAACTGCAAGGCCATTACCGATGCCGCTCCAAGAG
CTTGGGGAGGCGACGTTGGTAAC GATGAAACGAAGACGTCTGTCTTTGG
TGAGGCCGAAGAAGTTACCAACTGGTAGGGATAGATACCACACATACCTC
AGGCATAACATAGATAAACCAGTA CATGTATATCTATATCTATATTTAT
ATATAGACAAACAGCATTAATTAACTATAACAAAGTTTCTAGTAACACTA
ACGGTAGTTAATTTCTCTTTTTTGT CCTCGTTGTTGAAAAACGAAAGAA
GAATGAAAAAAAAAAAAACAAAAGAGTAATAGCTAGTGTTTTAGAGCTTT
TCCACATTCTGACCGCACTTGTAGAC AGCCACTCTTTGCATTGCCACTC
GACATTACATGAACGACTGTTCTTCTCCCTGTCGCCTTAGCTTACTTCTT
TGAAAAAAGCAAATCGCCCTTTTATGT AGGGACAAGTAACTTTTAGATC
...
6Phase dinventaire
- Alignements. Aligner sur la séquence
- des ARN messagers de lorganisme en question
- des séquences codantes dautres organismes.
- 2. Segmentation (approche ab initio )
modèles de Markov cachés,
7Modèle de Markov caché principes
Trouver la segmentation la plus probable dune
séquence
Pr(ATTGAC) 3/10 2/10 1/10 9/10 1/10
Pr(ATTGAC) 3/10 8/10 3/10 2/10 1/10
Raffinements fréquences doligonucléotides,
phases du codant, caractères syntaxiques (Start,
Stop, )
8Phase dinventaire problèmes
- Alignements.
- on ne détecte que des gènes déjà connus par
ailleurs, ou des ARN fortement exprimés. - problèmes dordre technique contamination par
des ARN pré-messagers - Imprécision des algorithmes dalignement.
- 2. Segmentation. Dans A. thaliana, moins dun
gène sur deux est correctement reconnu deux
gènes prédits sur trois sont faux. Reese et al.
2000
On prédit mal, et on ne prédit que ce que lon
connaît déjà.
9Paradigme comparaison biologie/aléatoire
Des différences observées entre séquences
biologiques et séquences aléatoires, on peut
déduire des faits biologiques. Exemple si un
motif apparaît avec des fréquences très
différentes dans une séquence réelle et dans une
séquence aléatoire, alors il a probablement une
fonctionnalité biologique.
10Paradigm biological vs. random sequences
Searching for overrepresented motifs
? Chi motif in E. coli.
11Extraction de promoteurs
Régions en amont de 10 gènes de S. cerevisiae.
J. van Helden
gtMET1 MET1 upstream sequence, from -702 to -1,
size 702 TTTTGACCCATCTCTTTCTAGAAATGCCATTATGCACGT
GACATTACAAATTGTGGTGAAAAAAGGTTCAAAAGA gtMET2 MET2
upstream sequence, from -800 to -1, size
800 GGGCACGATTGACTACTAATAATCACGTGATATCCCCACATT
GACGTATTTTCACGTGATGCGCAGCGCCACA gtMET3 MET3
upstream sequence, from -800 to -1, size
800 AAGAGTACAAAAAAAAGGTCACGTGACCAGAAAAGTCACGTGTA
ATTTTGTAACTCACCGCATTCTATAATTAAC gtMET6 MET6
upstream sequence, from -222 to -1, size
222 GGGAAGCTAGCTAGTTTTCCCAACTGCGAAAGAAAAAAAGGAAAGA
AAAAAAAATTCTATATAAGTGATTCAATATT gtMET14 MET14
upstream sequence, from -800 to -1, size
800 TATTTTTTTAAGACCGTGCCACTAATTTCACGTGATCAATATAT
TTACAAGCCACCTCAAAAAATGAATTATTTC gtZWF1 MET19
upstream sequence, from -558 to -1, size
558 GTAAGGTGTAGTTTTGCACCCGTGTACATAAGCGTGAAATCACCAC
AAACTGTGTGTATCAAGTACATTAAATAATA gtMET17 MET25
upstream sequence, from -800 to -1, size
800 TATACTAGAAGCAAATGGCACGTGAAGCTGTCGATATTGGGGAA
CTGTGGTGGTTGGCAAATGACTATCCATACA gtMET30 MET30
upstream sequence, from -800 to -1, size
800 CCATTGCTGCGTGTGTGGTACAATGTGTGTGTTTTAATGTAGAA
ATGAGGTTGTAGCACGTGATCGGAGAAGGGC gtMUP3 MUP3
upstream sequence, from -61 to -1, size
61 TCTGTTTGTAGTCTAAGTTGCTGAGGGCAACGTAGACGTACAGTGCT
CAAAATAAGTAAAA gtSAM1 SAM1 upstream sequence, from
-548 to -1, size 548 AATATATATTTCTATTACTAAGTACTCGG
ATGGGTACCGAAAGTGGCAGATGGGCAGTGTTTACTCAACCTACTAGT
La probabilité dune telle représentation de
CACGTG dans des séquences aléatoires serait
environ égale à 10-9
12Paradigm biological vs. random sequences
Assessing significance of alignment scores
13Z-value and p-value
14Choix du modèle de séquences aléatoires
Etonnant !
Moins étonnant !
15Modèles classiques de séquences aléatoires
Fitch 83
Séquence biologique
AACGACGTGCCGTGCGCTCGACGT
Occurrences
AACG 1
16Modèles classiques de séquences aléatoires
Fitch 83
Séquence biologique
AACGACGTGCCGTGCGCTCGACGT
Occurrences
AACG 1 ACGA 1
17Modèles classiques de séquences aléatoires
Fitch 83
Séquence biologique
AACGACGTGCCGTGCGCTCGACGT
Occurrences
AACG 1 ACGA 1 CGAC 1
18Modèles classiques de séquences aléatoires
Fitch 83
Séquence biologique
AACGACGTGCCGTGCGCTCGACGT
Occurrences
AACG 1 ACGA 1 CGAC 1 GACG 1
19Modèles classiques de séquences aléatoires
Fitch 83
Séquence biologique
AACGACGTGCCGTGCGCTCGACGT
Occurrences
AACG 1 CGTG 2 CGCT 1 ACGA 1 GTGC
2 GCTC 1 CGAC 2 TGCG 2 CTCG 1 GACG
2 GCGT 1 TCGA 1 ACGT 2 GCGC 1
20Modèle markovien
Séquences ayant en moyenne les mêmes nombres
doccurrences de nucléotides que la séquence de
référence.
Pr(GAAC) 1 Pr(TGCG) 1/2
Occurrences
AACG 1 CGTG 2 CGCT 1 ACGA 1 GTGC
2 GCTC 1 CGAC 2 TGCG 2 CTCG 1 GACG
2 GCGT 1 TCGA 1 ACGT 2 GCGC 1
21Modèle exact (shuffling)
Séquences ayant exactement les mêmes nombres
doccurrences de nucléotides que la séquence de
référence.
Occurrences
AACG 1 CGTG 2 CGCT 1 ACGA 1 GTGC
2 GCTC 1 CGAC 2 TGCG 2 CTCG 1 GACG
2 GCGT 1 TCGA 1 ACGT 2 GCGC 1
22Génération aléatoire de séquences génomiques
selon le modèle exact ( shuffling )
23Génération en fréquences exactes
Kandel, Matias, Unger, Winkler 96
Chemin eulérien dans le graphe suivant
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
AACG 1 CGTG 2 CGCT 1 ACGA 1 GTGC
2 GCTC 1 CGAC 2 TGCG 2 CTCG 1 GACG
2 GCGT 1 TCGA 1 ACGT 2 GCGC 1
24Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Aardenne-Ehrenfest, de Bruijn 51
25Génération en fréquences exactes
1
1
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
2
1
2
AACGACGTGCGCTCGACGTGCGT
Aardenne-Ehrenfest, de Bruijn 51
26Génération en fréquences exactes
2
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
1
1
1
2
AACGTGCGCTCGACGACGTGCGT
Aardenne-Ehrenfest, de Bruijn 51
27Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder Wilson
28Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder Wilson
29Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder Wilson
30Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder Wilson
31Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder 90 Wilson 97
32Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder 90 Wilson 97
33Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder 90 Wilson 97
34Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder 90 Wilson 97
35Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder 90 Wilson 97
36Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder 90 Wilson 97
37Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder 90 Wilson 97
38Génération en fréquences exactes
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder 90 Wilson 97
39Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder 90 Wilson 97
40(No Transcript)