Pr - PowerPoint PPT Presentation

About This Presentation
Title:

Pr

Description:

Puis comprendre son organisation, les relations entre structure et fonction de ... ordre des arcs adjacents. un m me sommet [Aardenne-Ehrenfest, de ... – PowerPoint PPT presentation

Number of Views:18
Avg rating:3.0/5.0
Slides: 41
Provided by: Den6126
Category:
Tags: adjacents

less

Transcript and Presenter's Notes

Title: Pr


1
Lalgorithme de Kandel et al. pour la génération
de séquences génomiques aléatoires.
Licences (L3) parcours Bioinformatique et
Biostatistiques 2006-2007 Alain Denise et
Stéphane Vialette Université Paris-Sud 11
2
Introduction motivations et généralités
3
Structure de lADN
G C 5 T A A T C G C G C G A T T A C
G A T
3
4
Analyse dun génome
5
3
ARNt ARNr Introns ...
  • Faire linventaire du contenu génétique.
  • Puis comprendre son organisation, les relations
    entre structure et fonction de linformation, les
    processus qui permettent son expression.

5
CACCACAATTGCAAAACTCCCAAGCCCGTCCACAAAAGAAGGACGGATTC
TCACAGTTCATGCCATCTGCAACTACGAAGAACCCATATGCCCAGTAACT
CGACCGACTGGTTGTAATTTTACAAAAAGAGAGACAATTAAGAAAAGAA
ACAAGCGCCAGGCTTCCGTATCCCAGTTTTTCATCTCACTTTCTGGGCAC
G ATTGTAATAATACTTCATGATAATAACTAAACTATATAAGTAGTGTCT
CATCCGTAAATATACATTTAGACAGATTCTTGTATTTTCTCCGGGCAATT
TT TAACTTTTTTTCTGTTAGGGCACATGACACTTGCCTATTATGGACAG
CCAGTAAAGATGTGCCCATATATTGCCCCCTTTACGCTCTCTGCCAGTAT
TAG TGGGAAAAAAAAAACTGAAAAAAAAAAATCGCAGGACTACTAATAA
TCACGTGATATTTCTTTTCACTCTCTTCATAAAGTTGCTAAAAACACACA
ATCG AATGAGCCTCTGAGCAGTATAAATTGTACTTCAAAGCACTATGCA
TGAAAAACGCTTACATTAGTTCAGTTTGTCAAGGTTATGCTATTACTTGT
ACTTA TTTCTTGCTATTGTTAGTGGCTCCCCACATTGACGTATTTTCAC
GTGATGCGCCTCACTGCGGAAGGCGCCACACATTGCCTGCAAAAAATTGT
GGATGC ACTCATTTGATAGTAAACTAAGTCATGTTAATCGTTTGGATTT
GGCACACACCCACAAATATACACATTACATATATATATATATTCAAAATA
CAGCTGC GTCCAATAGATGAGCTTCCGCTTCGTTGTACAACCTACCTGC
TATCTTGTTCACGGATATTTCTTGCTTTTAATAAACAAAAGTAACTCTAG
AACAGTCA AGTCTTCGATAATTTTTTTAGTCACAGGGTCCGTCTAAAGT
TTCTCTTTATTTGGAATAATAGAAAAGAAAGAAAAAAACGTAGTATAAAA
GGAATGTCG CATACTTTAAAATCGAAAACGCTCCAAGAGCTGGACATTG
AGGAGATTAAGGAAACTAACCCATTGCTCAAACTAGTTCAAGGGCAGAGG
ATTGTTCAAG TTCCGGAACTAGTGCTTGAGTCTGGCGTGGTCATAAATA
ATTTCCCTATTGCTTATAAGACGTGGGGTACACTGAATGAAGCTGGTGAT
AATGTTCTGGT AATTTGTCATGCCTTGACTGGGTCCGCAGATGTTGCTG
ACTGGTGGGGCCCTCTTCTGGGTAACGACTTAGCATTCGACCCATCAAGG
TTTTTTATCATA TGTTTAAACTCTATGGGCTCTCCATATGGGTCTTTTT
CGCCATTAACGATAAATGAGGAGACGGGCGTTAGATATGGACCCGAATTC
CCATTATGTACTG TGCGCGATGACGTTAGAGCTCACAGAATTGTTCTGG
ATTCTCTGGGAGTAAAGTCAATAGCCTGTGTTATTGGTGGCTCTATGGGG
GGGATGCTGAGTTT GGAATGGGCTGCCATGTATGGTAAGGAATATGTGA
AGAATATGGTTGCTCTGGCGACATCAGCAAGACATTCTGCCTGGTGCATA
TCGTGGTCTGAGGCT CAAAGACAATCGATTTACTCAGATCCCAACTACT
TGGACGGGTACTATCCGGTAGAGGAGCAACCTGTGGCCGGACTATCGGCT
GCACGTATGTCTGCAT TGTTGACGTACAGGACAAGAAACAGTTTCGAGA
ACAAATTCTCCAGAAGATCTCCTTCAATAGCACAACAACAAAAAGCTCAA
AGGGAGGAGACACGCAA ACCATCTACTGTCAGCGAACACTCCCTACAAA
TCCACAATGATGGGTATAAAACAAAAGCCAGCACTGCCATCGCTGGCATT
TCTGGGCAAAAAGGTCAA AGCGTGGTGTCCACCGCATCTTCTTCGGATT
CATTGAATTCTTCAACATCGATGACTTCGGTAAGTTCTGTAACGGGTGAA
GTGAAGGACATAAAGCCTG CGCAGACGTATTTTTCTGCACAAAGTTACT
TGAGGTACCAGGGCACAAAGTTCATCAATAGGTTCGACGCCAATTGTTAC
ATTGCCATCACACGTAAACT GGATACGCACGATTTGGCAAGAGACAGAG
TAGATGACATCACTGAGGTCCTTTCTACCATCCAACAACCATCCCTGATC
ATCGGTATCCAATCTGATGGA CTGTTCACATATTCAGAACAAGAATTTT
TGGCTGAGCACATACCGAAGTCGCAATTAGAAAAAATTGAATCTCCCGAA
GCCACGATGCCTTCCTATTGGA GTTTAAGCTGATAAACAAACTGATAGT
ACAATTTTTAAAAACCAACTGCAAGGCCATTACCGATGCCGCTCCAAGAG
CTTGGGGAGGCGACGTTGGTAAC GATGAAACGAAGACGTCTGTCTTTGG
TGAGGCCGAAGAAGTTACCAACTGGTAGGGATAGATACCACACATACCTC
AGGCATAACATAGATAAACCAGTA CATGTATATCTATATCTATATTTAT
ATATAGACAAACAGCATTAATTAACTATAACAAAGTTTCTAGTAACACTA
ACGGTAGTTAATTTCTCTTTTTTGT CCTCGTTGTTGAAAAACGAAAGAA
GAATGAAAAAAAAAAAAACAAAAGAGTAATAGCTAGTGTTTTAGAGCTTT
TCCACATTCTGACCGCACTTGTAGAC AGCCACTCTTTGCATTGCCACTC
GACATTACATGAACGACTGTTCTTCTCCCTGTCGCCTTAGCTTACTTCTT
TGAAAAAAGCAAATCGCCCTTTTATGT AGGGACAAGTAACTTTTAGATC
...
6
Phase dinventaire
  • Alignements. Aligner sur la séquence
  • des ARN messagers de lorganisme en question
  • des séquences codantes dautres organismes.
  • 2. Segmentation (approche  ab initio )
    modèles de Markov cachés,

7
Modèle de Markov caché principes
Trouver la segmentation la plus probable dune
séquence
Pr(ATTGAC) 3/10 2/10 1/10 9/10 1/10
Pr(ATTGAC) 3/10 8/10 3/10 2/10 1/10
Raffinements fréquences doligonucléotides,
phases du codant, caractères syntaxiques (Start,
Stop, )
8
Phase dinventaire problèmes
  • Alignements.
  • on ne détecte que des gènes déjà connus par
    ailleurs, ou des ARN fortement exprimés.
  • problèmes dordre technique contamination par
    des ARN pré-messagers
  • Imprécision des algorithmes dalignement.
  • 2. Segmentation. Dans A. thaliana, moins dun
    gène sur deux est correctement reconnu deux
    gènes prédits sur trois sont faux. Reese et al.
    2000

On prédit mal, et on ne prédit que ce que lon
connaît déjà.
9
Paradigme comparaison biologie/aléatoire
Des différences observées entre séquences
biologiques et séquences aléatoires, on peut
déduire des faits biologiques. Exemple si un
motif apparaît avec des fréquences très
différentes dans une séquence réelle et dans une
séquence aléatoire, alors il a probablement une
fonctionnalité biologique.
10
Paradigm biological vs. random sequences
Searching for overrepresented motifs
? Chi motif in E. coli.
11
Extraction de promoteurs
Régions en amont de 10 gènes de S. cerevisiae.
J. van Helden
gtMET1 MET1 upstream sequence, from -702 to -1,
size 702 TTTTGACCCATCTCTTTCTAGAAATGCCATTATGCACGT
GACATTACAAATTGTGGTGAAAAAAGGTTCAAAAGA gtMET2 MET2
upstream sequence, from -800 to -1, size
800 GGGCACGATTGACTACTAATAATCACGTGATATCCCCACATT
GACGTATTTTCACGTGATGCGCAGCGCCACA gtMET3 MET3
upstream sequence, from -800 to -1, size
800 AAGAGTACAAAAAAAAGGTCACGTGACCAGAAAAGTCACGTGTA
ATTTTGTAACTCACCGCATTCTATAATTAAC gtMET6 MET6
upstream sequence, from -222 to -1, size
222 GGGAAGCTAGCTAGTTTTCCCAACTGCGAAAGAAAAAAAGGAAAGA
AAAAAAAATTCTATATAAGTGATTCAATATT gtMET14 MET14
upstream sequence, from -800 to -1, size
800 TATTTTTTTAAGACCGTGCCACTAATTTCACGTGATCAATATAT
TTACAAGCCACCTCAAAAAATGAATTATTTC gtZWF1 MET19
upstream sequence, from -558 to -1, size
558 GTAAGGTGTAGTTTTGCACCCGTGTACATAAGCGTGAAATCACCAC
AAACTGTGTGTATCAAGTACATTAAATAATA gtMET17 MET25
upstream sequence, from -800 to -1, size
800 TATACTAGAAGCAAATGGCACGTGAAGCTGTCGATATTGGGGAA
CTGTGGTGGTTGGCAAATGACTATCCATACA gtMET30 MET30
upstream sequence, from -800 to -1, size
800 CCATTGCTGCGTGTGTGGTACAATGTGTGTGTTTTAATGTAGAA
ATGAGGTTGTAGCACGTGATCGGAGAAGGGC gtMUP3 MUP3
upstream sequence, from -61 to -1, size
61 TCTGTTTGTAGTCTAAGTTGCTGAGGGCAACGTAGACGTACAGTGCT
CAAAATAAGTAAAA gtSAM1 SAM1 upstream sequence, from
-548 to -1, size 548 AATATATATTTCTATTACTAAGTACTCGG
ATGGGTACCGAAAGTGGCAGATGGGCAGTGTTTACTCAACCTACTAGT

La probabilité dune telle représentation de
CACGTG dans des séquences aléatoires serait
environ égale à 10-9
12
Paradigm biological vs. random sequences
Assessing significance of alignment scores
13
Z-value and p-value
14
Choix du modèle de séquences aléatoires
Etonnant !
Moins étonnant !
15
Modèles classiques de séquences aléatoires
Fitch 83
Séquence biologique
AACGACGTGCCGTGCGCTCGACGT
Occurrences
AACG 1
16
Modèles classiques de séquences aléatoires
Fitch 83
Séquence biologique
AACGACGTGCCGTGCGCTCGACGT
Occurrences
AACG 1 ACGA 1
17
Modèles classiques de séquences aléatoires
Fitch 83
Séquence biologique
AACGACGTGCCGTGCGCTCGACGT
Occurrences
AACG 1 ACGA 1 CGAC 1
18
Modèles classiques de séquences aléatoires
Fitch 83
Séquence biologique
AACGACGTGCCGTGCGCTCGACGT
Occurrences
AACG 1 ACGA 1 CGAC 1 GACG 1
19
Modèles classiques de séquences aléatoires
Fitch 83
Séquence biologique
AACGACGTGCCGTGCGCTCGACGT
Occurrences
AACG 1 CGTG 2 CGCT 1 ACGA 1 GTGC
2 GCTC 1 CGAC 2 TGCG 2 CTCG 1 GACG
2 GCGT 1 TCGA 1 ACGT 2 GCGC 1
20
Modèle markovien
Séquences ayant en moyenne les mêmes nombres
doccurrences de nucléotides que la séquence de
référence.
Pr(GAAC) 1 Pr(TGCG) 1/2
Occurrences
AACG 1 CGTG 2 CGCT 1 ACGA 1 GTGC
2 GCTC 1 CGAC 2 TGCG 2 CTCG 1 GACG
2 GCGT 1 TCGA 1 ACGT 2 GCGC 1
21
Modèle exact (shuffling)
Séquences ayant exactement les mêmes nombres
doccurrences de nucléotides que la séquence de
référence.
Occurrences
AACG 1 CGTG 2 CGCT 1 ACGA 1 GTGC
2 GCTC 1 CGAC 2 TGCG 2 CTCG 1 GACG
2 GCGT 1 TCGA 1 ACGT 2 GCGC 1
22
Génération aléatoire de séquences génomiques
selon le modèle exact ( shuffling )
23
Génération en fréquences exactes
Kandel, Matias, Unger, Winkler 96
Chemin eulérien dans le graphe suivant
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
AACG 1 CGTG 2 CGCT 1 ACGA 1 GTGC
2 GCTC 1 CGAC 2 TGCG 2 CTCG 1 GACG
2 GCGT 1 TCGA 1 ACGT 2 GCGC 1
24
Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Aardenne-Ehrenfest, de Bruijn 51
25
Génération en fréquences exactes
1
1
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
2
1
2
AACGACGTGCGCTCGACGTGCGT
Aardenne-Ehrenfest, de Bruijn 51
26
Génération en fréquences exactes
2
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
1
1
1
2
AACGTGCGCTCGACGACGTGCGT
Aardenne-Ehrenfest, de Bruijn 51
27
Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder Wilson
28
Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder Wilson
29
Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder Wilson
30
Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder Wilson
31
Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder 90 Wilson 97
32
Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder 90 Wilson 97
33
Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder 90 Wilson 97
34
Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder 90 Wilson 97
35
Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder 90 Wilson 97
36
Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder 90 Wilson 97
37
Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder 90 Wilson 97
38
Génération en fréquences exactes

Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder 90 Wilson 97
39
Génération en fréquences exactes
AAC ACG CGA
TCG GTG CGT
GAC CTC TGC
GCG CGC
GCT
Engendrer un arbre couvrant aléatoire uniformément
Aldous, Broder 90 Wilson 97
40
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com