Title: Diapositive 1
1SEQUENCAGE DES GENOMES EUCARYOTES (et
procaryotes)
2Séquençage dADN 2 méthodes publiées in 1977
méthode chimique Maxam, A.M. and Gilbert, W.
(1977) A new method for sequencing DNA. Proc.
Natl. Acad. Sci. USA, 74, 560-564. méthode
biochimique Sanger, F., Micklen, S., and
Coulson, A.R. (1977) DNA sequencing and chain
terminating inhibitors. Proc. Natl. Acad. Sci.
USA, 74, 5463-5467.
3Séquençage de Maxam-Gilbert Clivage chimique
dADN marqué à son extrémité 1. Marquage
radioactif des extrémités (5' or 3') , 2.
Dénaturation de lADN 3. Quatre réactions
chimiques spécifiques, représentant 4
combinaisons possibles G seulement DMS,
piperidine A G DMS, acide formique,
piperidine CT Hydrazine, piperidine C
seulement Hydrazine dans 1.5M NaCl, piperidine
4Séquençage de Maxam-Gilbert le premier composé
chimique casse la liaison glycosidique entre le
ribose et la base, déplaçant la base. le
traitement piperidine catalyse la coupure de la
liaison phosphodiester doù la base a été
déplacée. les produits de réactions sont
soumis à une électrophorèse sur un gel de
polyacrylamide en condition dénaturante. Les
fragments les plus petits se déplacent le plus
facilement. La séquence est lue du bas du gel
(5) vers le haut du gel (3).
5(No Transcript)
6(No Transcript)
7Séquençage de Maxam-Gilbert le principal
avantage de cette technique est quelle nest pas
dépendante des problèmes de synthèse dADN par
une polymérase (terminaison précoce due à la
séquence ou à la structure de lADN). le
principal inconvénient est la toxicité des
composés chimiques utilisés.
8(No Transcript)
9Technique de séquençage de SANGER
1- hybridation du primer de séquençage sur la
matrice simple brin à séquencer. 2-
préparation des 4 mélanges réactionnels en
parallèle. Chaque mélange contient chacun des 4
dNTP (un est marqué en a avec du 32P, du 35S ou
du 33P) et un des 4 ddNTP. 3- la réaction
démarre lorsque la DNA polymérase est ajoutée au
mélange (Klenow, T7, Taq)
10Technique de séquençage de SANGER
4- la synthèse du brin dADN cesse par
lincorporation dun ddNTP et la réaction est
arrêtée par laddition du tampon de charge du
gel de séquençage contenant de la formamide. 5-
chauffage des échantillons pour défaire les
structures de lADN avant de charger sur le gel
dénaturant de polyacrylamide/urée
pré-chauffé. 6- les petits fragments migrent
plus loin. Lextremité 5 est en bas du gel et
lextrémité 3 en haut. 7- la séquence lue est
la séquence complémentaire de la matrice.
11Technique de séquençage de SANGER
12Technique de séquençage de SANGER
La séquence de la matrice est la séquence
complémentaire de la séquence lue sur le gel.
13(No Transcript)
14Séquençage dADN automatisé
- Version améliorée de la méthode de Sanger
- marquage radioactif ? marquage fluorescent des
ddNTP - film autoradiographique ? détection par faisceau
laser - en cours délectrophorèse
- polymérase de Klenow ? Taq polymérase
- quantité de matrice ? quantité plus faible que
pour la méthode - de Sanger classique car thermocyclage
15Séquençage dADN automatisé
- procédure de séquençage basique en cycle
- - hybridation du primer sur la matrice sous
forme simple brin - - extension du primer lors dune réaction
limitante en - ddNTP fluorescent et en excès de dNTP (rapport
1/100). - - dénaturation et redémarrage dun nouveu cycle
- détection par émission de fluorescence après
stimulation du colorant - fluorescent couleur et position sont
enregistrée dans un fichier séquence. - format de sortie du fichier chromatogramme ou
fichier de séquence
16(No Transcript)
17(No Transcript)
18Le séquençage des génomes
Les choix stratégiques
Approches utilisées pour le séquençage à grande
échelle
Organismes séquencés
Identification des gènes
Génomes procaryotes
Structure chromosomique
Organisation des gènes
Séquences non codantes
Retombées médicales et commerciales
Génomes des modèles eucaryotes
Structure des chromosomes
Identification des gènes
Fonctions des gènes reconnus ou prédits
Régions non codantes
Génome humain
Les chromosomes humains
Identification des gènes
Séquences répétées
19Le séquençage des génomes
Les choix stratégiques
Approches utilisées pour le séquençage à grande
échelle
Organismes séquencés
Identification des gènes
Génomes procaryotes
Structure chromosomique
Organisation des gènes
Séquences non codantes
Retombées médicales et commerciales
Génomes des modèles eucaryotes
Structure des chromosomes
Identification des gènes
Fonctions des gènes reconnus ou prédits
Régions non codantes
Génome humain
Les chromosomes humains
Identification des gènes
Séquences répétées
20Les choix stratégiques
Approches utilisées pour le séquençage à grande
échelle
Deux approches Multitude de laboratoires
46 laboratoires pour B subtilis en 1997 34
laboratoires pour Xylella fastidiosa en 2000 35
laboratoires pour la levure en 1991 Genome
Centers Grande échelle de production Séquenc
eurs automatiques
Organismes séquencés
- Recherche fondamentale E coli, B subtilis, S.
pombe, A thaliana, drosophile, nématode,
Neurospora crassa - Utilisation industrielle Agrobacterium
tumefaciens, Lactococcus lactis, Archébactéries
(haute température, métabolismes particuliers) - Intérêt médical procaryotes pathogènes
21(No Transcript)
22(No Transcript)
23Stratégies de séquençage des génomes complets
méthode dite bac-to-bac ou map-based
méthode dite de shotgun
Lapproche bac-to-bac passe par la création
dune carte physique brute de lensemble du
génome avant le séquençage. La construction de
la carte nécessite de couper les chromosomes en
grands fragments et de déterminer la
position relative de ces fragments avant de
les séquencer.
La méthode de shotgun passe directement par
létape de séquençage Sans création dune carte
physique (évidement ça paraît plus facile).
24Stratégies de séquençage des génomes complets
Les étapes
BAC to BAC
SHOTGUN
1- plusieurs copies du génome sont cassées au
hasard en fragments de 2 kpb en faisant passer
lAND sous pression dans laiguille dune
seringue. Cette étape est renouvelée de façon
à générer des fragments de 10 kpb.
2- chacun des fragments est inséré dans un BAC
constituant ainsi la banque BAC.
2- chaque fragment de 2 ou 10 kpb est inséré dans
un plasmide.
253- chaque fragment est marqué dune empreinte qui
va donné à chaque BAC une identification Unique
qui va permettre de déterminer lordre des
fragments les uns par rapport aux
autres. Lempreinte est obtenue en coupant chaque
fragment du BAC par un enzyme et en
séquençant lextrémité du BAC afin de
positionner les BAC le long des chromosomes.
3- chaque banque de plasmides de 2 ou 10 kpb est
séquencée. 500 pb de lextrémité de chaque
fragment sont décodées. Le séquençage de
chacune des extrémités est déterminant
pour lassemblage de lensemble des chromosomes.
4- des algorithmes assemblent les millions de
fragments séquencés en un ensemble continu
correspondant à chaque chromosome.
4- Chaque BAC est cassé au hasard en fragments
denviron 1, 5 kpb clonés dans des phagemides.
265- chaque banque de phage est séquencée. 500 pb
de lextrémité de chaque fragment sont séquencées.
6- ces séquences alimentent un programme informati
que appelé PHRAP qui identifie les séquences
communes qui joignent 2 fragments adjacents.
27Séquençage du génome du riz
28(No Transcript)
29Les choix stratégiques
Identification des gènes
- Identification facile chez les Procaryotes
- promoteurs, séquences codantes, signaux de
terminaison - Pas ou peu de séquences intergéniques
- Identification difficile chez les Eucaryotes
- Découpage des gènes en introns et exons
- Régions intergéniques parfois très vastes
Levure 5 des gènes sont morcelés et régions
non-codantes peu abondantes
Nématode, Drosophile, Arabette régions codantes
majoritairement fragmentées et régions
non-codantes très étendues
- Comparaison des séquences génomiques et des
séquences dADNc (EST ou séquence complète
dARNm)?alignement séquence transcrite - Outils informatiques de prédiction recherche de
phase ouverte de lecture, signaux dépissage,
composition en bases - Utilisation des données dun autre organisme. Ex
EST de Caenorhabditis briggsae pour
Caenorhabditis elegans
30Le séquençage des génomes
Les choix stratégiques
Approches utilisées pour le séquençage à grande
échelle
Organismes séquencés
Identification des gènes
Génomes procaryotes
Structure chromosomique
Organisation des gènes
Séquences non codantes
Retombées médicales et commerciales
Génomes des modèles eucaryotes
Structure des chromosomes
Identification des gènes
Fonctions des gènes reconnus ou prédits
Régions non codantes
Génome humain
Les chromosomes humains
Identification des gènes
Séquences répétées
31Génomes procaryotes
Structure chromosomique
Abondance en guanine et cytosine Un faible taux
de GC indique souvent un mode de vie parasitique
ou synbiotique La réplication du chromosome se
fait dans deux directions opposées divergeant à
partir de lorigine de réplication. Chacune de
ces deux moitiés est appelée réplichore Le
séquençage révèle parfois des plasmides, des
plasmides linéaires ou des mégaplasmides
32Génomes procaryotes
Organisation des gènes
- La fraction codante est élevée (environ 90)
- La taille moyenne des gènes est de 1 kb
- Le nombre de gènes est très variable (500 à 8000)
- Les unités transcriptomiques sont fréquemment
organisées en opérons - Les gènes codant pour les ARNr sont le plus
souvent agencés en 16S-23S-5S avec des gènes
dARNt entre les gènes - Le nombre de pseudogènes (gènes mutés
non-transcrits ou non-traduits) est faible. - Exception Mycobacterium leprae avec 24 de
régions non codantes et 27 de gènes.
33Génomes procaryotes
Séquences non codantes
- Régions intergéniques (séquences régulatrices,
parfois des séquences répétées et quelques rares
introns) - Chez E coli taille moyenne des régions
intergéniques 118 pb - Les séquences répétées en tandem comprennent un
motif de 1 à 6 nt répété de 2 à quelque dizaine
de fois - Les séquences dédiées à la transformation comme
les USS (Uptake Signal Sequence) de H influenzae
(1465 USS par génome)
34Génomes procaryotes
Retombées médicales et commerciales
- De nombreuses retombées médicales sont espérées
- La syphilis touche 50 106 de personnes
- La lèpre touche 15 106 de personnes
- Chaque minute la tuberculose atteint 10 personnes
- La comparaison de génomes despèces proches mais
causant des maladies très différentes comme
Mycobacterium leprae , Mycobacterium tuberculosis
, Neisseria meningitidis , devrait permettre
didentifier les gènes responsables de tel ou tel
autre effet pathogène - Diagnostic ou pronostic de développement
dinfection (ex recherche de la séquence répétée
Ng-rep utilisée pour détecter une contamination
par Neisseria meningitidis ) - Des protéines de bactéries extrêmophiles sont
commercialisées (ex la Taq de Thermus aquaticus)
35Le séquençage des génomes
Les choix stratégiques
Approches utilisées pour le séquençage à grande
échelle
Organismes séquencés
Identification des gènes
Génomes procaryotes
Structure chromosomique
Organisation des gènes
Séquences non codantes
Retombées médicales et commerciales
Génomes des modèles eucaryotes
Structure des chromosomes
Identification des gènes
Fonctions des gènes reconnus ou prédits
Régions non codantes
Génome humain
Les chromosomes humains
Identification des gènes
Séquences répétées
36Génomes des modèles eucaryotes
Structure des chromosomes
- Chez la levure , les régions riches en GC
correspondent aux régions riches en gènes. Les
brins complémentaires codent pour un nombre
similaire de gènes sauf pour le chromosome II et
pour la région centrale du chromosome VI - Chez C elegans le génome est remarquablement
uniforme en teneur GC le long des chromosomes.
La densité des gènes est plus élevées dans les
régions centrales que dans les bras
chromosomiques. La densité des gènes est faible
sur le chromosome X. - Chez la drosophile, 180 Mb avec 60 Mb
dhétérochromatine (séquence répétée, éléments
transposables, deux blocs de gènes ribosomiques).
Leuchromatine couvre 120 Mb qui contient la
majorité des gènes. - Chez la souris 20 paires de chromosomes (19
autosomes et une paire de chromosomes sexuels)
tous acrocentriques. - Chez A thaliana, 5 chromosomes tous autosomiques
(2 acrocentriques, 2 submétacentriques et 1
métacentrique.
L'hétérochromatine ne change pas d'état de
condensation au cours du cycle cellulaire si le
bras court est presque aussi long que le bras
long, le chromosome est dit métacentrique s'il
est plus court, il est dit sub-métacentrique.
Enfin, si ce bras p est très petit, le chromosome
est dit acrocentrique
37Génomes des modèles eucaryotes
Identification des gènes
38Génomes des modèles eucaryotes
Fonctions des gènes reconnus ou prédits
- Prédiction de fonction le nombre de gènes
potentiellement impliqués dans une fonction
biologique donnée sest soudainement accru avec
le séquençage systématique (selon lespèce 40 à
60 des gènes ne sont toujours pas reliés à des
gènes de fonction connue) - Chez la levure identification dun nouveau gène
codant pour lhistone H1. - Chez le nématode identification de protéines
SXC impliquées dans des interactions avec la
matrice extracellulaire. - Chez lArabette identification dun gène codant
pour la lyase hydroxynitrile qui produit de
lacide cyanhydrique (répulsif dherbivores) - Les gènes codant pour les cyclines de la levure
sont différents de ceux très similaires de la
drosophile, du nématode, des vertébrés
39Génomes des modèles eucaryotes
Régions non codantes
Plus faible que chez lhomme
Séquences répétées en tandem les
microsatellites répétitions de motifs de 1 à 13
nt, polymorphes et distribués le long des
chromosomes Les minisatellites répétitions de
motifs de 14 à 500 nt, distribués sur 0,5 à 30
kb. Séquences répétées dispersées (40 du
génome murin) LINE, SINE, rétrotransposons à LTR
et les rétrotransposons à ADN
40Microsatellite
Minisatellite
41Le séquençage des génomes
Les choix stratégiques
Approches utilisées pour le séquençage à grande
échelle
Organismes séquencés
Identification des gènes
Génomes procaryotes
Structure chromosomique
Organisation des gènes
Séquences non codantes
Retombées médicales et commerciales
Génomes des modèles eucaryotes
Structure des chromosomes
Identification des gènes
Fonctions des gènes reconnus ou prédits
Régions non codantes
Génome humain
Les chromosomes humains
Identification des gènes
Séquences répétées
42Génome humain
Les chromosomes humains
La longueur totale du génome humain 3000 Mb 20
laboratoires de 6 pays (USA, GB, Japon, France,
Allemagne et Chine) 1000 nt / sec
43Génome humain
Identification des gènes
- 535 gènes codant pour des ARNt (plus faible que
chez le nématode et plus élevé que chez la
drosophile) - 150 à 200 groupes de gènes codant pour les ARNr
18S, 28S et 5,8S sur les chromosomes 13, 14, 15,
21 et 22 - 2000 gènes codant pour lARNr 5S sur le
chromosome 1 - Les gènes codants pour des protéines ont été
prédits - Comparaison aux bases de données dEST
- Comparaison aux séquences complètes dARNm
- Programme de prédiction comme GENESCAN
- Le nombre total de gènes varient entre 26000 et
35000 gènes (2x plus que le nématode ou la
drosophile). - 11,1 gènes / Mb
- Taille moyenne des gènes 27900 nt répartis en 8 à
9 exons de 145 nt environ avec des introns
denviron 3500 nt. Plus de 35 des gènes ont un
épissage alternatif - 28 du génome serait transcrit en ARNr, ARNm,
ARNt ou ARN de petite taille et 1,4 serait
traduit. - Le gène le plus grand est celui de la dystrophine
(2,4 Mb) - Le plus grand messager est celui de la titine
(80780 nt) avec 178 exons et lexon le plus grand
(17 106 nt)
44Génome humain
Séquences répétées