Title: Diapositive 1
1PLAN DU COURS
Définition les différents génomes
Un immense pas en avant qui révolutionne la
Biologie
Séquençage
Annotation
LAprès-Séquençage
Un nouveau champ dinvestigation avec de
nombreuses retombées
Génomique fonctionnelle
Transcriptome
Protéome
Étude globale dun organisme
Génomique structurale
Une nouvelle visiondu Monde Vivant
Génomique comparative
2Définitions élémentaires
génomique science des génomes séquencés
génome ensemble desgènes appartenant àun
organisme
CGATGCCAAGCATGATAGTTGTT
MPSMIVVQKPNTAVHY
- Protéine
- ARN
- Signal régulateur
- etc
gène toute séquence codant une information
3Définition expérimentale du génome dun organisme
41. Séquençage des génomes
- Maxam et Gilbert (1977)
- Sanger et coll. (1977)
1.1. Notions de base Séquençage chimique dun
gène
1.1.1. détermination de lenchaînementdes bases
sur lun des brins dADN
CGATGCCAAGCATGATAGTTGTT
1.1.2. déduction de lautre brinpar
complémentarité
CGATGCCAAGCATGATAGTTGTT
GCTACGTTTCGTACTATCAACAA
1.1.3. recherche de la meilleure phase ouverte de
lecture codée par ce gène
cg ATG CCA AGC ATG ATA GTT GTT
identification des codons
Met Pro Ser Met Ile Val Val
application du code génétique
M P S M I V V
1.1.4. déduction de la séquence en acides aminés
de la protéine correspondante
51. Séquençage des génomes
1.2.
Passage du séquençage dun gène à celui dun
génome
Cette étape a été entamée dès que lon maitrisé
le séquençage
Exemple des virus
Virus
Année
Taille (kb)
f
X174
1977
5,38
SV40
1978
5,24
hépatite B
1979
5,0
lambda
1982
48,5
Epstein Barr
1984
172
varicelle
1986
124
HSV-1
1988
152
cytomegalovirus
1990
229
61. Séquençage des génomes
1.3. Premiers efforts sur deux organismes
"modèles"
"modèles" dont la génétique et la biochimie
sont bien connues
Escherichia coli
Saccharomyces cerevisiae
environ 4000 gènes
4,7 Mb
environ 6000 gènes
12 Mb
(2,05 Mb déjà séquencés par de nombreux labos)
16 chromosomes 85 kb de génome mitochondrial
Séquençage entrepris par un seul groupe (Blattner
à Madison, USA) mais sappuyant sur quelque 250
volontaires
Séquençage entrepris par un consortium essentielle
ment européen (35 puis 80 labos)
Séquençage débute en 1989
Séquençage débute en 1991
Chromosome III (315 kb) en 1992
91,4 kb en 1992
environ 1 Mb (21 du génome entier) en 5 ans
408,5 kb en 1993
225,4 kb en 1994
Chromosomes II, VIII et XI (2,04 Mb) en 1994
338,5 kb en 1995
Chromosomes I, VI, IX, X et XI (2,61 Mb) en 1995
séquence complète (12,155 Mb) en 1996
séquence complète (4639,2 kb) en 1997
71. Séquençage des génomes
1.4.
Méthode classique
1.4.1.
chaque
segment découpé en fragments de taille
ménagée afin davoir un grand recouvrement
assemblage
progressif des régions contigues
1.4.2.
reconstitution des fragments, puis des segments
1.4.3.
finition (bouchage des trous) par marche sur le
chromosome
1.4.4.
CETTE MÉTHODE DEMANDE PLUSIEURS ANNÉES
81. Séquençage des génomes
1.5. Méthode nouvelle (shotgun)
1.5.1. cassage physique aléatoire
1.5.2. séquençage de
tous les fragments
1.5.3. assemblage progressif
de lensemble des fragments
en utilisant des logiciels
ad hoc
informatiques
finition (bouchage des trous) par marche sur le
chromosome
1.5.4.
CETTE MÉTHODE DEMANDE ENVIRON 2 MOIS POUR UN
PETIT GÉNOME (2 Mb)
91. Séquençage des génomes
1.5. Méthode nouvelle (shotgun)
1.5.5. Un succès foudroyant !!
Cette méthode révolutionnaire mise au point au
TIGR marche remarquablement bien !
publication pour la première fois de la séquence
complète du génome d'un être vivant, celui de
Haemophilus influenzae
Naissance de la Génomique, le 28 juillet 1995
Méthode de shotgun immédiatement appliquée
avalanche de génomes
101. Séquençage des génomes
avalanche de génomes
Une croissance exponentielle en nombre de génomes
finis ou en cours de séquençage
111. Séquençage des génomes
Une croissance exponentielle en nombre de génomes
qui va en s'accélérant
1.6. Situation au 2/2/04
169
- Génomes terminés et publiés
- 131 Bactéries
- 17 Archaea
- 21 Eucaryotes
958
- Génomes en cours de séquençage
- 404 Bactéries
- 22 Archaea
- 360 Eucaryotes
1127
- Génomes attendus dans le (proche) futur
- 535 Bactéries
- 39 Archaea
- 381 Eucaryotes
121.6. nouvelles tendances
1.6.1. cas des procaryotes
- la variété dans la répétition
- souches différentes appartenant à la même espèce
4 souches différentes dE. coli
Mise en évidence d'une variabilité insoupçonnée
- espèces différentes appartenant au même genre
- 3 Pyrococcus
- 5 Chlamydia
- 8 Streptococcus
- etc
131.6. nouvelles tendances
1.6.1. cas des procaryotes
- la variété dans la répétition
- souches différentes appartenant à la même espèce
- espèces différentes appartenant au même genre
- une plus grande diversité biologique et
phylogénétique - moins de pathogènes
- La proportion relative est passée en 2003 de 90
à 50 - Cependant, beaucoup de compagnies privées
continuent à en séquencer beaucoup mais sans les
publier. Par example, on estime que 14 souches
différentes de Bacillus anthracis auraient été
séquencées en 2002 aux Etats-Unis
141.6. nouvelles tendances
1.6.1. cas des procaryotes
- la variété dans la répétition
- souches différentes appartenant à la même espèce
- espèces différentes appartenant au même genre
- une plus grande diversité biologique et
phylogénétique - moins de pathogènes
- représentants dembranchements peu ou pas étudiés
Example Chlorobium tepidum, bactérie modèle du
phylum Chlorobia
Intérêts mieux comprendre
Cest un thermophile qui fixe lazote
atmosphérique et qui réduit des composés soufrés
comme source dénergie pour faire de la
photosynthèse en conditions anaérobies
les grands cycles énergétiques à léchelle
planétaire
comment est apparue la photosynthèse
151.6. nouvelles tendances
1.6.1. cas des procaryotes
- la variété dans la répétition
- souches différentes appartenant à la même espèce
- espèces différentes appartenant au même genre
- une plus grande diversité biologique et
phylogénétique - moins de pathogènes
- représentants dembranchements peu ou pas étudiés
- plus de bactéries utiles
- Shewanella oneidensis, Geobacter metallidurens
métabolise luranium et de nombreux autres métaux
lourds - Geobacter produit de plus de l'électricité
Bifidobacterium longum bactérie intestinale
hydrolysant des polymères végétaux
Pseudomonas putida croît dans la rhizosphère et
dépollue les sols
Nombreux organismes thermophiles ?source
denzymes faciles à purifier et très efficaces
161.6. nouvelles tendances
1.6.1. cas des procaryotes
- la variété dans la répétition
- souches différentes appartenant à la même espèce
- espèces différentes appartenant au même genre
- une plus grande diversité biologique et
phylogénétique - moins de pathogènes
- représentants dembranchements peu ou pas étudiés
- plus de bactéries utiles
- des génomes de plus en plus gros (qui sont faits
de plus en plus vite)
Streptomyces coelicolor (8,7 Mb, 7567 protéines)
Bradyrhizobium japonicum(9,1 Mb, 8317 protéines)
contiennent un plus grand nombre de gènes que
beaucoup deucaryotes simples comme les levures
(12 Mb mais moins de 6000 protéines)
171.6. nouvelles tendances
1.6.2. cas des eucaryotes
- objectifs primaires
- Grands organismes modèles et les organismes
proches pouvant aider à lannotation de leurs
génomes - Pathogènes, intérêt médical ou agronomique
Saccharomyces cerevisiae
Magnaporthe grisea
Schizosaccharomyces pombe
Candida albicans
Arabidopsis thaliana
Oryza sativa
Caenorhabditis elegans
Plasmodium falciparum
Anopheles gambiae
Drosophila melanogaster
Plasmodium yoelii yoelii
malaria
Fugu rubripes
Tetrahodon
Homo sapiens
Encephalitozoon cuniculi
souris, rat
Microsporidie, pathogène des voies respiratoires
chimpanzé
Ciona intestinalis
- ascidies (chordés invertébrés marins)
- copie de brouillon
181.6. nouvelles tendances
1.6.2. cas des eucaryotes
- objectifs primaires
- Grands organismes modèles et les organismes
proches pouvant aider à lannotation de leurs
génomes - Pathogènes
- Une ambition incroyable
- microsporidies, nématodes, nombreux
protozoaires, algues, Chlamydomonas - nombreux champignons (40)
- plusieurs insectes (abeille, bombyx, ),
mollusques, oursin - plusieurs poissons, Xenope, poulet, dinde, buf,
porc, chien, chat, cheval, mouton, kangourou,
etc - Chou, café, blé, maïs, sorgho, coton, tomate,
pomme de terre, haricot, canne à sucre, etc - pins (3), eucalyptus, chêne
Une accélération technologique impressionnante
191. Séquençage des génomes
1.7. Les progrès technologiques
Pas de révolution dans les techniques de
séquençage
- Mais, progrès impressionnant dans le temps
nécessaire pour réaliser un projet - au lieu de plusieurs semaines pour déterminer la
séquence brute d'une bactérie, il ne faut plus
que 2-3 jours - le séquençage du génome de la souris a été
réalisé en un temps incroyablement court, et le
chimpanzé vient d'être fini en moins d'un an
201. Séquençage des génomes
1.8. Le problème de la qualité deux écoles
Approche de type recherche fondamentale
Une séquence doit être complète et de très haute
qualité
- C'est la stratégie initialement adoptée pour les
microorganismes, y compris la levure. - Cependant, dans le cas de régions difficile à
séquencer, cette exigence est très coûteuse en
temps. Si quelques jours sont suffisants pour
avoir un recouvrement de haute qualité de 90-95
d'un génome de procaryote, plusieurs semaines,
voire plusieurs mois, seront nécessaires pour
obtenir les 5-10 restants.
Approche de type recherche appliquée
Une séquence peut rester incomplète si une large
majorité des gènes a été trouvée
- C'est la stratégie adoptée pour les
microorganismes par beaucoup d'industriels qui
recherchent avant tout de nouvelles molécules.
Ces données génomiques ne seront généralement pas
publiées. - C'est la stratégie également adoptée pour les
eucaryotes complexes dans le cas de
l'hétérochromatine ou des régions trop répétées
et apparemment vides de gènes. ? copies dites "de
brouillon" (draft genome).
21PLAN DU COURS
Définition les différents génomes
Un immense pas en avant qui
Séquençage
Annotation
révolutionne la Biologie
Génomique fonctionnelle
Un nouveau champ dinvestigation avec de
nombreuses retombées
Protéomique
Étude globale dun organisme
Génomique structurale
Une nouvelle vision
Génomique comparative
du Monde Vivant
222. Annotation
Une fois la séquence dun génome obtenue, il
sagit de la faire parler
identifier tous les gènes codant pour
CGATGCCAAGCATGATAGTTGTT
des ARN (ribosomique, de transfert)
des protéines
MPSMIVVAKIWTQAL
identifier la nature et la fonction des produits
de tous les gènes détectés lors de la première
étape
alanine déshydrogénase
232. Annotation
2.1. Identifier un gène dans un génome
On connait (partiellement) la syntaxe et la
grammaire
Il faut retrouver les mots
gènes
Exemple des procaryotes un gène code une
protéine
promoteur
ATG................................TAA
site de terminaison de
site de fixation
cadre ouvert de lecture (CDS)
la transcription
du ribosome
(open reading frame ou ORF)
traduction
en protéine
MTAGLVSPT.......................
242. Annotation
2.2. Identifier tous les gènes dans un génome
2.2.1. Mise au point de programmes automatiques
- Approche conceptuelle basée sur des études
linguistiques des séquences dADN
- On connait (partiellement) la syntaxe et la
grammaire
utilisation de modèles de Markov cachés qui,
après apprentissage sur un organisme donné,
vont différencier les régions géniques des
régions intergéniques
- programmes adaptés aux procaryotes et marchant
bien chez les eucaryotes ayant très peu dintrons
(levure)
GeneMark, GLIMMER
- programmes adaptés aux eucaryotes ayant beaucoup
dintrons
GeneMark.hmm, HMMgene, Eugene, GENIE, etc...
utilisés en conjonction avec des algorithmes
neuronaux déterminant
le départ de transcription (qui nest pas
toujours un ATG)
Netstart
les sites dépissage
Netgene2, SpliceNet, etc...
252. Annotation
2.2. Identifier tous les gènes dans un génome
2.2.2. Efficacité de ces programmes automatiques
- excellente chez les procaryotes (rendement de
98-99)
- détestable chez les eucaryotes complexes
- Une étude préliminaire sur quelques centaines de
gènes montrait que 75 des gènes annotés chez A.
thaliana avaient été mal identifiés on avait
- soit des gènes qui ont été interprétés comme
deux gènes voisins
- Une étude plus récente (janvier 2003) et
exhaustive de réannotation manuelle du génome de
la drosophile confirme lampleur du problème
262. Annotation
2.2. Identifier tous les gènes dans un génome
2.2.2. Efficacité de ces programmes automatiques
- détestable chez les eucaryotes complexes
- Une étude très récente de réannotation manuelle
du génome de la drosophile confirme lampleur du
problème - le nombre global de gènes reste pratiquement
inchangé 13.601 ? 13.676 mais 727 (trouvés par
l'ancien programme GENIE) étaient erronés et ont
disparu et 802 nouveaux ont été trouvés par un
nouveau programme, GENSCAN, et ajoutés - la structure de 85 des gènes (45 des
protéines) a été modifiée - 1531 gènes initialement indépendants ont été
fusionnés en seulement 602 nouveaux gènes - 322 gènes ont été morcelés en 675 nouveaux gènes
- 93 gènes ont été réinterprétés complètement avec
des mélanges de fusion et morcellement
Règles régissant la structure et lorganisation
des gènes eucaryotes beaucoup plus complexes que
ce que lon imaginait
272. Annotation
2.2. Identifier tous les gènes dans un génome
2.2.3. Apports de la réannotation manuelle
- Cette étude de réannotation manuelle du génome de
la drosophile montre aussi les points suivants - nombre moyen dexons par gènes 4.6, comme chez
C. elegans (4,5), Arabidopsis (4,6) mais loin de
lhomme (8,9) - expression alternative des gènes quatre fois
plus importante (861 ? 4.743) que la déduction
faite lors de la première annotation - immense majorité épissage alternatif
- 13 promoteurs alternatifs
- 6 sites de polyadénylation alternatifs
- nombre inattendu (1038) de gènes emboités
dont 55 transcrits en sens opposés
282. Annotation
2.3. Les surprises du dénombrement des gènes
- Janvier 2001 publication du génome humain
(copie de brouillon)
on tablait sur au moins 100.000 gènes
On a trouvé "seulement" 27.462 gènes
Prise de conscience de plusieurs problèmes
fondamentaux
292. Annotation
2.4. Prises de conscience
- ce résultat inattendu a sans doute été trop
médiatisé - On pensait qu'il y avait 100.000 gènes parce que
l'on estimait qu'il y avait environ 100.000
protéines humaines - De très récentes études confirment cette
estimation
- on ne sait pas estimer combien de protéines un
gène peut coder - différents modes d'épissage
- chez C. elegans 4 gènes codent 4 myosines
différentes - chez la drosophile 1 seul gène code les 7
myosines connues - promoteurs alternatifs
- on ne sait pas identifier létat dexpression
dun gène - information essentielle chez les organismes
complexes où lévolution se fait par la
modulation de lexpression plus que par
l'augmentation du nombre de gènes - les jeux de protéines synthétisées vont être très
différents d'un tissu à l'autre
Il est donc clair que le nombre total de gènes
identifiés ne reflète pas le niveau de complexité
des organismes étudiés
302. Annotation
Une fois la séquence dun génome obtenue, il
sagit de la faire parler
identifier tous les gènes
CGATGCCAAGCATGATAGTTGTT
MPSMIVVAKIWTQAL
identifier la fonction des produits de tous les
gènes détectés lors de la première étape
alanine déshydrogénase
312. Annotation
2.5. Identifier la fonction de tous les gènes
détectés
2.5.1. Méthodologie Identification par
homologie
Deux protéines sont dites homologues si elles
dérivent d'un ancêtre commun
- lhomologie est toujours une hypothèse
- lhomologie est une propriété de tout ou rien
la recherche d'homologie se fait de manière
indirecte par la mesure du pourcentage didentité
entre deux séquences
Recherche automatique de lhomologie
322. Annotation
2.5. Identifier la fonction de tous les gènes
détectés
2.5.2. Recherche automatique de lhomologie
principe comparaison de la séquence en acides
aminés de chaque cadre ouvert de lecture avec les
séquences dune banque de protéines
outils informatiques Blast, Fasta, etc... ?
recherche heuristique (donc très rapide) de
protéines homologues basée sur un alignement
local de la séquence requête avec toutes les
séquences cibles
détermination automatique de lhomologie basée
sur le nombre de résidus identiques entre la
séquence requête et la séquence cible
le seuil minimum didentité doit être placé
suffisamment haut pour que lhomologie apparaisse
incontestable
332. Annotation
2.5. Identifier la fonction de tous les gènes
détectés
2.5.3. Identification par homologie
le seuil minimum didentité doit être placé
suffisamment haut pour que lhomologie apparaisse
incontestable
- Valeurs habituellement admises
- gt 27 didentité
- entre 20 et 27 didentité
- lt 20 didentité
Homologie évidente
Homologie douteuse
Pas dhomologie
34Example de recherche dhomologie par Blast
- Homologie
- évidente
- complète
- la protéine inconnue du génome bactérien que
nous venons de séquencer ressemble beaucoup au
gène purA qui code ladénylo-succinate synthétase
IMP
AMP
Voie de biosynthèse des purines
352. Annotation
2.6. Assigner la fonction de tous les gènes
détectés
2.6.1. Déduction fonctionnelle
Principe
toute protéine virtuelle (cadre ouvert de
lecture) inconnue ayant un pourcentage didentité
suffisamment élevé avec au moins une protéine
connue dont la fonction est identifiée se verra
attribuer cette fonction
Exemple
le cadre ouvert de lecture (ORF) de mon génome
fraichement séquencé ressemblant beaucoup au gène
purA qui code ladénylosuccinate synthétase sera
annoté comme ladénylosuccinate synthétase de cet
organisme bien qu'il n'y ait pas eu de
démonstration expérimentale
362. Annotation
2.6. Assigner la fonction de tous les gènes
détectés
2.6.2. Problèmes dassignation risques
d'erreurs des programmes automatiques
Niveau conceptuel Méthodologie basée sur
l'hypothèse (qui est loin d'être toujours vraie)
Niveau technique homologie partielle non
détectée
séquence requête
X
Protéine à deux domaines fonctionnels
séquence cible
B
A
fonction connue
fonction inconnue
On donnera à X la fonction du domaine B alors
qu'elle est uniquement homologue au domaine A
erreur dramatique
372. Annotation
2.6. Assigner la fonction de tous les gènes
détectés
2.6.3. Problèmes dassignation biais dans les
bases de données
Premier biais avant le séquençage systématique,
les données correspondaient à un choix limité
dorganismes.
Deuxième biais lentrée massive de protéines
virtuelles (annotées uniquement par homologie)
dans les banques de séquences a entrainé un autre
biais encore plus rhédibitoire à chaque fois
quelles correspondent aux meilleurs scores
les erreurs dassignation ont un effet boule de
neige
Troisième biais, le plus grave
382. Annotation
2.7. La surprise des gènes orphelins
2.7.1. mise en évidence
- chez tous les génomes séquencés, y compris ceux
dorganismes pour lesquels on croyait connaitre
presque tout, comme E. coli ou la levure, on a
trouvé un stock très important (de 40 à 70 du
total) de gènes inconnus qui ne ressemblent à
rien de précédemment connu. ? gènes orphelins
On a immédiatement pris conscience que des pans
entiers de la biologie des organismes avaient
échappé jusquici aux approches classiques de la
génétique et de la biochimie
392. Annotation
2.7. La surprise des gènes orphelins
2.7.2. Example de la levure
Protéines ayant un homologue connu
3451
54,3
Protéines ayant une faible similarité avec
866
13,6
une protéine connue
Protéines ayant une similarité avec une
790
12,4
protéine inconnue
Protéines sans similarité (orphelins)
803
12,6
Cadres ouverts de lecture douteux
447
7
,0
A questionable ORF is defined by a combination of
the following attributes low CAI value, partial
overlap to a longer or known ORF, no
similarity to other ORFs.
402. Annotation
2.7. La surprise des gènes orphelins
2.7.3. Vue globale
Pour la majorité des génomes, on a une
répartition 50/50 entre le connu et l'inconnu
Fonction déterminée expérimen-talement
Gènes orphelins (orfans)
Gènes à fonction inconnue et spécifiques de
l'organisme
Fonction assignée par homologie sans ambiguité
Fonction douteuse
412. Annotation
2.8. Problèmes à résoudre
- Les gènes inconnus on les trouve de manière
constante dans tous les génomes nouvellement
séquencés. A l'heure actuelle, on a plus de
20.000 gènes orphelins présents dans les génomes
microbiens. - Les problèmes dassignation beaucoup de gènes
annotés par homologie distante et/ou à des gènes
eux-mêmes mal caractérisés ? notation floue
Solution
identifier leur fonction en utilisant des
approches expérimentales
Étape
la Génomique
obligatoire
fonctionnelle
42PLAN DU COURS
Définition les différents génomes
Un immense pas en avant qui
Séquençage
Annotation
révolutionne la Biologie
Un nouveau champ dinvestigation avec de
nombreuses retombées
Génomique fonctionnelle
Transcriptome
Protéome
Étude globale dun organisme
Génomique structurale
Une nouvelle vision
Génomique comparative
du Monde Vivant
433. Génomique fonctionnelle
3.1. Deux approches complémentaires
3.1.1. inactivation systématique, un à un, de
tous les gènes inconnus ou potentiellement mal
identifiés
analyse systématique du phénotype obtenu
Exemples projets effectués pour S. cerevisiae
et pour B. subtilis par les consortiums qui ont
participé précedemment au séquençage
3.1.2. analyse globale de lexpression
densembles de gènes
analyse en une étape des variations dexpression
de nombreux gènes par la technique des puces à ADN
analyse en électrophorèse 2D et spectrométrie de
masse des protéines correspondantes
Protéome
Transcriptome
443. Génomique fonctionnelle
3.2. Inactivation systématique des gènes inconnus
- Example de S. cerevisiae
- Méthodologie
- 1994-1998 Approches de génétique classique
inactivation de chaque gène (répartition des
tâches dans un consortium de labo EuroFan) - 1997-2001 Approches plus génomiques
construction doutils (à base de transposon)
permettant dinactiver un grand nombre de gènes
puis danalyser globalement les milliers de
souches mutantes obtenues dans plusieurs dizaines
de conditions physiologiques - 1999-2002 Construction dune collection de
délétions couvrant 96 des ORFs annotées - Résultats
- Ces différentes approches nont pas résolu le
mystère dun nombre significatif des gènes
orphelins pas dattribution fonctionnelle
claire - Cependant, on a pu regrouper beaucoup dentre eux
avec des gènes connus qui sexpriment dans les
mêmes conditions (même profil dexpression) - La collection de délétions a montré quun nombre
très important (gt 80) des 6200 gènes sont
non-essentiels dans les conditions du
laboratoire. Cependant, la construction
systématique de 4700 double-mutants montre un
très haut niveau dinteraction fonctionnelle
entre la majorité de ces gènes non-essentiels .
453. Génomique fonctionnelle
3.3. Analyse du transcriptome
3.3.1. Utilisation des puces à ADN principe
vegetative yeast cells
sporulating
Figure 1 Gene expression analysis using a DNA
microarray.
For example, the greater abundance of the TEP1
mRNA in the sporulating cells results in a high
ratio of redlabelled to greenlabelled copies of
the corresponding cDNA,
the cDNA sequences representing each individual
transcript hybridize specifically with the
corresponding gene sequence in the array
Thus, the relative abundance in sporulating as
compared with vegetative yeast cells of the
transcripts from each gene is reflected by the
ratio of 'red' to 'green' fluorescence measured
at the array element representing that gene.
463. Génomique fonctionnelle
3.3. Analyse du transcriptome
3.3.2. example de la levure
Global Response of Saccharomyces cerevisiae to an
Alkylating Agent
Scott A. Jelinsky and Leona D. Samson (PNAS,
1999, 96 1486-1491)
We simultaneously examine how 6,200
Saccharomyces cerevisiae gene transcript levels,
representing the entire genome, respond to
environmental change.
- Using chips bearing oligonucleotide arrays, we
show that - 325 gene transcript levels are increased,
- 76 are decreased, upon exposure to alkylating
agent.
Of the 21 genes that were already known to be
induced by a DNA damaging agent, 18 can be scored
as inducible in this data set, and
surprisingly, most of the newly identified
inducible genes are even more strongly induced
than these.
473. Génomique fonctionnelle
3.4. Analyse du protéome
3.4.1. Les grandes étapes
- Démarche classique
- Électrophorèse 2D de l'ensemble des protéines
- Identification des protéines connues par rapport
à des échantillons témoins les contenant - Identification des protéines inconnues par
spectrométrie de masse - Nouvelles approches
- Mesurer les niveaux d'expression
- Quantifier les différents jeux de protéines par
spectrométrie de masse - Puces à protéines
- Détecter les modifications post-traductionnelles.
Une nouvelle vision de l'Univers des Protéines
483. Génomique fonctionnelle
3.4. Analyse du protéome
3.4.2. Électrophorèse 2D des protéines de grande
taille de E. coli
High Mr range of the E. coli gel image with
scales of 250-33 kDa and a pI between 3 and 10
493. Génomique fonctionnelle
3.4. Analyse du protéome
3.4.3. Identification des protéines inconnues par
spectrométrie de masse
- Principe
- Les protéines inconnues séparées par
électrophorèse 2D sont éluées une à une (spot par
spot), protéolysées par la trypsine - Si le spot élué contient une seule protéine, la
séquence de chaque peptide peut être déterminée
par spectrométrie de masse et comparée
directement avec les séquences génomiques ?
Approche de type Maldi-TOF (Matrix-assisted laser
desorption ionization time of flight) - Sinon, on fait une protéolyse de l'ensemble des
protéines (approche de type shotgun) puis on
sépare les différents peptides par
chromatographie sur colonne, avant de faire
l'analyse en spectrométrie de masse avec de
nombreuses réitérations ? Approche de type MUDPIT
(multidimensional protein identification
technology)
503. Génomique fonctionnelle
3.4. Analyse du protéome
3.4.3. Identification des protéines inconnues par
spectrométrie de masse
Schéma comparatif (example de la levure)
MUDPIT
2D Maldi-TOF
500.000 peptides tryptiques
20.000 protéines
5.500 peptides analysés
800 protéines séparées sur gel 2D
1.500 protéines identifiés
200 protéines identifiées
513. Génomique fonctionnelle
Fig. 1. Multidimensional Protein Identification
Technology (MudPIT). The complex mixture of
proteins present in a whole cell lysate is
fragmented with immobilized trypsin, after
dilution to 2 M urea, generating a highly complex
mixture. The peptides are collected on a strong
cation exchange (SCX) column that is positioned
immediately upstream of a reverse-phase (RP)
column. Successive peptide fractions are
released, depending on their isoelectric point,
with salt steps of increasing concentration at
low organic solvent concentrations and captured
by the second-dimension reverse-phase column.
The reverse-phase column is eluted with a gentle
gradient of increasing organic solvent
concentration between each salt step to displace
the peptides, depending on their hydrophobicity,
into the mass spectrometer. The ion-trap mass
spectrometer (LCQ-DECA, ThermoFinnigan, San Jose,
CA) employs data-dependent acquisition software
to limit the time spent sequencing any particular
peptide, so that as many different peptides as
possible are sequenced, regardless of their
abundance.
3.4. Analyse du protéome
Approche de type MUDPIT
523. Génomique fonctionnelle
3.4. Analyse du protéome
3.4.3. Identification des protéines inconnues par
spectrométrie de masse
- Evolution technologique importante sur les 5
dernières années - appareils de plus en plus sensibles, moins chers,
plus faciles à utiliser pour les non-spécialistes - ? croissance exponentielle de leur utilisation
- Dans le proche futur, on pourrait ne plus avoir
besoin de l'étape électrophorèse 2D
Vers une analyse quantitative de tout un protéome
534. Analyse du protéome
4.1. Analyse quantitative par spectrométrie de
masse
- Résolution de problèmes
- inhérents au protéome (qui est plus complexe que
le génome) - qui ne peuvent être résolus par les puces à ADN
- pas de bonne corrélation entre quantités d'ARNm
et quantités de protéines - modifications post-traductionnelles
- Mesure de l'expression des gènes par
quantification des protéines. - Deux approches
- puces à protéines
- spectrométrie de masse quantitative de protéomes
entiers extraits à différents stades d'expression
et traités à la trypsine permet d'identifier de
très nombreuses protéines sans aucune
purification. Example pour la levure plus de
800 protéines
544. Analyse du protéome
4.2. Etude des complexes protéiques
- Utilisation de différentes approches
technologiques nouvelles pour - comprendre les interactions entre protéines
? interactome - mettre en évidence des complexes protéiques qui
pourraient assurer un rôle physiologique bien
précis ? machines cellulaires
554. Analyse du protéome
4.2. Etude des complexes protéiques
4.2.1. Mise en évidence et charactérisation de
complexes protéiques formant des machines
cellulaires assurant une (supra)fonction
physiologique.
Protocole expérimental
Figure 1 Analysing protein interactions. In the
'co-precipitation/mass spectrometry' approach
used by Gavin et al.1 and Ho et al.2, an
'affinity tag' is first attached to a target
protein (the 'bait' a). b, Bait proteins are
systematically precipitated, along with any
associated proteins, on an 'affinity column'. c,
Purified protein complexes are resolved by
one-dimensional SDSPAGE. d, Proteins are excised
from the gel, digested with the enzyme trypsin,
and analysed by mass spectrometry.
Database-search algorithms (bioinformatics) are
then used to identify specific proteins from
their mass spectra.
Nature 415, 141 - 147 (2002)
56Functional organization of the yeast proteome by
systematic analysis of protein complexes
Méthode "TAP-TAG"
Tandem-affinity purification (TAP) and mass
spectrometry were used in a large-scale approach
to characterize multiprotein complexes in S.
cerevisiae. 1,739 genes, including 1,143 human
orthologues of relevance to human biology, were
purified as 589 protein assemblies. Bioinformatic
analysis of these assemblies defined 232 distinct
multiprotein complexes and proposed new cellular
roles for 344 proteins, including 231 proteins
with no previous functional annotation.
Comparison of yeast and human complexes showed
that conservation across species extends from
single proteins to their molecular environment.
Our analysis provides an outline of the
eukaryotic proteome as a network of protein
complexes at a level of organization beyond
binary interactions. This higher-order map
contains fundamental biological information and
offers the context for a more reasoned and
informed approach to drug discovery.
Figure 3 Primary validation of complex
composition by 'reverse' purification the
polyadenylation machinery. a , A similar band
pattern is observed when different components of
the polyadenylation machinery complex are used as
entry points for affinity purification.
Underlined are new components of the
polyadenylation machinery complex for which a
physical association has not yet been described.
The bands of the tagged proteins are indicated by
arrowheads. b, Proposed model of the
polyadenylation machinery.
Nature 415, 141 - 147 (2002)
574.2. Etude des complexes protéiques
4.2.2. Relations entre les complexes protéiques
un réseau de fonctions et de régulations.
Figure 4 The protein complex network, and
grouping of connected complexes. Links were
established between complexes sharing at least
one protein. For clarity, proteins found in more
than nine complexes were omitted. In the upper
panel, cellular roles of the individual complexes
are colour coded red, cell cycle dark green,
signalling dark blue, transcription, DNA
maintenance, chromatin structure pink, protein
and RNA transport orange, RNA metabolism light
green, protein synthesis and turnover brown,
cell polarity and structure violet, intermediate
and energy metabolism light blue, membrane
biogenesis and traffic. The lower panel is an
example of a complex (yeast TAP-C212) linked to
two other complexes (yeast TAP-C77 and TAP-C110)
by shared components. It illustrates the
connection between the protein and complex levels
of organization.
584. Analyse du protéome
4.2. Etude des complexes protéiques
4.2.3. Perspectives sur l'étude des interactomes
- une hypothèse raisonnable est que, dans la foule
des protéines qui encombrent en permanence le
cyoplasme, les interactions ne peuvent se faire
par rencontre au hasard - il faut donc imaginer un mécanisme de transfert
d'information permettant des interactions
préprogrammées entre protéines - ? notion nouvelle de code protéomique, inscrit
dans le génome, qu'il va falloir découvrir
59PLAN DU COURS
Définition les différents génomes
Un immense pas en avant qui
Séquençage
Annotation
révolutionne la Biologie
Génomique fonctionnelle
Un nouveau champ dinvestigation avec de
nombreuses retombées
Protéomique
Étude globale dun organisme
Génomique structurale
Une nouvelle vision
Génomique comparative
du Monde Vivant
605. Étude globale dun organisme
De nombreuses informations cruciales peuvent être
obtenues à partir des données de la génomique
Quelques exemples parmi beaucoup dautres
mise en évidence des opérons et autres régulons
mise en évidence des sites dinitiation et de
terminaison de la réplication
reconstruction putative de lensemble du
métabolisme
reconstitution progressive de la physiologie et
du mode de vie de lorganisme
615. Étude globale dun organisme
5.1. Mise en évidence des sites dinitiation et
de terminaison de la réplication chez les
procaryotes
5.1.1. Principe du biais de GC (GC skew)
- Principe basé sur les travaux de Jean Lobry
(1996) - Il y a un biais dans la composition en GC des
brins - en théorie C G
- en pratique, un brin plus riche en C ou G
- calcul du biais par la formule
- Cette déviation change de signe au passage de
lorigine et de la terminaison de la réplication
Lanalyse de la distribution en GC va donc
permettre une localisation virtuelle de lorigine
de réplication du chromosome chez des organismes
jamais étudiés
625. Étude globale dun organisme
5.1. Mise en évidence des sites dinitiation et
de terminaison de la réplication
5.1.2. cas de E. coli
Figure 2. Base composition is not randomly
distributed in the E. coli genome.
G-C skew (G - C)/(G C) is plotted as a 10-kb
window average for one strand of the entire
E. coli genome. Skew plots for the three codon
positions are presented separately leftward
genes, rightward genes, and non-protein-coding
regions are shown in lines 5, 6, and 7. Two
vertical lines through the plots show the
location of the origin and terminus of
replication.
635. Étude globale dun organisme
5.1. Mise en évidence des sites dinitiation et
de terminaison de la réplication
5.1.3. Déductions basées sur le biais de GC et
extensions de lapproche
Identification of putative chromosomal origins of
replication in Archaea
Philippe Lopez, Hervé Philippe, Hannu Myllykallio
Patrick Forterre
Ces prédictions ont ensuite été vérifiées
expérimentalement dans le cas de Pyrococcus
645. Étude globale dun organisme
5.2. Reconstitution virtuelle du métabolisme
dorganismes peu ou pas étudiés
- Principe
- On essaye de reconstituer à partir des
assignations de fonctions les principales voies
métaboliques (glycolyse, cycle de Krebs, voies de
biosynthèse et dégradation, etc..). - Cette démarche est fondamentale pour mieux
cerner la physiologie dorganismes sur lesquels
il ny a eu aucune étude biochimique - Elle permet aussi de contrôler létape
dannotation - Exemples
- absence dune enzyme-clé dans une voie
métabolique où toutes les autres étapes en amont
et en aval ont été détectées - absence dun constituant dune machinerie
cellulaire comme le moteur du flagelle
655. Étude globale dun organisme
5.2. Reconstitution virtuelle du métabolisme
cas de Borrelia burgdorferi
- Apparent absence of genes for the synthesis of
amino acids, fatty acids, enzyme cofactors, and
nucleotides. - Genes encoding all of the enzymes of the
glycolytic pathway were identified. - Analysis of the metabolic pathway suggests that
B. burgdorferi uses glucose as a primary energy
source, although other carbohydrates, including
glycerol, may be used in glycolysis. - Pyruvate produced by glycolysis is converted to
lactate, consistent with the microaerophilic
nature of B. burgdorferi.
665. Étude globale dun organisme
5.3. Autres apports sur le mode de vie de
lorganisme
5.3.1. Exemple du pathogène Chlamydia trachomatis
Remise en cause de résultats expérimentaux que
lon croyait bien établis
Chlamydia est capable de synthétiser son propre
ATP
Chlamydia est capable de synthétiser son
peptidoglycane
Des protéines essentielles sont absentes
Cas de la S-adénosylméthionine transférase, de
FtsZ...
Transferts horizontaux
Présence de nombreux (gt20) gènes ressemblant à
des gènes de plantes
En fait, on a montré très récemment que ces gènes
de plantes sont localisés dans le chloroplaste,
ce qui suggère une relation phylogénétique plus
étroite que lon ne pensait entre les
cyanobactéries et les chlamydiae. La présence de
ces gènes ne serait donc pas dû à quelque
mécanisme de transfert horizontal.
675. Étude globale dun organisme
5.3. Autres apports sur le mode de vie de
lorganisme
5.3.2. Exemple du symbionte Buchnera sp.
évolution vers un organite
- Buchnera, un symbionte des cellules de certains
hyménoptères, est très proche de Escherichia coli
mais na conservé que 21 des gènes présents dans
lancêtre commun - Élimination drastique de tous les gènes faisant
double emploi avec lhôte, mais maintien de ceux
qui sont indispensables au métabolisme de la
cellule-hôte
Shinegobu et al, 2000 Nature 40781
Buchnera is missing most of the genes that code
for protective cell walls, as well as those
needed to repair damaged DNA. This indicates that
aphid cells shelter the bacteria from the rough
and tumble of the outside world. Buchnera doesn't
have 'regulatory' genes any more. Presumably it
doesn't need them, because the environment inside
the aphids is constant. Buchnera also lack many
of the common genes needed to respire. They use
energy produced in the aphid cells instead. But
the flow of resources is not just one way. Aphids
need 10 essential 'amino acids' which they get
from Buchnera.
The Buchnera genome presents a fascinating
picture of an organism that sits half-way between
a true organelle and a free-living symbiont
68PLAN DU COURS
Définition les différents génomes
Un immense pas en avant qui
Séquençage
Annotation
révolutionne la Biologie
Génomique fonctionnelle
Un nouveau champ dinvestigation avec de
nombreuses retombées
Protéomique
Étude globale dun organisme
Génomique structurale
Une nouvelle vision
Génomique comparative
du Monde Vivant
696. Génomique structurale
6.1. Une approche très ambitieuse science à
haut débit
- Objectif cristallisation progressive de toutes
les protéines codées par un génome afin de
déterminer leur structure 3D par résonance
magnétique nucléaire (RMN) ou par rayons X -
- Buts
- meilleure caractérisation de la fonction des
ORFs inconnues - recherche dhomologues très distants
- construction dune base de données de tous les
modes de repliement - détermination de nouvelles cibles dintérêt
thérapeutique (cibles pour antibiotiques,
anticancéreux), ou biotechnologique - Un effort international
- Devant l'ampleur de la tâche, il a été décidé en
2001 de coordonner les efforts des différents
consortiums qui s'étaient mis en place et de
partager l'ensemble des données obtenues pour
gagner en efficacité
706. Génomique structurale
6.2. L'approche locale cas de la levure
- projet multidisciplinaire réunissant plusieurs
groupes de biologistes et de physiciens à Orsay,
Gif-sur-Yvette, Saclay et Jouy-en-Josas - première étape (hiver 2000) choix des
meilleures phases ouvertes de lecture. Recherche
basée sur des critères dhomologie et de taille
(pas de protéines multi-domaines) - deuxième étape (reste de l'année 2000) projet
pré-pilote sur 20 protéines mise au point de
conditions optimales pour exprimer et purifier
ces protéines - troisième étape (années 2001-2003) passage au
projet pilote sur environ 400 protéines mise en
place dun rythme de croisière pour - obtenir un haut débit de production de cristaux
- enregistrer tous les problèmes dans les
différentes étapes pour automatiser au maximum
leur résolution future
716. Génomique structurale
6.2. L'approche locale évolution de l'approche
à haut débit
12/01
01/03
01/04
726. Génomique structurale
6.3. L'effort international premier bilan
- Nouvelles approches technologiques ? haut débit
- mise au point de méthodes automatiques
(robotiques) pour tester la solubilité des
protéines à crystalliser - mise au point de nouveaux systèmes d'expression
- in vivo dans E. coli ou la levure Pichia
pastoris pour les microorganismes - in vitro pour les eucaryotes complexes
(Arabidopsis, homme, souris) - utilisation de la RMN pour une analyse directe
de petites protéines sans purification - Premières structures
- tous projets confondus, 117 structures ont été
publiées après 18 mois d'effort - ce jeu de protéines contient statistiquement
plus de nouveaux repliements qu'un jeu équivalent
de protéines résolues par des groupes indépendants
73PLAN DU COURS
Définition les différents génomes
Un immense pas en avant qui
Séquençage
Annotation
révolutionne la Biologie
Un nouveau champ dinvestigation avec de
nombreuses retombées
Génomique fonctionnelle
Transcriptome
Protéome
Étude globale dun organisme
Génomique structurale
Une nouvelle vision
Génomique comparative
du Monde Vivant
747. Génomique comparative
Dès que lon a disposé de plusieurs génomes
entièrement séquencés, on a eu envie de les
comparer démarche classique en Recherche
Fondamentale
synténie
Plasticité du
génome
Ilôts de
Organisation
pathogénicité
des gènes
transferts
Dynamique des génomes
horizontaux
Évolution
Évolution moléculaire
des protéines
Biochimie des
Arbre du vivant
organismes
Dernier ancêtre
commun universel
Systèmes dinformation
Voies métaboliques
757. Génomique comparative
- Vue d'ensemble
- comparaison des données issues du séquençage de
génomes d'organismes variés peut se faire à
différents niveaux - comparer les jeux de gènes (protéines) entre
génomes ? informations sur la dynamique des
génomes à courte et longue distance - comparer les gènes (protéines) homologues entre
eux au niveau de leur séquence ? notion de gènes
paralogues et orthologues - comparer la position des gènes et leur voisinage
sur le chromosome - notion de synténie
- notion de contexte génétique
- Incidence
- informations sur les relations fonctionnelles,
le métabolisme, la physiologie d'organismes peu
ou pas étudiés - mise en évidence de différents types de gènes
informationnel, opérationnel - mise en évidence de phénomènes de transfert
horizontal
767. Génomique comparative
Grands points abordés
Résultats éclairant les mécanismes évolutifs
sous-tendants
- Les différents types de gènes
- au niveau homologie
- au niveau fonctionnel
- Acquisition et perte de gènes
- Duplication
- Transfert horizontal
- Dégradation en pseudogènes
- Conservation de l'ordre des gènes
- Mécanisme de rupture de la synténie
- Contexte génétique déduction fonctionnelle
- La régulation homéostatique du nombre de gènes
- L'évolution des protéines
- L'évolution des génomes
- La topologie de l'Arbre du Vivant et la nature du
dernier ancêtre commun universel
777. Génomique comparative
7.1. Les différents types de gènes homologues
espèce ancestrale
A
B
duplication interne
du gène B et
7.1.1. Modèle de Fitch
divergence des
deux copies
A
B1
B2
divergence par
spéciation
A
B1
B2
A
B1
B2
divergence par spéciation
A
B1
B2
A
B1
B2
A
B1
B2
A
B1
B2
espèce 1
espèce 2
espèce 3
espèce 4
Les homologues de A sont des
Les homologues de B1 et de B2 sont des
Gènes
Gènes
Orthologues
Paralogues
787. Génomique comparative
7.1. Les différents types de gènes homologues
7.1.2. Comparaison interspécifique (orthologues)
et intraspécifique (paralogues)
- Recherche des relations de parentés entre les
gènes appartenant à différents génomes - Deux types de comparaison menés en parallèle
pour - constituer des familles de gènes homologues
- identifier les gènes uniques à chaque génome
797. Génomique comparative
7.1. Les différents types de gènes
7.1.3. Comparaison au niveau fonctionnel
- Résultat obtenu au cours de comparaisons
intergénomiques - Mode d'évolution différent selon les trois
Domaines du Vivant
- Gènes opérationnels
- métabolisme
- transport actif
- grandes fonctions cellulaires
- secrétion
- Gènes informationnels
- réplication
- recombinaison
- transcription
- traduction
- Les gènes informationnels des archaea sont
homologues de ceux des eucaryotes mais n'ont pas
de parenté avec ceux des bactéries - Les gènes opérationnels s'échangent plus
facilement par transfert horizontal
807. Génomique comparative
Grands points abordés
Résultats éclairant les mécanismes évolutifs
sous-tendants
- Les différents types de gènes
- au niveau homologie
- au niveau fonctionnel
- Acquisition et perte de gènes
- Duplication
- Transfert horizontal
- Dégradation en pseudogènes
- Conservation de l'ordre des gènes
- Mécanisme de rupture de la synténie
- Contexte génétique déduction fonctionnelle