Diapositive 1 - PowerPoint PPT Presentation

1 / 112
About This Presentation
Title:

Diapositive 1

Description:

Un nouveau champ d'investigation avec de nombreuses retomb es ... Pathog nes, int r t m dical ou agronomique. ascidies (chord s invert br s marins) copie de ... – PowerPoint PPT presentation

Number of Views:844
Avg rating:3.0/5.0
Slides: 113
Provided by: bernard121
Category:

less

Transcript and Presenter's Notes

Title: Diapositive 1


1
PLAN DU COURS
Définition les différents génomes

Un immense pas en avant qui révolutionne la
Biologie
Séquençage

Annotation

LAprès-Séquençage

Un nouveau champ dinvestigation avec de
nombreuses retombées
Génomique fonctionnelle
Transcriptome
Protéome
Étude globale dun organisme
Génomique structurale
Une nouvelle visiondu Monde Vivant

Génomique comparative
2
Définitions élémentaires
génomique science des génomes séquencés
génome ensemble desgènes appartenant àun
organisme
CGATGCCAAGCATGATAGTTGTT
MPSMIVVQKPNTAVHY
  • Protéine
  • ARN
  • Signal régulateur
  • etc

gène toute séquence codant une information
3
Définition expérimentale du génome dun organisme
4
1. Séquençage des génomes
  • Maxam et Gilbert (1977)
  • Sanger et coll. (1977)

1.1. Notions de base Séquençage chimique dun
gène
1.1.1. détermination de lenchaînementdes bases
sur lun des brins dADN
CGATGCCAAGCATGATAGTTGTT
1.1.2. déduction de lautre brinpar
complémentarité
CGATGCCAAGCATGATAGTTGTT

GCTACGTTTCGTACTATCAACAA

1.1.3. recherche de la meilleure phase ouverte de
lecture codée par ce gène
cg ATG CCA AGC ATG ATA GTT GTT
identification des codons

Met Pro Ser Met Ile Val Val
application du code génétique
M P S M I V V
1.1.4. déduction de la séquence en acides aminés
de la protéine correspondante
5
1. Séquençage des génomes
1.2.
Passage du séquençage dun gène à celui dun
génome
Cette étape a été entamée dès que lon maitrisé
le séquençage
Exemple des virus

Virus


Année


Taille (kb)

f
X174



1977



5,38
SV40



1978



5,24
hépatite B


1979



5,0






lambda
1982
48,5
Epstein Barr


1984



172
varicelle



1986



124
HSV-1



1988



152
cytomegalovirus

1990



229
6
1. Séquençage des génomes
1.3. Premiers efforts sur deux organismes
"modèles"
"modèles" dont la génétique et la biochimie
sont bien connues
Escherichia coli
Saccharomyces cerevisiae
environ 4000 gènes
4,7 Mb
environ 6000 gènes
12 Mb
(2,05 Mb déjà séquencés par de nombreux labos)

16 chromosomes 85 kb de génome mitochondrial



Séquençage entrepris par un seul groupe (Blattner
à Madison, USA) mais sappuyant sur quelque 250
volontaires
Séquençage entrepris par un consortium essentielle
ment européen (35 puis 80 labos)

Séquençage débute en 1989
Séquençage débute en 1991
Chromosome III (315 kb) en 1992
91,4 kb en 1992
environ 1 Mb (21 du génome entier) en 5 ans
408,5 kb en 1993
225,4 kb en 1994
Chromosomes II, VIII et XI (2,04 Mb) en 1994
338,5 kb en 1995
Chromosomes I, VI, IX, X et XI (2,61 Mb) en 1995
séquence complète (12,155 Mb) en 1996
séquence complète (4639,2 kb) en 1997
7
1. Séquençage des génomes
1.4.
Méthode classique
1.4.1.
chaque
segment découpé en fragments de taille
ménagée afin davoir un grand recouvrement
assemblage
progressif des régions contigues
1.4.2.
reconstitution des fragments, puis des segments
1.4.3.
finition (bouchage des trous) par marche sur le
chromosome
1.4.4.
CETTE MÉTHODE DEMANDE PLUSIEURS ANNÉES
8
1. Séquençage des génomes
1.5. Méthode nouvelle (shotgun)
1.5.1. cassage physique aléatoire
1.5.2. séquençage de
tous les fragments
1.5.3. assemblage progressif
de lensemble des fragments
en utilisant des logiciels
ad hoc
informatiques
finition (bouchage des trous) par marche sur le
chromosome
1.5.4.
CETTE MÉTHODE DEMANDE ENVIRON 2 MOIS POUR UN
PETIT GÉNOME (2 Mb)
9
1. Séquençage des génomes
1.5. Méthode nouvelle (shotgun)
1.5.5. Un succès foudroyant !!
Cette méthode révolutionnaire mise au point au
TIGR marche remarquablement bien !

publication pour la première fois de la séquence
complète du génome d'un être vivant, celui de
Haemophilus influenzae
Naissance de la Génomique, le 28 juillet 1995
Méthode de shotgun immédiatement appliquée
avalanche de génomes
10
1. Séquençage des génomes
avalanche de génomes
Une croissance exponentielle en nombre de génomes
finis ou en cours de séquençage
11
1. Séquençage des génomes
Une croissance exponentielle en nombre de génomes
qui va en s'accélérant
1.6. Situation au 2/2/04
169
  • Génomes terminés et publiés
  • 131 Bactéries
  • 17 Archaea
  • 21 Eucaryotes

958
  • Génomes en cours de séquençage
  • 404 Bactéries
  • 22 Archaea
  • 360 Eucaryotes

1127
  • Génomes attendus dans le (proche) futur
  • 535 Bactéries
  • 39 Archaea
  • 381 Eucaryotes

12
1.6. nouvelles tendances
1.6.1. cas des procaryotes
  • la variété dans la répétition
  • souches différentes appartenant à la même espèce

4 souches différentes dE. coli
Mise en évidence d'une variabilité insoupçonnée
  • espèces différentes appartenant au même genre
  • 3 Pyrococcus
  • 5 Chlamydia
  • 8 Streptococcus
  • etc

13
1.6. nouvelles tendances
1.6.1. cas des procaryotes
  • la variété dans la répétition
  • souches différentes appartenant à la même espèce
  • espèces différentes appartenant au même genre
  • une plus grande diversité biologique et
    phylogénétique
  • moins de pathogènes
  • La proportion relative est passée en 2003 de 90
    à 50
  • Cependant, beaucoup de compagnies privées
    continuent à en séquencer beaucoup mais sans les
    publier. Par example, on estime que 14 souches
    différentes de Bacillus anthracis auraient été
    séquencées en 2002 aux Etats-Unis

14
1.6. nouvelles tendances
1.6.1. cas des procaryotes
  • la variété dans la répétition
  • souches différentes appartenant à la même espèce
  • espèces différentes appartenant au même genre
  • une plus grande diversité biologique et
    phylogénétique
  • moins de pathogènes
  • représentants dembranchements peu ou pas étudiés

Example Chlorobium tepidum, bactérie modèle du
phylum Chlorobia
Intérêts mieux comprendre
Cest un thermophile qui fixe lazote
atmosphérique et qui réduit des composés soufrés
comme source dénergie pour faire de la
photosynthèse en conditions anaérobies
les grands cycles énergétiques à léchelle
planétaire
comment est apparue la photosynthèse
15
1.6. nouvelles tendances
1.6.1. cas des procaryotes
  • la variété dans la répétition
  • souches différentes appartenant à la même espèce
  • espèces différentes appartenant au même genre
  • une plus grande diversité biologique et
    phylogénétique
  • moins de pathogènes
  • représentants dembranchements peu ou pas étudiés
  • plus de bactéries  utiles 
  • Shewanella oneidensis, Geobacter metallidurens
    métabolise luranium et de nombreux autres métaux
    lourds
  • Geobacter produit de plus de l'électricité
  • dépollution

Bifidobacterium longum bactérie intestinale
hydrolysant des polymères végétaux
  • commensaux
  • intérêt agricole

Pseudomonas putida croît dans la rhizosphère et
dépollue les sols
Nombreux organismes thermophiles ?source
denzymes faciles à purifier et très efficaces
  • intérêt industriel

16
1.6. nouvelles tendances
1.6.1. cas des procaryotes
  • la variété dans la répétition
  • souches différentes appartenant à la même espèce
  • espèces différentes appartenant au même genre
  • une plus grande diversité biologique et
    phylogénétique
  • moins de pathogènes
  • représentants dembranchements peu ou pas étudiés
  • plus de bactéries  utiles 
  • des génomes de plus en plus gros (qui sont faits
    de plus en plus vite)

Streptomyces coelicolor (8,7 Mb, 7567 protéines)
Bradyrhizobium japonicum(9,1 Mb, 8317 protéines)
contiennent un plus grand nombre de gènes que
beaucoup deucaryotes simples comme les levures
(12 Mb mais moins de 6000 protéines)
17
1.6. nouvelles tendances
1.6.2. cas des eucaryotes
  • objectifs primaires
  • Grands organismes modèles et les organismes
    proches pouvant aider à lannotation de leurs
    génomes
  • Pathogènes, intérêt médical ou agronomique

Saccharomyces cerevisiae
Magnaporthe grisea
Schizosaccharomyces pombe
Candida albicans
Arabidopsis thaliana
Oryza sativa
Caenorhabditis elegans
Plasmodium falciparum
Anopheles gambiae
Drosophila melanogaster
Plasmodium yoelii yoelii
malaria
Fugu rubripes
Tetrahodon
Homo sapiens
Encephalitozoon cuniculi
souris, rat
Microsporidie, pathogène des voies respiratoires
chimpanzé
Ciona intestinalis
  • ascidies (chordés invertébrés marins)
  • copie de brouillon

18
1.6. nouvelles tendances
1.6.2. cas des eucaryotes
  • objectifs primaires
  • Grands organismes modèles et les organismes
    proches pouvant aider à lannotation de leurs
    génomes
  • Pathogènes
  • Une ambition incroyable
  • microsporidies, nématodes, nombreux
    protozoaires, algues, Chlamydomonas
  • nombreux champignons (40)
  • plusieurs insectes (abeille, bombyx, ),
    mollusques, oursin
  • plusieurs poissons, Xenope, poulet, dinde, buf,
    porc, chien, chat, cheval, mouton, kangourou,
    etc
  • Chou, café, blé, maïs, sorgho, coton, tomate,
    pomme de terre, haricot, canne à sucre, etc
  • pins (3), eucalyptus, chêne

Une accélération technologique impressionnante
19
1. Séquençage des génomes
1.7. Les progrès technologiques
Pas de révolution dans les techniques de
séquençage
  • Mais, progrès impressionnant dans le temps
    nécessaire pour réaliser un projet
  • au lieu de plusieurs semaines pour déterminer la
    séquence brute d'une bactérie, il ne faut plus
    que 2-3 jours
  • le séquençage du génome de la souris a été
    réalisé en un temps incroyablement court, et le
    chimpanzé vient d'être fini en moins d'un an

20
1. Séquençage des génomes
1.8. Le problème de la qualité deux écoles
Approche de type recherche fondamentale
Une séquence doit être complète et de très haute
qualité
  • C'est la stratégie initialement adoptée pour les
    microorganismes, y compris la levure.
  • Cependant, dans le cas de régions difficile à
    séquencer, cette exigence est très coûteuse en
    temps. Si quelques jours sont suffisants pour
    avoir un recouvrement de haute qualité de 90-95
    d'un génome de procaryote, plusieurs semaines,
    voire plusieurs mois, seront nécessaires pour
    obtenir les 5-10 restants.

Approche de type recherche appliquée
Une séquence peut rester incomplète si une large
majorité des gènes a été trouvée
  • C'est la stratégie adoptée pour les
    microorganismes par beaucoup d'industriels qui
    recherchent avant tout de nouvelles molécules.
    Ces données génomiques ne seront généralement pas
    publiées.
  • C'est la stratégie également adoptée pour les
    eucaryotes complexes dans le cas de
    l'hétérochromatine ou des régions trop répétées
    et apparemment vides de gènes. ? copies dites "de
    brouillon" (draft genome).

21
PLAN DU COURS
Définition les différents génomes

Un immense pas en avant qui

Séquençage

Annotation
révolutionne la Biologie

Génomique fonctionnelle

Un nouveau champ dinvestigation avec de
nombreuses retombées
Protéomique

Étude globale dun organisme
Génomique structurale
Une nouvelle vision

Génomique comparative
du Monde Vivant
22
2. Annotation
Une fois la séquence dun génome obtenue, il
sagit de la faire parler
  • Première étape

identifier tous les gènes codant pour
CGATGCCAAGCATGATAGTTGTT
des ARN (ribosomique, de transfert)
des protéines
MPSMIVVAKIWTQAL
  • Deuxième étape

identifier la nature et la fonction des produits
de tous les gènes détectés lors de la première
étape
alanine déshydrogénase
23
2. Annotation
2.1. Identifier un gène dans un génome
On connait (partiellement) la syntaxe et la
grammaire
Il faut retrouver les mots
gènes
Exemple des procaryotes un gène code une
protéine
promoteur
ATG................................TAA
site de terminaison de

site de fixation

cadre ouvert de lecture (CDS)
la transcription
du ribosome
(open reading frame ou ORF)
traduction
en protéine
MTAGLVSPT.......................
24
2. Annotation
2.2. Identifier tous les gènes dans un génome
2.2.1. Mise au point de programmes automatiques
  • Approche conceptuelle basée sur des études
    linguistiques des séquences dADN
  • On connait (partiellement) la syntaxe et la
    grammaire

utilisation de modèles de Markov cachés qui,
après apprentissage sur un organisme donné,
vont différencier les régions géniques des
régions intergéniques
  • programmes adaptés aux procaryotes et marchant
    bien chez les eucaryotes ayant très peu dintrons
    (levure)

GeneMark, GLIMMER

  • programmes adaptés aux eucaryotes ayant beaucoup
    dintrons

GeneMark.hmm, HMMgene, Eugene, GENIE, etc...

utilisés en conjonction avec des algorithmes
neuronaux déterminant
le départ de transcription (qui nest pas
toujours un ATG)
Netstart
les sites dépissage
Netgene2, SpliceNet, etc...
25
2. Annotation
2.2. Identifier tous les gènes dans un génome
2.2.2. Efficacité de ces programmes automatiques
  • excellente chez les procaryotes (rendement de
    98-99)
  • détestable chez les eucaryotes complexes
  • Une étude préliminaire sur quelques centaines de
    gènes montrait que 75 des gènes annotés chez A.
    thaliana avaient été mal identifiés on avait

  • soit des gènes qui ont été interprétés comme
    deux gènes voisins
  • soit linverse
  • Une étude plus récente (janvier 2003) et
    exhaustive de réannotation manuelle du génome de
    la drosophile confirme lampleur du problème

26
2. Annotation
2.2. Identifier tous les gènes dans un génome
2.2.2. Efficacité de ces programmes automatiques
  • détestable chez les eucaryotes complexes
  • Une étude très récente de réannotation manuelle
    du génome de la drosophile confirme lampleur du
    problème
  • le nombre global de gènes reste pratiquement
    inchangé 13.601 ? 13.676 mais 727 (trouvés par
    l'ancien programme GENIE) étaient erronés et ont
    disparu et 802 nouveaux ont été trouvés par un
    nouveau programme, GENSCAN, et ajoutés
  • la structure de 85 des gènes (45 des
    protéines) a été modifiée
  • 1531 gènes initialement indépendants ont été
    fusionnés en seulement 602 nouveaux gènes
  • 322 gènes ont été morcelés en 675 nouveaux gènes
  • 93 gènes ont été réinterprétés complètement avec
    des mélanges de fusion et morcellement

Règles régissant la structure et lorganisation
des gènes eucaryotes beaucoup plus complexes que
ce que lon imaginait
27
2. Annotation
2.2. Identifier tous les gènes dans un génome
2.2.3. Apports de la réannotation manuelle
  • Cette étude de réannotation manuelle du génome de
    la drosophile montre aussi les points suivants
  • nombre moyen dexons par gènes 4.6, comme chez
    C. elegans (4,5), Arabidopsis (4,6) mais loin de
    lhomme (8,9)
  • expression alternative des gènes quatre fois
    plus importante (861 ? 4.743) que la déduction
    faite lors de la première annotation
  • immense majorité épissage alternatif
  • 13 promoteurs alternatifs
  • 6 sites de polyadénylation alternatifs
  • nombre inattendu (1038) de gènes  emboités 
    dont 55 transcrits en sens opposés

28
2. Annotation
2.3. Les surprises du dénombrement des gènes
  • Janvier 2001 publication du génome humain
    (copie de brouillon)

on tablait sur au moins 100.000 gènes

On a trouvé "seulement" 27.462 gènes
Prise de conscience de plusieurs problèmes
fondamentaux
29
2. Annotation
2.4. Prises de conscience
  • ce résultat inattendu a sans doute été trop
    médiatisé
  • On pensait qu'il y avait 100.000 gènes parce que
    l'on estimait qu'il y avait environ 100.000
    protéines humaines
  • De très récentes études confirment cette
    estimation
  • on ne sait pas estimer combien de protéines un
    gène peut coder
  • différents modes d'épissage
  • chez C. elegans 4 gènes codent 4 myosines
    différentes
  • chez la drosophile 1 seul gène code les 7
    myosines connues
  • promoteurs alternatifs
  • on ne sait pas identifier létat dexpression
    dun gène
  • information essentielle chez les organismes
    complexes où lévolution se fait par la
    modulation de lexpression plus que par
    l'augmentation du nombre de gènes
  • les jeux de protéines synthétisées vont être très
    différents d'un tissu à l'autre

Il est donc clair que le nombre total de gènes
identifiés ne reflète pas le niveau de complexité
des organismes étudiés
30
2. Annotation
Une fois la séquence dun génome obtenue, il
sagit de la faire parler
  • Première étape

identifier tous les gènes
CGATGCCAAGCATGATAGTTGTT
  • Deuxième étape

MPSMIVVAKIWTQAL
identifier la fonction des produits de tous les
gènes détectés lors de la première étape
alanine déshydrogénase
31
2. Annotation
2.5. Identifier la fonction de tous les gènes
détectés
2.5.1. Méthodologie Identification par
homologie
Deux protéines sont dites homologues si elles
dérivent d'un ancêtre commun
  • Définition


  • lhomologie est toujours une hypothèse
  • lhomologie est une propriété de tout ou rien
  • Conséquences

la recherche d'homologie se fait de manière
indirecte par la mesure du pourcentage didentité
entre deux séquences
  • Approche opérationnelle

Recherche automatique de lhomologie
32
2. Annotation
2.5. Identifier la fonction de tous les gènes
détectés
2.5.2. Recherche automatique de lhomologie
principe comparaison de la séquence en acides
aminés de chaque cadre ouvert de lecture avec les
séquences dune banque de protéines
outils informatiques Blast, Fasta, etc... ?
recherche heuristique (donc très rapide) de
protéines homologues basée sur un alignement
local de la séquence requête avec toutes les
séquences cibles
détermination automatique de lhomologie basée
sur le nombre de résidus identiques entre la
séquence requête et la séquence cible
le seuil minimum didentité doit être placé
suffisamment haut pour que lhomologie apparaisse
incontestable
33
2. Annotation
2.5. Identifier la fonction de tous les gènes
détectés
2.5.3. Identification par homologie
le seuil minimum didentité doit être placé
suffisamment haut pour que lhomologie apparaisse
incontestable

  • Valeurs habituellement admises
  • gt 27 didentité
  • entre 20 et 27 didentité
  • lt 20 didentité

Homologie évidente
Homologie douteuse
Pas dhomologie
34
Example de recherche dhomologie par Blast
  • Homologie
  • évidente
  • complète
  • la protéine inconnue du génome bactérien que
    nous venons de séquencer ressemble beaucoup au
    gène purA qui code ladénylo-succinate synthétase

IMP
AMP
Voie de biosynthèse des purines
35
2. Annotation
2.6. Assigner la fonction de tous les gènes
détectés
2.6.1. Déduction fonctionnelle
Principe
toute protéine virtuelle (cadre ouvert de
lecture) inconnue ayant un pourcentage didentité
suffisamment élevé avec au moins une protéine
connue dont la fonction est identifiée se verra
attribuer cette fonction



Exemple


le cadre ouvert de lecture (ORF) de mon génome
fraichement séquencé ressemblant beaucoup au gène
purA qui code ladénylosuccinate synthétase sera
annoté comme ladénylosuccinate synthétase de cet
organisme bien qu'il n'y ait pas eu de
démonstration expérimentale


36
2. Annotation
2.6. Assigner la fonction de tous les gènes
détectés
2.6.2. Problèmes dassignation risques
d'erreurs des programmes automatiques
Niveau conceptuel Méthodologie basée sur
l'hypothèse (qui est loin d'être toujours vraie)
Niveau technique homologie partielle non
détectée
séquence requête
X
Protéine à deux domaines fonctionnels
séquence cible
B
A
fonction connue
fonction inconnue
On donnera à X la fonction du domaine B alors
qu'elle est uniquement homologue au domaine A
erreur dramatique
37
2. Annotation
2.6. Assigner la fonction de tous les gènes
détectés
2.6.3. Problèmes dassignation biais dans les
bases de données
Premier biais avant le séquençage systématique,
les données correspondaient à un choix limité
dorganismes.
Deuxième biais lentrée massive de protéines
virtuelles (annotées uniquement par homologie)
dans les banques de séquences a entrainé un autre
biais encore plus rhédibitoire à chaque fois
quelles correspondent aux meilleurs scores
les erreurs dassignation ont un effet boule de
neige
Troisième biais, le plus grave

38
2. Annotation
2.7. La surprise des gènes orphelins
2.7.1. mise en évidence
  • chez tous les génomes séquencés, y compris ceux
    dorganismes pour lesquels on croyait connaitre
    presque tout, comme E. coli ou la levure, on a
    trouvé un stock très important (de 40 à 70 du
    total) de gènes inconnus qui ne ressemblent à
    rien de précédemment connu. ? gènes orphelins






On a immédiatement pris conscience que des pans
entiers de la biologie des organismes avaient
échappé jusquici aux approches classiques de la
génétique et de la biochimie
39
2. Annotation
2.7. La surprise des gènes orphelins
2.7.2. Example de la levure
Protéines ayant un homologue connu
3451
54,3
Protéines ayant une faible similarité avec
866
13,6
une protéine connue
Protéines ayant une similarité avec une
790
12,4
protéine inconnue
Protéines sans similarité (orphelins)
803
12,6
Cadres ouverts de lecture douteux
447
7
,0
A questionable ORF is defined by a combination of
the following attributes low CAI value, partial
overlap to a longer or known ORF, no
similarity to other ORFs.
40
2. Annotation
2.7. La surprise des gènes orphelins
2.7.3. Vue globale
Pour la majorité des génomes, on a une
répartition 50/50 entre le connu et l'inconnu
Fonction déterminée expérimen-talement
Gènes orphelins (orfans)
Gènes à fonction inconnue et spécifiques de
l'organisme
Fonction assignée par homologie sans ambiguité
Fonction douteuse
41
2. Annotation
2.8. Problèmes à résoudre
  • Les gènes inconnus on les trouve de manière
    constante dans tous les génomes nouvellement
    séquencés. A l'heure actuelle, on a plus de
    20.000 gènes orphelins présents dans les génomes
    microbiens.
  • Les problèmes dassignation beaucoup de gènes
    annotés par homologie distante et/ou à des gènes
    eux-mêmes mal caractérisés ? notation floue

Solution
identifier leur fonction en utilisant des
approches expérimentales
Étape
la Génomique
obligatoire
fonctionnelle
42
PLAN DU COURS
Définition les différents génomes

Un immense pas en avant qui

Séquençage

Annotation
révolutionne la Biologie

Un nouveau champ dinvestigation avec de
nombreuses retombées
Génomique fonctionnelle

Transcriptome

Protéome
Étude globale dun organisme
Génomique structurale
Une nouvelle vision

Génomique comparative
du Monde Vivant
43
3. Génomique fonctionnelle
3.1. Deux approches complémentaires
3.1.1. inactivation systématique, un à un, de
tous les gènes inconnus ou potentiellement mal
identifiés


analyse systématique du phénotype obtenu
Exemples projets effectués pour S. cerevisiae
et pour B. subtilis par les consortiums qui ont
participé précedemment au séquençage

3.1.2. analyse globale de lexpression
densembles de gènes
analyse en une étape des variations dexpression
de nombreux gènes par la technique des puces à ADN
analyse en électrophorèse 2D et spectrométrie de
masse des protéines correspondantes


Protéome
Transcriptome
44
3. Génomique fonctionnelle
3.2. Inactivation systématique des gènes inconnus
  • Example de S. cerevisiae
  • Méthodologie
  • 1994-1998 Approches de génétique classique
    inactivation de chaque gène (répartition des
    tâches dans un consortium de labo EuroFan)
  • 1997-2001 Approches plus génomiques
    construction doutils (à base de transposon)
    permettant dinactiver un grand nombre de gènes
    puis danalyser globalement les milliers de
    souches mutantes obtenues dans plusieurs dizaines
    de conditions physiologiques
  • 1999-2002 Construction dune collection de
    délétions couvrant 96 des ORFs annotées
  • Résultats
  • Ces différentes approches nont pas résolu le
    mystère dun nombre significatif des gènes
    orphelins pas dattribution fonctionnelle
    claire
  • Cependant, on a pu regrouper beaucoup dentre eux
    avec des gènes connus qui sexpriment dans les
    mêmes conditions (même profil dexpression)
  • La collection de délétions a montré quun nombre
    très important (gt 80) des 6200 gènes sont
     non-essentiels  dans les conditions du
    laboratoire. Cependant, la construction
    systématique de 4700 double-mutants montre un
    très haut niveau dinteraction fonctionnelle
    entre la majorité de ces gènes  non-essentiels .

45
3. Génomique fonctionnelle
3.3. Analyse du transcriptome
3.3.1. Utilisation des puces à ADN principe
vegetative yeast cells
sporulating
Figure 1 Gene expression analysis using a DNA
microarray.
For example, the greater abundance of the TEP1
mRNA in the sporulating cells results in a high
ratio of redlabelled to greenlabelled copies of
the corresponding cDNA,
the cDNA sequences representing each individual
transcript hybridize specifically with the
corresponding gene sequence in the array
Thus, the relative abundance in sporulating as
compared with vegetative yeast cells of the
transcripts from each gene is reflected by the
ratio of 'red' to 'green' fluorescence measured
at the array element representing that gene.
46
3. Génomique fonctionnelle

3.3. Analyse du transcriptome
3.3.2. example de la levure
Global Response of Saccharomyces cerevisiae to an
Alkylating Agent
Scott A. Jelinsky and Leona D. Samson (PNAS,
1999, 96 1486-1491)
We simultaneously examine how 6,200
Saccharomyces cerevisiae gene transcript levels,
representing the entire genome, respond to
environmental change.


  • Using chips bearing oligonucleotide arrays, we
    show that
  • 325 gene transcript levels are increased,
  • 76 are decreased, upon exposure to alkylating
    agent.




Of the 21 genes that were already known to be
induced by a DNA damaging agent, 18 can be scored
as inducible in this data set, and
surprisingly, most of the newly identified
inducible genes are even more strongly induced
than these.



47
3. Génomique fonctionnelle
3.4. Analyse du protéome
3.4.1. Les grandes étapes
  • Démarche classique
  • Électrophorèse 2D de l'ensemble des protéines
  • Identification des protéines connues par rapport
    à des échantillons témoins les contenant
  • Identification des protéines inconnues par
    spectrométrie de masse
  • Nouvelles approches
  • Mesurer les niveaux d'expression
  • Quantifier les différents jeux de protéines par
    spectrométrie de masse
  • Puces à protéines
  • Détecter les modifications post-traductionnelles.

Une nouvelle vision de l'Univers des Protéines
48
3. Génomique fonctionnelle
3.4. Analyse du protéome
3.4.2. Électrophorèse 2D des protéines de grande
taille de E. coli
High Mr range of the E. coli gel image with
scales of 250-33 kDa and a pI between 3 and 10
49
3. Génomique fonctionnelle
3.4. Analyse du protéome
3.4.3. Identification des protéines inconnues par
spectrométrie de masse
  • Principe
  • Les protéines inconnues séparées par
    électrophorèse 2D sont éluées une à une (spot par
    spot), protéolysées par la trypsine
  • Si le spot élué contient une seule protéine, la
    séquence de chaque peptide peut être déterminée
    par spectrométrie de masse et comparée
    directement avec les séquences génomiques ?
    Approche de type Maldi-TOF (Matrix-assisted laser
    desorption ionization time of flight)
  • Sinon, on fait une protéolyse de l'ensemble des
    protéines (approche de type shotgun) puis on
    sépare les différents peptides par
    chromatographie sur colonne, avant de faire
    l'analyse en spectrométrie de masse avec de
    nombreuses réitérations ? Approche de type MUDPIT
    (multidimensional protein identification
    technology)

50
3. Génomique fonctionnelle
3.4. Analyse du protéome
3.4.3. Identification des protéines inconnues par
spectrométrie de masse
Schéma comparatif (example de la levure)
MUDPIT
2D Maldi-TOF
500.000 peptides tryptiques
20.000 protéines
5.500 peptides analysés
800 protéines séparées sur gel 2D
1.500 protéines identifiés
200 protéines identifiées
51
3. Génomique fonctionnelle
Fig. 1.   Multidimensional Protein Identification
Technology (MudPIT). The complex mixture of
proteins present in a whole cell lysate is
fragmented with immobilized trypsin, after
dilution to 2 M urea, generating a highly complex
mixture. The peptides are collected on a strong
cation exchange (SCX) column that is positioned
immediately upstream of a reverse-phase (RP)
column. Successive peptide fractions are
released, depending on their isoelectric point,
with salt steps of increasing concentration at
low organic solvent concentrations and captured
by the second-dimension reverse-phase column.
The reverse-phase column is eluted with a gentle
gradient of increasing organic solvent
concentration between each salt step to displace
the peptides, depending on their hydrophobicity,
into the mass spectrometer. The ion-trap mass
spectrometer (LCQ-DECA, ThermoFinnigan, San Jose,
CA) employs data-dependent acquisition software
to limit the time spent sequencing any particular
peptide, so that as many different peptides as
possible are sequenced, regardless of their
abundance.
3.4. Analyse du protéome
Approche de type MUDPIT
52
3. Génomique fonctionnelle
3.4. Analyse du protéome
3.4.3. Identification des protéines inconnues par
spectrométrie de masse
  • Evolution technologique importante sur les 5
    dernières années
  • appareils de plus en plus sensibles, moins chers,
    plus faciles à utiliser pour les non-spécialistes
  • ? croissance exponentielle de leur utilisation
  • Dans le proche futur, on pourrait ne plus avoir
    besoin de l'étape électrophorèse 2D

Vers une analyse quantitative de tout un protéome
53
4. Analyse du protéome
4.1. Analyse quantitative par spectrométrie de
masse
  • Résolution de problèmes
  • inhérents au protéome (qui est plus complexe que
    le génome)
  • qui ne peuvent être résolus par les puces à ADN
  • pas de bonne corrélation entre quantités d'ARNm
    et quantités de protéines
  • modifications post-traductionnelles
  • Mesure de l'expression des gènes par
    quantification des protéines.
  • Deux approches
  • puces à protéines
  • spectrométrie de masse quantitative de protéomes
    entiers extraits à différents stades d'expression
    et traités à la trypsine permet d'identifier de
    très nombreuses protéines sans aucune
    purification. Example pour la levure plus de
    800 protéines

54
4. Analyse du protéome
4.2. Etude des complexes protéiques
  • Utilisation de différentes approches
    technologiques nouvelles pour
  • comprendre les interactions entre protéines
    ? interactome
  • mettre en évidence des complexes protéiques qui
    pourraient assurer un rôle physiologique bien
    précis ? machines cellulaires

55
4. Analyse du protéome
4.2. Etude des complexes protéiques
4.2.1. Mise en évidence et charactérisation de
complexes protéiques formant des  machines
cellulaires  assurant une (supra)fonction
physiologique.
Protocole expérimental
Figure 1 Analysing protein interactions. In the
'co-precipitation/mass spectrometry' approach
used by Gavin et al.1 and Ho et al.2, an
'affinity tag' is first attached to a target
protein (the 'bait' a). b, Bait proteins are
systematically precipitated, along with any
associated proteins, on an 'affinity column'. c,
Purified protein complexes are resolved by
one-dimensional SDSPAGE. d, Proteins are excised
from the gel, digested with the enzyme trypsin,
and analysed by mass spectrometry.
Database-search algorithms (bioinformatics) are
then used to identify specific proteins from
their mass spectra.
Nature 415, 141 - 147 (2002)
56
Functional organization of the yeast proteome by
systematic analysis of protein complexes
Méthode "TAP-TAG"
Tandem-affinity purification (TAP) and mass
spectrometry were used in a large-scale approach
to characterize multiprotein complexes in S.
cerevisiae. 1,739 genes, including 1,143 human
orthologues of relevance to human biology, were
purified as 589 protein assemblies. Bioinformatic
analysis of these assemblies defined 232 distinct
multiprotein complexes and proposed new cellular
roles for 344 proteins, including 231 proteins
with no previous functional annotation.
Comparison of yeast and human complexes showed
that conservation across species extends from
single proteins to their molecular environment.
Our analysis provides an outline of the
eukaryotic proteome as a network of protein
complexes at a level of organization beyond
binary interactions. This higher-order map
contains fundamental biological information and
offers the context for a more reasoned and
informed approach to drug discovery.
Figure 3 Primary validation of complex
composition by 'reverse' purification the
polyadenylation machinery. a , A similar band
pattern is observed when different components of
the polyadenylation machinery complex are used as
entry points for affinity purification.
Underlined are new components of the
polyadenylation machinery complex for which a
physical association has not yet been described.
The bands of the tagged proteins are indicated by
arrowheads. b, Proposed model of the
polyadenylation machinery.
Nature 415, 141 - 147 (2002)
57
4.2. Etude des complexes protéiques
4.2.2. Relations entre les complexes protéiques
un réseau de fonctions et de régulations.
Figure 4 The protein complex network, and
grouping of connected complexes. Links were
established between complexes sharing at least
one protein. For clarity, proteins found in more
than nine complexes were omitted. In the upper
panel, cellular roles of the individual complexes
are colour coded red, cell cycle dark green,
signalling dark blue, transcription, DNA
maintenance, chromatin structure pink, protein
and RNA transport orange, RNA metabolism light
green, protein synthesis and turnover brown,
cell polarity and structure violet, intermediate
and energy metabolism light blue, membrane
biogenesis and traffic. The lower panel is an
example of a complex (yeast TAP-C212) linked to
two other complexes (yeast TAP-C77 and TAP-C110)
by shared components. It illustrates the
connection between the protein and complex levels
of organization.
58
4. Analyse du protéome
4.2. Etude des complexes protéiques
4.2.3. Perspectives sur l'étude des interactomes
  • une hypothèse raisonnable est que, dans la foule
    des protéines qui encombrent en permanence le
    cyoplasme, les interactions ne peuvent se faire
    par rencontre au hasard
  • il faut donc imaginer un mécanisme de transfert
    d'information permettant des interactions
    préprogrammées entre protéines
  • ? notion nouvelle de code protéomique, inscrit
    dans le génome, qu'il va falloir découvrir

59
PLAN DU COURS
Définition les différents génomes

Un immense pas en avant qui

Séquençage

Annotation
révolutionne la Biologie

Génomique fonctionnelle

Un nouveau champ dinvestigation avec de
nombreuses retombées
Protéomique

Étude globale dun organisme
Génomique structurale
Une nouvelle vision

Génomique comparative
du Monde Vivant
60
5. Étude globale dun organisme
De nombreuses informations cruciales peuvent être
obtenues à partir des données de la génomique

Quelques exemples parmi beaucoup dautres
mise en évidence des opérons et autres régulons
mise en évidence des sites dinitiation et de
terminaison de la réplication

reconstruction putative de lensemble du
métabolisme
reconstitution progressive de la physiologie et
du mode de vie de lorganisme

61
5. Étude globale dun organisme
5.1. Mise en évidence des sites dinitiation et
de terminaison de la réplication chez les
procaryotes
5.1.1. Principe du biais de GC (GC skew)
  • Principe basé sur les travaux de Jean Lobry
    (1996)
  • Il y a un biais dans la composition en GC des
    brins
  • en théorie C G
  • en pratique, un brin plus riche en C ou G
  • calcul du biais par la formule
  • Cette déviation change de signe au passage de
    lorigine et de la terminaison de la réplication

Lanalyse de la distribution en GC va donc
permettre une localisation virtuelle de lorigine
de réplication du chromosome chez des organismes
jamais étudiés



62
5. Étude globale dun organisme
5.1. Mise en évidence des sites dinitiation et
de terminaison de la réplication
5.1.2. cas de E. coli
Figure 2. Base composition is not randomly
distributed in the E. coli genome.
G-C skew (G - C)/(G  C) is plotted as a 10-kb
window average for one strand of the entire
E. coli genome. Skew plots for the three codon
positions are presented separately leftward
genes, rightward genes, and non-protein-coding
regions are shown in lines 5, 6, and 7. Two
vertical lines through the plots show the
location of the origin and terminus of
replication.
63
5. Étude globale dun organisme
5.1. Mise en évidence des sites dinitiation et
de terminaison de la réplication
5.1.3. Déductions basées sur le biais de GC et
extensions de lapproche
Identification of putative chromosomal origins of
replication in Archaea
Philippe Lopez, Hervé Philippe, Hannu Myllykallio
Patrick Forterre
Ces prédictions ont ensuite été vérifiées
expérimentalement dans le cas de Pyrococcus
64
5. Étude globale dun organisme
5.2. Reconstitution virtuelle du métabolisme
dorganismes peu ou pas étudiés
  • Principe
  • On essaye de reconstituer à partir des
    assignations de fonctions les principales voies
    métaboliques (glycolyse, cycle de Krebs, voies de
    biosynthèse et dégradation, etc..).
  • Cette démarche est fondamentale pour mieux
    cerner la physiologie dorganismes sur lesquels
    il ny a eu aucune étude biochimique
  • Elle permet aussi de contrôler létape
    dannotation
  • Exemples
  • absence dune enzyme-clé dans une voie
    métabolique où toutes les autres étapes en amont
    et en aval ont été détectées
  • absence dun constituant dune machinerie
    cellulaire comme le moteur du flagelle







65
5. Étude globale dun organisme
5.2. Reconstitution virtuelle du métabolisme
cas de Borrelia burgdorferi
  • Apparent absence of genes for the synthesis of
    amino acids, fatty acids, enzyme cofactors, and
    nucleotides.
  • Genes encoding all of the enzymes of the
    glycolytic pathway were identified.
  • Analysis of the metabolic pathway suggests that
    B. burgdorferi uses glucose as a primary energy
    source, although other carbohydrates, including
    glycerol, may be used in glycolysis.
  • Pyruvate produced by glycolysis is converted to
    lactate, consistent with the microaerophilic
    nature of B. burgdorferi.






66
5. Étude globale dun organisme
5.3. Autres apports sur le mode de vie de
lorganisme
5.3.1. Exemple du pathogène Chlamydia trachomatis
Remise en cause de résultats expérimentaux que
lon croyait bien établis
Chlamydia est capable de synthétiser son propre
ATP
Chlamydia est capable de synthétiser son
peptidoglycane
Des protéines essentielles sont absentes
Cas de la S-adénosylméthionine transférase, de
FtsZ...
Transferts horizontaux
Présence de nombreux (gt20) gènes ressemblant à
des gènes de plantes
En fait, on a montré très récemment que ces gènes
de plantes sont localisés dans le chloroplaste,
ce qui suggère une relation phylogénétique plus
étroite que lon ne pensait entre les
cyanobactéries et les chlamydiae. La présence de
ces gènes ne serait donc pas dû à quelque
mécanisme de transfert horizontal.
67
5. Étude globale dun organisme
5.3. Autres apports sur le mode de vie de
lorganisme
5.3.2. Exemple du symbionte Buchnera sp.
évolution vers un organite
  • Buchnera, un symbionte des cellules de certains
    hyménoptères, est très proche de Escherichia coli
    mais na conservé que 21 des gènes présents dans
    lancêtre commun
  • Élimination drastique de tous les gènes faisant
    double emploi avec lhôte, mais maintien de ceux
    qui sont indispensables au métabolisme de la
    cellule-hôte


Shinegobu et al, 2000 Nature 40781
Buchnera is missing most of the genes that code
for protective cell walls, as well as those
needed to repair damaged DNA. This indicates that
aphid cells shelter the bacteria from the rough
and tumble of the outside world. Buchnera doesn't
have 'regulatory' genes any more. Presumably it
doesn't need them, because the environment inside
the aphids is constant. Buchnera also lack many
of the common genes needed to respire. They use
energy produced in the aphid cells instead. But
the flow of resources is not just one way. Aphids
need 10 essential 'amino acids' which they get
from Buchnera.
The Buchnera genome presents a fascinating
picture of an organism that sits half-way between
a true organelle and a free-living symbiont
68
PLAN DU COURS
Définition les différents génomes

Un immense pas en avant qui

Séquençage

Annotation
révolutionne la Biologie

Génomique fonctionnelle

Un nouveau champ dinvestigation avec de
nombreuses retombées
Protéomique

Étude globale dun organisme
Génomique structurale
Une nouvelle vision

Génomique comparative
du Monde Vivant
69
6. Génomique structurale
6.1. Une approche très ambitieuse science à
haut débit
  • Objectif cristallisation progressive de toutes
    les protéines codées par un génome afin de
    déterminer leur structure 3D par résonance
    magnétique nucléaire (RMN) ou par rayons X
  • Buts
  • meilleure caractérisation de la fonction des
    ORFs inconnues
  • recherche dhomologues très distants
  • construction dune base de données de tous les
    modes de repliement
  • détermination de nouvelles cibles dintérêt
    thérapeutique (cibles pour antibiotiques,
    anticancéreux), ou biotechnologique
  • Un effort international
  • Devant l'ampleur de la tâche, il a été décidé en
    2001 de coordonner les efforts des différents
    consortiums qui s'étaient mis en place et de
    partager l'ensemble des données obtenues pour
    gagner en efficacité

70
6. Génomique structurale
6.2. L'approche locale cas de la levure
  • projet multidisciplinaire réunissant plusieurs
    groupes de biologistes et de physiciens à Orsay,
    Gif-sur-Yvette, Saclay et Jouy-en-Josas
  • première étape (hiver 2000) choix des
    meilleures phases ouvertes de lecture. Recherche
    basée sur des critères dhomologie et de taille
    (pas de protéines multi-domaines)
  • deuxième étape (reste de l'année 2000) projet
    pré-pilote sur 20 protéines mise au point de
    conditions optimales pour exprimer et purifier
    ces protéines
  • troisième étape (années 2001-2003) passage au
    projet pilote sur environ 400 protéines mise en
    place dun rythme de croisière pour
  • obtenir un haut débit de production de cristaux
  • enregistrer tous les problèmes dans les
    différentes étapes pour automatiser au maximum
    leur résolution future

71
6. Génomique structurale
6.2. L'approche locale évolution de l'approche
à haut débit
12/01
01/03
01/04
72
6. Génomique structurale
6.3. L'effort international premier bilan
  • Nouvelles approches technologiques ? haut débit
  • mise au point de méthodes automatiques
    (robotiques) pour tester la solubilité des
    protéines à crystalliser
  • mise au point de nouveaux systèmes d'expression
  • in vivo dans E. coli ou la levure Pichia
    pastoris pour les microorganismes
  • in vitro pour les eucaryotes complexes
    (Arabidopsis, homme, souris)
  • utilisation de la RMN pour une analyse directe
    de petites protéines sans purification
  • Premières structures
  • tous projets confondus, 117 structures ont été
    publiées après 18 mois d'effort
  • ce jeu de protéines contient statistiquement
    plus de nouveaux repliements qu'un jeu équivalent
    de protéines résolues par des groupes indépendants

73
PLAN DU COURS
Définition les différents génomes

Un immense pas en avant qui

Séquençage

Annotation
révolutionne la Biologie

Un nouveau champ dinvestigation avec de
nombreuses retombées
Génomique fonctionnelle

Transcriptome

Protéome
Étude globale dun organisme
Génomique structurale
Une nouvelle vision

Génomique comparative
du Monde Vivant
74
7. Génomique comparative
Dès que lon a disposé de plusieurs génomes
entièrement séquencés, on a eu envie de les
comparer démarche classique en Recherche
Fondamentale
synténie
Plasticité du

génome
Ilôts de

Organisation

pathogénicité
des gènes
transferts

Dynamique des génomes
horizontaux
Évolution

Évolution moléculaire
des protéines
Biochimie des

Arbre du vivant
organismes
Dernier ancêtre

commun universel
Systèmes dinformation
Voies métaboliques
75
7. Génomique comparative
  • Vue d'ensemble
  • comparaison des données issues du séquençage de
    génomes d'organismes variés peut se faire à
    différents niveaux
  • comparer les jeux de gènes (protéines) entre
    génomes ? informations sur la dynamique des
    génomes à courte et longue distance
  • comparer les gènes (protéines) homologues entre
    eux au niveau de leur séquence ? notion de gènes
    paralogues et orthologues
  • comparer la position des gènes et leur voisinage
    sur le chromosome
  • notion de synténie
  • notion de contexte génétique
  • Incidence
  • informations sur les relations fonctionnelles,
    le métabolisme, la physiologie d'organismes peu
    ou pas étudiés
  • mise en évidence de différents types de gènes
    informationnel, opérationnel
  • mise en évidence de phénomènes de transfert
    horizontal

76
7. Génomique comparative
Grands points abordés
Résultats éclairant les mécanismes évolutifs
sous-tendants
  • Les différents types de gènes
  • au niveau homologie
  • au niveau fonctionnel
  • Acquisition et perte de gènes
  • Duplication
  • Transfert horizontal
  • Dégradation en pseudogènes
  • Conservation de l'ordre des gènes
  • Mécanisme de rupture de la synténie
  • Contexte génétique déduction fonctionnelle
  • La régulation homéostatique du nombre de gènes
  • L'évolution des protéines
  • L'évolution des génomes
  • La topologie de l'Arbre du Vivant et la nature du
    dernier ancêtre commun universel

77
7. Génomique comparative
7.1. Les différents types de gènes homologues
espèce ancestrale
A
B
duplication interne
du gène B et


7.1.1. Modèle de Fitch
divergence des

deux copies
A
B1
B2
divergence par

spéciation
A
B1
B2
A
B1
B2
divergence par spéciation
A
B1
B2
A
B1
B2
A
B1
B2
A
B1
B2
espèce 1
espèce 2
espèce 3
espèce 4
Les homologues de A sont des
Les homologues de B1 et de B2 sont des
Gènes
Gènes

Orthologues
Paralogues
78
7. Génomique comparative
7.1. Les différents types de gènes homologues
7.1.2. Comparaison interspécifique (orthologues)
et intraspécifique (paralogues)
  • Recherche des relations de parentés entre les
    gènes appartenant à différents génomes
  • Deux types de comparaison menés en parallèle
    pour
  • constituer des familles de gènes homologues
  • identifier les gènes uniques à chaque génome

79
7. Génomique comparative
7.1. Les différents types de gènes
7.1.3. Comparaison au niveau fonctionnel
  • Résultat obtenu au cours de comparaisons
    intergénomiques
  • Mode d'évolution différent selon les trois
    Domaines du Vivant
  • Gènes opérationnels
  • métabolisme
  • transport actif
  • grandes fonctions cellulaires
  • secrétion
  • Gènes informationnels
  • réplication
  • recombinaison
  • transcription
  • traduction
  • Les gènes informationnels des archaea sont
    homologues de ceux des eucaryotes mais n'ont pas
    de parenté avec ceux des bactéries
  • Les gènes opérationnels s'échangent plus
    facilement par transfert horizontal

80
7. Génomique comparative
Grands points abordés
Résultats éclairant les mécanismes évolutifs
sous-tendants
  • Les différents types de gènes
  • au niveau homologie
  • au niveau fonctionnel
  • Acquisition et perte de gènes
  • Duplication
  • Transfert horizontal
  • Dégradation en pseudogènes
  • Conservation de l'ordre des gènes
  • Mécanisme de rupture de la synténie
  • Contexte génétique déduction fonctionnelle
  • La régu
Write a Comment
User Comments (0)
About PowerShow.com