Title: Annotation de s
1Annotation de séquences génomiques gènes
- Olivier Garsmeur
- Gaétan Droc
- Franc-Christophe Baurens
- Dominique This
- Stéphanie Sidibé-Bocs
2Annotation des séquences génomiques
Une fois le séquençage et lassemblage du génome
dun organisme achevé, 2 principales questions
1) Où sont les gènes et comment sont-ils
distribués ? ? Distinguer gènes et éléments
transposables ? Annotation structurale 2)
Quelle est la fonction de ces gènes ? ?
Annotation fonctionnelle
3Les gènes
- ? Ou sont les gènes?
- ? Les prédictions sont basées sur la
structure (motifs, signatures ) intron,
exon, splice site, UTR. -
-
Gène prédit fonctionnel ? Structure
complète Codon initiateur M (ATG) Stop codon
TAA, TAG or TGA GT (GC) / AG splicing site Pas de
stop dans les exons prédits Pseudogene (non
fonctionnel) ? Structure NON complete missing_acc
eptor missing_donor missing_start_codon missing_st
op_codon multiple_stop_in_frame
Stop
ATG
GT
AG
CDS (CoDing Sequence)
Exon1
Exon2
Gene
4Annotation automatique
Deux méthodes d'annotation automatique
1. Méthodes intrinsèques (ab-initio) 2. Méthodes
extrinsèques
51. Méthode intrinsèque d'annotation automatique
- Basée uniquement sur des analyses informatiques
avec des modèles statistiques - Modèles probabilistes (Hidden Markov Models -
Modèles de chaîne de Markov cachées - HMM) pour
faire la distinction entre les régions codantes
et non-codantes du génome - - Besoin d'un set d'entraînement de gènes annotés
pour être efficace "apprentissage"
61. Méthode intrinsèque d'annotation automatique
brin direct
brin complémentaire
Lukashin Borodovsky, 1998
ensemble des transitions possibles entre états
cachés (cercles)
7Outils d'annotation automatique des gènes
Exemples de logiciels de prédiction des gènes
Plantes GeneMark.HMM GeneFinder Eugene FgeneSH G
limmerA Augustus
Animaux Genie HMMgene MagPie GenID Grail
Humain Genescan GeneFinder GeneWise
82. Méthodes extrinsèques
Approche comparative basée sur les similarités de
séquences -gt la séquence à annoter est comparée
aux bases de données
3 types de comparaison
Protéine
ADNc
ADNg
ADNg
Alignement ADNg - Protéine
Alignement ADNg - ADNc
Alignement ADNg - ADNg
92. Méthodes extrinsèques
L'annotation fonctionnelle sera toujours déduite
des similarités (homologies) avec les éléments
prédits dans les bases de données
sequence (query) target (Subject) database
BLASTN nucleotide nucleotide NR , EST,
genomes BLASTX translated nucleotide protein
Swissprot-Trembl BLASTP protein protein
Swissprot-Trembl TBLASTX translated
nucleotide translated nucleotide NR , EST,
genomes TBLASTN protein translated
nucleotide NR , EST, genomes
102. Méthodes extrinsèques
Domaines protéiques conservés signatures
Bases de Données de signatures de domaines
protéiques qui peuvent être utilisées pour la
classification et l'annotation automatique des
protéines Interproscan classe les séquences en
superfamilles, familles et sous-familles prédit
l'occurrence des domaines fonctionnels et des
sites importants
BD de domaines utilisées par Interproscan
Prosite patterns Pfam ProDom Superfamily
TIGRFAMs GENE3D HAMAP PANTHER PIRSF
http//www.ebi.ac.uk/interpro/
11Bases de donnéesoui, mais
- Les bases séquences protéiques sont pour la
grande majorité uniquement le résultat de la
traduction in-silico de séquences nucléiques (pas
de certitude biologique) - exemple Trembl database traduction
automatique de NR database. (protéines
incomplètes, fragments). - ? Swissprot contient un nombre moins important de
protéines que Trembl, mais les séquences sont
vérifiées manuellement par des bio-curateurs - Les séquences EST sont souvent de mauvaise
qualité (séquencage simple brin, erreurs) - Cluster dESTs disponibles, detection de
structures correspondant à des gènes - Les séquences de génomes complets sont très
utiles pour faire du transfert dannotation. Mais
seules les espèces proches (phylogénie) donnent
une annotation pertinente (divergence, évolution)
12Eléments répétés
Les gènes ne représentent quune petite portion
du génome ? Les éléments répétés peuvent
représenter plus de 80 du génome
(blé) différents types
Classification from Wicker et al (2007). A
unified classification system for eukaryotic
transposable elements. Nat Rev Genet, 8,
973-982.
13LTR-Retrotransposons, Ty1 (copia) Ty3 (gypsy)
Chez les plantes, les éléments répétés les plus
abondants (en terme de de couverture du génome)
sont les LTR retrotranposons
14Masquer les séquences répétées
- On peut filtrer les éléments répétés avant
l'annotation des gènes - les TEs peuvent être confondus avec des gènes
codant pour des protéines (transposases et
traces) - les TEs perturbent la structure des modèles de
gène, en s'insérant dans les introns par exemple
(longues insertions, le modèle de gène est coupé
fréquemment) - Mais ce nest pas une obligation, surtout si on
veut pouvoir décrire lensemble des éléments
dune région donnée -
- ? Repeat masker est l'outil le plus utilisé
pour masquer les répétitions
http//www.repeatmasker.org/cgi-bin/WEBRepeatMaske
r
15Annotation automatique
Annotation automatique pratique, mais à vérifier
manuellement !
Réalisée avec des programmes informatiques,
algorithmes statistiques
travail humain, donc
- le résultat est un équilibre entre faux
positifs et faux négatifs - le transfert peut
induire des erreurs ou des aberrations
- lent ! - également source d'erreur !
? Annoter manuellement les gènes dans les régions
d'intérêt ? Pour faciliter l'annotation
manuelle, utilisation de systèmes d'annotation
contrôlés et "universels" (chaînes de traitement
de prédictions automatiques, stockage des
annotations, interfaces web graphiques de
requête, d'exploration et de validation)
16Méthode intégrative d'annotation automatique
- Méthode intégrative ab-initio approches
comparatives - Prédictions ab-initio des gènes couplées aux
résultats de similarité avec les bases de données
pour améliorer significativement l'annotation
(les méthodes intrinsèques et extrinsèques se
complémentent)
17Evaluation de la pertinence de lannotation
Exemple de lévaluation de lannotation sur des
séquences de clones BAC Medicago
VP (vrais positifs) gènes prédits, réellement
présents bonne prédiction FP (faux positifs)
gènes prédits, mais réellement non présents sur
prédiction FN (faux négatifs) gènes non prédits,
mais normalement présents sous prédiction VN
(vrais négatifs) gènes non prédits, et réellement
absents bonne prédiction
la pertinence est mesurée par le rapport
Sensibilité/spécificité Sn/Sp
Sensibilité
Spécificité
18Combiner d'annotation automatique
http//eugene.toulouse.inra.fr/
19Eugene fonctionnement
DNA sequence
FGenesH
Blastx
Genome Threader
SpliceMachine
Eugene HMM
STRUCTURAL
blastp tblastn Interproscan BBMH Greenphyl
FUNCTIONAL
20EuGène fichier graphique de sortie
21Annotation manuelle
exemple de logiciel d'annotation Artemis
transposon
gène (7 exons)
séquence nucléotidique
Eléments annotés
http//www.sanger.ac.uk/resources/software/artemis
/
22Plateforme d'annotation GNPAnnot au CIRAD
Annotation automatique
Annotation manuelle
Annotateur intégration vérification croisement ana
lyse
http//southgreen.cirad.fr/
Dr Stéphanie Sidibe Bocs
23Plateforme d'annotation GNPAnnot au CIRAD
http//www.gnpannot.org/
24GBrowse outil de visualisation de l'annotation
nom et taille de la séquence
Espèce, plateforme d'annotation utilisée
séquence
Gènes annotés
25GBrowse outil de visualisation de l'annotation
nom et taille de la séquence
Espèce, plateforme d'annotation utilisée
séquence
Eléments répétés annotés
26A vous de jouer