Annotation de s

About This Presentation

Transcript and Presenter's Notes

Title: Annotation de s

1
Annotation de séquences génomiques gènes

Olivier Garsmeur
Gaétan Droc
Franc-Christophe Baurens
Dominique This
Stéphanie Sidibé-Bocs

2
Annotation des séquences génomiques
Une fois le séquençage et lassemblage du génome
dun organisme achevé, 2 principales questions
1) Où sont les gènes et comment sont-ils
distribués ? ? Distinguer gènes et éléments
transposables ? Annotation structurale 2)
Quelle est la fonction de ces gènes ? ?
Annotation fonctionnelle
3
Les gènes

? Ou sont les gènes?
? Les prédictions sont basées sur la
structure (motifs, signatures ) intron,
exon, splice site, UTR.

Gène prédit fonctionnel ? Structure
complète Codon initiateur M (ATG) Stop codon
TAA, TAG or TGA GT (GC) / AG splicing site Pas de
stop dans les exons prédits Pseudogene (non
fonctionnel) ? Structure NON complete missing_acc
eptor missing_donor missing_start_codon missing_st
op_codon multiple_stop_in_frame
Stop
ATG
GT
AG
CDS (CoDing Sequence)
Exon1
Exon2
Gene
4
Annotation automatique
Deux méthodes d'annotation automatique
1. Méthodes intrinsèques (ab-initio) 2. Méthodes
extrinsèques
5
1. Méthode intrinsèque d'annotation automatique

Basée uniquement sur des analyses informatiques
avec des modèles statistiques
Modèles probabilistes (Hidden Markov Models -
Modèles de chaîne de Markov cachées - HMM) pour
faire la distinction entre les régions codantes
et non-codantes du génome
- Besoin d'un set d'entraînement de gènes annotés
pour être efficace "apprentissage"

6
1. Méthode intrinsèque d'annotation automatique
brin direct
brin complémentaire
Lukashin Borodovsky, 1998
ensemble des transitions possibles entre états
cachés (cercles)
7
Outils d'annotation automatique des gènes
Exemples de logiciels de prédiction des gènes
Plantes GeneMark.HMM GeneFinder Eugene FgeneSH G
limmerA Augustus
Animaux Genie HMMgene MagPie GenID Grail
Humain Genescan GeneFinder GeneWise
8
2. Méthodes extrinsèques
Approche comparative basée sur les similarités de
séquences -gt la séquence à annoter est comparée
aux bases de données
3 types de comparaison
Protéine
ADNc
ADNg
ADNg
Alignement ADNg - Protéine
Alignement ADNg - ADNc
Alignement ADNg - ADNg
9
2. Méthodes extrinsèques
L'annotation fonctionnelle sera toujours déduite
des similarités (homologies) avec les éléments
prédits dans les bases de données
sequence (query) target (Subject) database
BLASTN nucleotide nucleotide NR , EST,
genomes BLASTX translated nucleotide protein
Swissprot-Trembl BLASTP protein protein
Swissprot-Trembl TBLASTX translated
nucleotide translated nucleotide NR , EST,
genomes TBLASTN protein translated
nucleotide NR , EST, genomes
10
2. Méthodes extrinsèques
Domaines protéiques conservés signatures
Bases de Données de signatures de domaines
protéiques qui peuvent être utilisées pour la
classification et l'annotation automatique des
protéines Interproscan classe les séquences en
superfamilles, familles et sous-familles prédit
l'occurrence des domaines fonctionnels et des
sites importants
BD de domaines utilisées par Interproscan
Prosite patterns Pfam ProDom Superfamily
TIGRFAMs GENE3D HAMAP PANTHER PIRSF
http//www.ebi.ac.uk/interpro/
11
Bases de donnéesoui, mais

Les bases séquences protéiques sont pour la
grande majorité uniquement le résultat de la
traduction in-silico de séquences nucléiques (pas
de certitude biologique)
exemple Trembl database traduction
automatique de NR database. (protéines
incomplètes, fragments).
? Swissprot contient un nombre moins important de
protéines que Trembl, mais les séquences sont
vérifiées manuellement par des bio-curateurs
Les séquences EST sont souvent de mauvaise
qualité (séquencage simple brin, erreurs)
Cluster dESTs disponibles, detection de
structures correspondant à des gènes
Les séquences de génomes complets sont très
utiles pour faire du transfert dannotation. Mais
seules les espèces proches (phylogénie) donnent
une annotation pertinente (divergence, évolution)

12
Eléments répétés
Les gènes ne représentent quune petite portion
du génome ? Les éléments répétés peuvent
représenter plus de 80 du génome
(blé) différents types
Classification from Wicker et al (2007). A
unified classification system for eukaryotic
transposable elements. Nat Rev Genet, 8,
973-982.
13
LTR-Retrotransposons, Ty1 (copia) Ty3 (gypsy)
Chez les plantes, les éléments répétés les plus
abondants (en terme de de couverture du génome)
sont les LTR retrotranposons
14
Masquer les séquences répétées

On peut filtrer les éléments répétés avant
l'annotation des gènes
les TEs peuvent être confondus avec des gènes
codant pour des protéines (transposases et
traces)
les TEs perturbent la structure des modèles de
gène, en s'insérant dans les introns par exemple
(longues insertions, le modèle de gène est coupé
fréquemment)
Mais ce nest pas une obligation, surtout si on
veut pouvoir décrire lensemble des éléments
dune région donnée
? Repeat masker est l'outil le plus utilisé
pour masquer les répétitions

http//www.repeatmasker.org/cgi-bin/WEBRepeatMaske
r
15
Annotation automatique
Annotation automatique pratique, mais à vérifier
manuellement !
Réalisée avec des programmes informatiques,
algorithmes statistiques
travail humain, donc
- le résultat est un équilibre entre faux
positifs et faux négatifs - le transfert peut
induire des erreurs ou des aberrations
- lent ! - également source d'erreur !
? Annoter manuellement les gènes dans les régions
d'intérêt ? Pour faciliter l'annotation
manuelle, utilisation de systèmes d'annotation
contrôlés et "universels" (chaînes de traitement
de prédictions automatiques, stockage des
annotations, interfaces web graphiques de
requête, d'exploration et de validation)
16
Méthode intégrative d'annotation automatique

Méthode intégrative ab-initio approches
comparatives
Prédictions ab-initio des gènes couplées aux
résultats de similarité avec les bases de données
pour améliorer significativement l'annotation
(les méthodes intrinsèques et extrinsèques se
complémentent)

17
Evaluation de la pertinence de lannotation
Exemple de lévaluation de lannotation sur des
séquences de clones BAC Medicago
VP (vrais positifs) gènes prédits, réellement
présents bonne prédiction FP (faux positifs)
gènes prédits, mais réellement non présents sur
prédiction FN (faux négatifs) gènes non prédits,
mais normalement présents sous prédiction VN
(vrais négatifs) gènes non prédits, et réellement
absents bonne prédiction
la pertinence est mesurée par le rapport
Sensibilité/spécificité Sn/Sp
Sensibilité
Spécificité
18
Combiner d'annotation automatique
http//eugene.toulouse.inra.fr/
19
Eugene fonctionnement
DNA sequence
FGenesH
Blastx
Genome Threader
SpliceMachine
Eugene HMM
STRUCTURAL
blastp tblastn Interproscan BBMH Greenphyl
FUNCTIONAL
20
EuGène fichier graphique de sortie
21
Annotation manuelle
exemple de logiciel d'annotation Artemis
transposon
gène (7 exons)
séquence nucléotidique
Eléments annotés
http//www.sanger.ac.uk/resources/software/artemis
/
22
Plateforme d'annotation GNPAnnot au CIRAD
Annotation automatique
Annotation manuelle
Annotateur intégration vérification croisement ana
lyse
http//southgreen.cirad.fr/
Dr Stéphanie Sidibe Bocs
23
Plateforme d'annotation GNPAnnot au CIRAD
http//www.gnpannot.org/
24
GBrowse outil de visualisation de l'annotation
nom et taille de la séquence
Espèce, plateforme d'annotation utilisée
séquence
Gènes annotés
25
GBrowse outil de visualisation de l'annotation
nom et taille de la séquence
Espèce, plateforme d'annotation utilisée
séquence
Eléments répétés annotés
26
A vous de jouer

Write a Comment

User Comments (0)

About PowerShow.com

Annotation de s PowerPoint PPT Presentation