Annotation de s - PowerPoint PPT Presentation

About This Presentation
Title:

Annotation de s

Description:

Olivier Garsmeur Ga tan Droc Franc-Christophe Baurens Dominique This St phanie Sidib -Bocs Annotation de s quences g nomiques: g nes * Before to annotate the ... – PowerPoint PPT presentation

Number of Views:54
Avg rating:3.0/5.0
Slides: 27
Provided by: DTh87
Category:

less

Transcript and Presenter's Notes

Title: Annotation de s


1
Annotation de séquences génomiques gènes
  • Olivier Garsmeur
  • Gaétan Droc
  • Franc-Christophe Baurens
  • Dominique This
  • Stéphanie Sidibé-Bocs

2
Annotation des séquences génomiques
Une fois le séquençage et lassemblage du génome
dun organisme achevé, 2 principales questions
1) Où sont les gènes et comment sont-ils
distribués ? ? Distinguer gènes et éléments
transposables ? Annotation structurale 2)
Quelle est la fonction de ces gènes ? ?
Annotation fonctionnelle
3
Les gènes
  • ? Ou sont les gènes?
  • ? Les prédictions sont basées sur la
    structure (motifs, signatures ) intron,
    exon, splice site, UTR.

Gène prédit fonctionnel ? Structure
complète Codon initiateur M (ATG) Stop codon
TAA, TAG or TGA GT (GC) / AG splicing site Pas de
stop dans les exons prédits Pseudogene (non
fonctionnel) ? Structure NON complete missing_acc
eptor missing_donor missing_start_codon missing_st
op_codon multiple_stop_in_frame
Stop
ATG
GT
AG
CDS (CoDing Sequence)
Exon1
Exon2
Gene
4
Annotation automatique
Deux méthodes d'annotation automatique
1. Méthodes intrinsèques (ab-initio) 2. Méthodes
extrinsèques
5
1. Méthode intrinsèque d'annotation automatique
  • Basée uniquement sur des analyses informatiques
    avec des modèles statistiques
  • Modèles probabilistes (Hidden Markov Models -
    Modèles de chaîne de Markov cachées - HMM) pour
    faire la distinction entre les régions codantes
    et non-codantes du génome
  • - Besoin d'un set d'entraînement de gènes annotés
    pour être efficace "apprentissage"

6
1. Méthode intrinsèque d'annotation automatique
brin direct
brin complémentaire
Lukashin Borodovsky, 1998
ensemble des transitions possibles entre états
cachés (cercles)
7
Outils d'annotation automatique des gènes
Exemples de logiciels de prédiction des gènes
Plantes GeneMark.HMM GeneFinder Eugene FgeneSH G
limmerA Augustus
Animaux Genie HMMgene MagPie GenID Grail
Humain Genescan GeneFinder GeneWise
8
2. Méthodes extrinsèques
Approche comparative basée sur les similarités de
séquences -gt la séquence à annoter est comparée
aux bases de données
3 types de comparaison
Protéine
ADNc
ADNg
ADNg
Alignement ADNg - Protéine
Alignement ADNg - ADNc
Alignement ADNg - ADNg
9
2. Méthodes extrinsèques
L'annotation fonctionnelle sera toujours déduite
des similarités (homologies) avec les éléments
prédits dans les bases de données
sequence (query) target (Subject) database
BLASTN nucleotide nucleotide NR , EST,
genomes BLASTX translated nucleotide protein
Swissprot-Trembl BLASTP protein protein
Swissprot-Trembl TBLASTX translated
nucleotide translated nucleotide NR , EST,
genomes TBLASTN protein translated
nucleotide NR , EST, genomes
10
2. Méthodes extrinsèques
Domaines protéiques conservés signatures
Bases de Données de signatures de domaines
protéiques qui peuvent être utilisées pour la
classification et l'annotation automatique des
protéines Interproscan classe les séquences en
superfamilles, familles et sous-familles prédit
l'occurrence des domaines fonctionnels et des
sites importants
BD de domaines utilisées par Interproscan
Prosite patterns Pfam ProDom Superfamily
TIGRFAMs GENE3D HAMAP PANTHER PIRSF
http//www.ebi.ac.uk/interpro/
11
Bases de donnéesoui, mais
  • Les bases séquences protéiques sont pour la
    grande majorité uniquement le résultat de la
    traduction in-silico de séquences nucléiques (pas
    de certitude biologique)
  • exemple Trembl database traduction
    automatique de NR database. (protéines
    incomplètes, fragments).
  • ? Swissprot contient un nombre moins important de
    protéines que Trembl, mais les séquences sont
    vérifiées manuellement par des bio-curateurs
  • Les séquences EST sont souvent de mauvaise
    qualité (séquencage simple brin, erreurs)
  • Cluster dESTs disponibles, detection de
    structures correspondant à des gènes
  • Les séquences de génomes complets sont très
    utiles pour faire du transfert dannotation. Mais
    seules les espèces proches (phylogénie) donnent
    une annotation pertinente (divergence, évolution)

12
Eléments répétés
Les gènes ne représentent quune petite portion
du génome ? Les éléments répétés peuvent
représenter plus de 80 du génome
(blé) différents types
Classification from Wicker et al (2007). A
unified classification system for eukaryotic
transposable elements. Nat Rev Genet, 8,
973-982.
13
LTR-Retrotransposons, Ty1 (copia) Ty3 (gypsy)
Chez les plantes, les éléments répétés les plus
abondants (en terme de de couverture du génome)
sont les LTR retrotranposons
14
Masquer les séquences répétées
  • On peut filtrer les éléments répétés avant
    l'annotation des gènes
  • les TEs peuvent être confondus avec des gènes
    codant pour des protéines (transposases et
    traces)
  • les TEs perturbent la structure des modèles de
    gène, en s'insérant dans les introns par exemple
    (longues insertions, le modèle de gène est coupé
    fréquemment)
  • Mais ce nest pas une obligation, surtout si on
    veut pouvoir décrire lensemble des éléments
    dune région donnée
  • ? Repeat masker est l'outil le plus utilisé
    pour masquer les répétitions

http//www.repeatmasker.org/cgi-bin/WEBRepeatMaske
r
15
Annotation automatique
Annotation automatique pratique, mais à vérifier
manuellement !
Réalisée avec des programmes informatiques,
algorithmes statistiques
travail humain, donc
- le résultat est un équilibre entre faux
positifs et faux négatifs - le transfert peut
induire des erreurs ou des aberrations
- lent ! - également source d'erreur !
? Annoter manuellement les gènes dans les régions
d'intérêt ? Pour faciliter l'annotation
manuelle, utilisation de systèmes d'annotation
contrôlés et "universels" (chaînes de traitement
de prédictions automatiques, stockage des
annotations, interfaces web graphiques de
requête, d'exploration et de validation)
16
Méthode intégrative d'annotation automatique
  • Méthode intégrative ab-initio approches
    comparatives
  • Prédictions ab-initio des gènes couplées aux
    résultats de similarité avec les bases de données
    pour améliorer significativement l'annotation
    (les méthodes intrinsèques et extrinsèques se
    complémentent)

17
Evaluation de la pertinence de lannotation
Exemple de lévaluation de lannotation sur des
séquences de clones BAC Medicago
VP (vrais positifs) gènes prédits, réellement
présents bonne prédiction FP (faux positifs)
gènes prédits, mais réellement non présents sur
prédiction FN (faux négatifs) gènes non prédits,
mais normalement présents sous prédiction VN
(vrais négatifs) gènes non prédits, et réellement
absents bonne prédiction
la pertinence est mesurée par le rapport
Sensibilité/spécificité Sn/Sp
Sensibilité
Spécificité
18
Combiner d'annotation automatique
http//eugene.toulouse.inra.fr/
19
Eugene fonctionnement
DNA sequence
FGenesH
Blastx
Genome Threader
SpliceMachine
Eugene HMM
STRUCTURAL
blastp tblastn Interproscan BBMH Greenphyl
FUNCTIONAL
20
EuGène fichier graphique de sortie
21
Annotation manuelle
exemple de logiciel d'annotation Artemis
transposon
gène (7 exons)
séquence nucléotidique
Eléments annotés
http//www.sanger.ac.uk/resources/software/artemis
/
22
Plateforme d'annotation GNPAnnot au CIRAD
Annotation automatique
Annotation manuelle
Annotateur intégration vérification croisement ana
lyse
http//southgreen.cirad.fr/
Dr Stéphanie Sidibe Bocs
23
Plateforme d'annotation GNPAnnot au CIRAD
http//www.gnpannot.org/
24
GBrowse outil de visualisation de l'annotation
nom et taille de la séquence
Espèce, plateforme d'annotation utilisée
séquence
Gènes annotés
25
GBrowse outil de visualisation de l'annotation
nom et taille de la séquence
Espèce, plateforme d'annotation utilisée
séquence
Eléments répétés annotés
26
A vous de jouer
Write a Comment
User Comments (0)
About PowerShow.com