BIOINFORMATIQUE - PowerPoint PPT Presentation

About This Presentation
Title:

BIOINFORMATIQUE

Description:

BIOINFORMATIQUE La bioinformatique : stocker, analyser et visualiser pour d couvrir L exemple du s quen age d un g nome Les banques de donn es – PowerPoint PPT presentation

Number of Views:781
Avg rating:3.0/5.0
Slides: 147
Provided by: free2547
Category:

less

Transcript and Presenter's Notes

Title: BIOINFORMATIQUE


1
BIOINFORMATIQUE
  • La bioinformatique stocker, analyser et
    visualiser pour découvrir
  • Lexemple du séquençage dun génome
  • Les banques de données
  • Les banques de séquences nucléiques et protéiques
  • Les banques dalignements, de motifs et de sites
  • La recherche dans les banques de données
  • Analyser linformation
  • La comparaison de séquences
  • lalignement multiple
  • la phylogénie

2
I La bioinformatique stocker, analyser et
visualiser pour découvrir
  • Les progrès de la biotechnologie permettent aux
    chercheurs daccéder à la séquence de plus en
    plus de gènes ou même de génomes complets.
  • Chaque année, le nombre de nouvelles séquences
    double.
  • Des systèmes efficaces de stockage de
    linformation doivent être mis en œuvre.

3
I La bioinformatique stocker et analyser pour
découvrir
4
I La bioinformatique stocker et analyser pour
découvrir
  • La production de ces séquences se fait de plus en
    plus dans le cadre de séquençages de génomes
    complets ou de banques dEST (Expressed Sequence
    Tag)
  • LHomme (Homo sapiens)
  • La mouche du vinaigre (Drosophila melanogaster)
  • Un ver (Coenorhabditis elegans)
  • Une plante (Arabidopsis thaliana)
  • La levure (Saccharomyces cerevisiae)
  • Une bactérie lactique (Bacillus subtilis)

5
I La bioinformatique stocker et analyser pour
découvrir
  • Le séquençage des génomes est une tache complexe
    et gigantesque qui réclame la mise au point de
    logiciels capables dautomatiser la plupart des
    étapes
  • Exemple du séquençage dun génome complet
  • I Production dune banque BAC (Bacterial
    Artificial Chromosome)
  • II Ordonnancement des BAC
  • III Séquençage des BAC en  shot gun 
  • IV Assemblage des séquences de BAC en chromosome
  • V Annotation de la séquence du génome

6
Construction dune banque BAC
chromosome
7
Ordonnancement de la banque BAC
Plusieurs méthodes - séquençage des extrémités
-  fingerprinting 
8
Technique du  fingerprinting 
Analyse du profil de restriction des BAC
BAC 1
BAC 2
9
Ordonnancement de la banque BAC
Plusieurs méthodes - séquençage des extrémités
-  fingerprinting 
3
1
6
5
4
2
10
Séquençage  shot gun 
1
Amorces PCR aléatoires
11
Lecture et nettoyage des séquences
PHRED lecture des chromatogrammes élimination des
bases de mauvaise qualité élimination des
séquences contaminantes (BAC)
12
Les difficultés de lassemblage
Présence de séquences répétées
13
annotations prédiction de gènes intelligence
artificielle (Eugène,) prédiction de la fonction
des gènes comparaison de séquences (BLAST)
14
I La bioinformatique stocker et analyser pour
découvrir
  • La bioinformatique a pour objet de mettre en
    œuvre les moyens informatiques (bases de données,
    algorithmes) utiles au stockage et à lanalyse
    des données biologiques

15
I La bioinformatique stocker et analyser pour
découvrir
gaaa gaaactcgaa aacgagaaaa aaccatggcg
aagtctgacg ctctcttgcc aatctccgcc agagaagaag
atcctctatt atccgacggg tcaagatccg
acccaaatgc cgaaacccat ggccgtagaa gacccgtgaa
aggtctcctc gccgtctcat ttgggctttt ctttatcgcc
ttctacgtcg ctctcatcgc cacacacgac ggatctagat
ccaacgacgt taagatcgaa agcgatggaa cagcgaccaa
agcgtcacgt gcccatctcg ccggcgtctc ggagaaaagc
aatgatcagt tgtggaagct ttccggtgac aggaatacgg
tggcgttctc atggaa
cgaa tccgaatgca gatggacagt agacattgca
gatacccaga ttagacaggg tgtaagcgat ggaaatgaac
agattgacag tagacaggat aacaagatac
cagctcgata Cagataccgc tagacataga caccatgcag
atgttcatta gataccagat agggacagat Gacagataga
ggacatagcg ctgcgtacac agatactcgg ataggacata
tatagacaga Cagatataga ctcagataga cgctcgacat
cgctagacag ctctcgccgt gcatagacca Gatgacagat
ggcgtgcgtc gtagtactgc atcgtcatcg aatgccggta
ttcgatcgaa Cgtgca
Lune de ses séquences est artificielle. Laquelle
?
16
I La bioinformatique stocker et analyser pour
découvrir
  • La composition des génomes
  • Le rapport (GC)/(AT) ou le pourcentage de GC
  • Escherichia coli 51
  • Plasmodium falciparum 18
  • Thermus thermophilus 68
  • Vertébrés 40-45 (et présence disochores)
  • Le pourcentage de GC varie entre 15 et 75 .
  • Lorigine de ces variations est encore mal
    comprise.

17
I La bioinformatique stocker et analyser pour
découvrir
  • La composition des protéines
  • Relativement constante a travers le vivant.

Alanine (A) 83 Cysteine (C) 17
Méthionine (M) 24 Asparagine (N) 44
Proline (P) 51 Aspartate (D) 53
Glutamate (E) 62 Glutamine (Q) 40
Phénylalanine (F) 39 Arginine (R) 57
Glycine (G) 72 Sérine (S) 69
Histidine (H) 22 Thréonine (T) 58
Isoleucine (I) 52 Valine (V) 66
Lysine (K) 57 Tryptophane (W) 13
Leucine (L) 90 Tyrosine (Y) 32
Cette distribution moyenne peut être considérée
comme une signature
18
I La bioinformatique stocker et analyser pour
découvrir
  • Etude des fréquences n-uplets
  • Comparaison de la fréquence dapparition dun
    n-uplet fB1B2Bn au produit des fréquences
    dapparition des bases individuelles fB1.fB2.fBn
  • Si fB1B2Bn gt fB1.fB2.fBn le n-uplet est
    sur-représenté
  • Si fB1B2Bn lt fB1.fB2.fBn le n-uplet est
    sous-représenté
  • Exemple
  • Chez E. coli, f CTAG 3,6 10-4 ltlt fCfTfAfG 3,9
    10-3
  • Les palindromes sont en général sous-représentés
    dans les génomes bactériens, les palindromes sont
    souvent des sites de restriction.
  • Chez les vertébrés, le dinucléotide GC est rare.
    Il sagit dun signal de méthylation de la
    cytosine. La 5-méthyl-cytosine peut ensuite être
    transformée en T. Ainsi CG se raréfie au profit
    de TG.

19
I La bioinformatique stocker et analyser pour
découvrir
  • Un n-uplet particulier le codon
  • La distribution des codons doit suivre celle des
    acides aminés qui leurs correspondent dans les
    protéines ainsi
  • fW fTGG
  • Etude de lusage des codons synonymes
  • Il existe donc des codons privilégiés. Ces codons
    ne sont pas les mêmes dune espèce à lautre.

lysine E. Coli H. Sapiens
AAA 60 38
AAG 40 62
20
I La bioinformatique stocker et analyser pour
découvrir
  • En étudiant un grand nombre de gènes on peut
    construire, pour lorganisme auquel ces gènes
    appartiennent une table dusage des codons.
  • Cette table diffère de celles construites pour
    dautre organismes, mais on observe une
    conservation évolutive des espèces proches
    possèdent des tables dusage des codons proches.

21
I La bioinformatique stocker et analyser pour
découvrir
  • Un n-uplet particulier le codon

Homo sapiens gbpri 50031 CDS's (21930294
codons) -----------------------------------------
--------------------------------------- fields
triplet amino acid fraction frequency per
thousand (number) ----------------------------
--------------------------------------------------
-- UUU F 0.46 17.1 (374332) UCU S 0.18 14.7
(323470) UAU Y 0.44 12.1 (264652) UGU C 0.45
10.1 (221863) UUC F 0.54 20.4 (448127) UCC S
0.22 17.5 (384476) UAC Y 0.56 15.5 (339473) UGC
C 0.55 12.4 (271056) UUA L 0.07 7.3 (160731)
UCA S 0.15 11.9 (260418) UAA 0.28 0.8 (
16884) UGA 0.50 1.4 ( 30111) UUG L 0.13 12.7
(277774) UCG S 0.06 4.5 ( 98166) UAG 0.22
0.6 ( 12911) UGG W 1.00 13.0 (284246) CUU L
0.13 12.9 (283480) CCU P 0.28 17.3 (380219) CAU
H 0.41 10.6 (231860) CGU R 0.08 4.7
(102673) CUC L 0.20 19.5 (428574) CCC P 0.33
20.0 (439256) CAC H 0.59 15.0 (329569) CGC R
0.19 10.8 (236986) CUA L 0.07 7.0 (153837) CCA
P 0.27 16.7 (367297) CAA Q 0.26 11.9 (261063)
CGA R 0.11 6.3 (138297) CUG L 0.40 40.1 (880072)
CCG P 0.11 7.0 (154028) CAG Q 0.74 34.4
(755209) CGG R 0.21 11.8 (257761) AUU I 0.36
15.8 (346233) ACU T 0.24 12.9 (283671) AAU N
0.46 16.7 (365457) AGU S 0.15 12.0 (263279) AUC
I 0.48 21.3 (466577) ACC T 0.36 19.1 (419213)
AAC N 0.54 19.3 (422697) AGC S 0.24 19.4
(424788) AUA I 0.16 7.2 (157385) ACA T 0.28
14.9 (325763) AAA K 0.42 24.0 (526117) AGA R
0.21 11.7 (255681) AUG M 1.00 22.3 (489160) ACG
T 0.12 6.2 (135294) AAG K 0.58 32.5 (713826)
AGG R 0.20 11.6 (254743) GUU V 0.18 10.9
(239795) GCU A 0.26 18.6 (408931) GAU D 0.46
22.1 (484271) GGU G 0.16 10.8 (237026) GUC V
0.24 14.6 (320190) GCC A 0.40 28.4 (622538) GAC
D 0.54 25.7 (563848) GGC G 0.34 22.6
(495700) GUA V 0.11 7.0 (154102) GCA A 0.23
16.0 (350382) GAA E 0.42 29.0 (634985) GGA G
0.25 16.4 (358824) GUG V 0.47 28.7 (630151) GCG
A 0.11 7.6 (165700) GAG E 0.58 40.3 (884368)
GGG G 0.25 16.4 (360728) -----------------------
--------------------------------------------------
------- Coding GC 52.58 1st letter GC 56.14 2nd
letter GC 42.46 3rd letter GC 59.13 Genetic
code 1 Standard
22
I La bioinformatique stocker et analyser pour
découvrir
H.sapiens UGG W 1.00 13.0 A thaliana UGG W 1.00
12.5 T aquaticus UGG W 1.00 11.6
H. sapiens GGU G 0.16 10.8 GGC G 0.34 22.6 GGA G
0.25 16.4 GGG G 0.25 16.4
A. thaliana GGU G 0.34 22.4 GGC G 0.14 9.1 GGA G
0.37 24.2 GGG G 0.15 10.2
T. Aquaticus GGU G 0.04 3.6 GGC G 0.48 41.2 GGA
G 0.06 5.3 GGG G 0.42 36.4
23
I La bioinformatique stocker et analyser pour
découvrir
  • Effet de la composition en base du génome sur
    lusage des codons
  • Les organismes riches en GC auront une préférence
    significative pour les codons possédant un G ou
    un C comme troisième base.
  • Cest linverse pour les organismes riches en AT
  • Pour les autres organismes, le choix de la
    troisième base reste fortement biaisé.

24
I La bioinformatique stocker et analyser pour
découvrir
  • Leffet de contexte
  • Si deux codons synonymes ont un usage proche,
    alors le choix peut être influencé par le
    contexte, cest à dire par les nucléotides
    présents immédiatement en amont ou en aval du
    codon.
  • Exemple Chez E. coli, pour la lysine, on trouve
    plus fréquemment AAA lorsque le codon suivant
    commence par G et AAG est préféré si un C est le
    nucléotide en aval.

25
I La bioinformatique stocker et analyser pour
découvrir
  • Lusage des codons et lexpression des gènes.
  • Chez la levure (Saccharomyces cerevisiae) et E.
    coli, la fréquence dusage des codons est
    directement proportionnelle à la concentration
    cellulaire de lARNt correspondant.
  • Il sagit dune adaptation qui permet dajuster
    la quantité dARNt aux besoins de la machinerie
    de biosynthèse protéique.
  • Les gènes le plus exprimés sont ceux qui
    utilisent le plus de codons privilégiés.
  • Lutilisation de codons rares permet dintroduire
    des poses dans la traduction.

26
I La bioinformatique stocker et analyser pour
découvrir
  • Ces résultats statistiques peuvent permettre
    danalyser les nouvelles séquences pour
    rechercher les phases codantes, les limites
    intron/exon, les erreurs de séquençage.
  • Tous ces éléments combinés permettent de prédire
    la position de gènes.
  • Cest lannotation structurale.
  • Prediction des zones introniques et exoniques au
    moyen de méthodes statistiques.
  • Recherche des motifs accepteurs et donneurs
    dépissage
  • Combinaison des deux infos précédentes pour
    prédire précisément les limites des introns/exons
  • Assemblage des exons prédits et confrontation
    avec les banques dEST de lorganisme considéré
  • Si échec, confronter les protéines prédites aux
    protéines existantes dans les bases de données
    (pour dautres organismes)
  • Il existe des logiciels qui combinent toutes ces
    approches tel GenScan qui a été utilisé lors du
    séquençage du génome humain

27
II Les banques de données
  • Lensemble des séquences nucléiques ou protéiques
    connues sont regroupées dans des banques de
    données
  • GENBANK au NCBI (National Centre for
    Biotechnology Information, USA)
  • EMBL à lEBI (European Molecular Biology
    Laboratory, European Bioinformatics Institute,
    UK)
  • DDBJ au Japon (DNA Data Bank of Japan)
  • Certaines banques ne contiennent que des
    séquences protéiques
  • UNIPROT (Swissprot) à lISB/EBI (Institut Suisse
    de bioinformatique)
  • PIR , Georgetown University, USA (Protein
    Information Resource)

28
II Les banques de données
  • II.1 Lorganisation de linformation
  • Banque de données linformation est stockée
    sous la forme dune collection de fichiers
    structurés. Une séquence correspond à un fichier.
  • Base de données linformation est stockée dans
    les champs dun SGBD (Système de Gestion de Base
    de Données). Un langage particulier permet de
    formuler des requêtes pour interroger la base
    (SQL, Structured Query Langage)

29
II Les banques de données
  • II.2 Les banques de séquences nucléiques
  • GENBANK, EMBL et DDBJ sont associées et diffusent
    les mêmes informations, mais sous des formats
    légèrement différents.
  • Ces banques sont toutes accessibles via Internet
    à quiconque et sans restriction
  • Elles gèrent les plus de 10 millions de séquences
    connues à ce jour, quel que soit leur organisme
    dorigine

30
II Les banques de données
  • II.2.a GENBANK http//www.ncbi.nlm.nih.gov/
  • Les séquences sont pour une large part obtenues
    par soumission directe des chercheurs ou via les
    grands programmes de séquençage.
  • Pour simplifier les recherches des utilisateurs,
    Genbank, EMBL et DDBJ séchangent régulièrement
    leurs données de sorte que les trois banques
    disposent en permanence des mêmes séquences
  • Par commodité les séquences sont classées en
    divisions selon leur type (EST, séquençage
    massif,) ou leur organisme dorigine. Il existe
    une vingtaine de ces divisions

31
II Les banques de données II.2.a GENBANK
DIVISIONS Utilisées par
quelles banques ? BCT Bacteries DDBJ,
GenBank PRO Procaryotes EMBL FUN Champignons EM
BL HUM Humain DDBJ, EMBL PRI Primates DDBJ,
EMBL, GenBank ROD Rongeurs DDBJ, EMBL,
GenBank MAM Autre mammifères DDBJ, EMBL,
GenBank VRT Autres vertébrés DDBJ, EMBL,
GenBank INV Invertébrés DDBJ, EMBL, GenBank PLN
Plantes DDBJ, EMBL, GenBank ORG
Organelles EMBL VRL Virus DDBJ, EMBL,
GenBank PHG Phages DDBJ, EMBL, GenBank RNA ARN
de tructure DDBJ, EMBL, GenBank SYN
Synthétiques et chimériques DDBJ, EMBL,
GenBank UNA Non annotées DDBJ, GenBank UNC Non
classifiées EMBL
32
II Les banques de données II.2.a GENBANK
  Divisions fonctionnelles Utilisées par
quelles banques ? EST Expressed sequence
tags DDBJ, EMBL, GenBank STS Sequence tagged
sites DDBJ, EMBL, GenBank GSS Genome survey
sequences DDBJ, EMBL, GenBank HTG High
throughput genomic sequences DDBJ, EMBL,
GenBank PAT Patent sequences DDBJ, EMBL,
GenBank CON Virtual contigs of segmented
sequences DDBJ, EMBL, GenBank  
33
II Les banques de données II.2.a GENBANK
  • Chaque séquence possède une  entrée  qui
    rassemble toute linformation la concernant.
    Cette information peut-être visualisée sous forme
    dune  fiche 
  • Exemple lARNm de linvertase acide de Brassica
    oleracea

34
II Les banques de données II.2.a GENBANK
LOCUS AF274299 2251 bp mRNA
PLN 26-NOV-2001 DEFINITION Brassica
oleracea clone BoINV2 acid invertase mRNA,
complete cds. ACCESSION AF274299 VERSION
AF274299.1 GI11527242 KEYWORDS . SOURCE
Brassica oleracea. ORGANISM Brassica oleracea
Eukaryota Viridiplantae
Streptophyta Embryophyta Tracheophyta
Spermatophyta Magnoliophyta eudicotyledons
core eudicots Rosidae eurosids II
Brassicales Brassicaceae Brassica. REFERENCE
1 (bases 1 to 2251) AUTHORS Coupe,S.A.,
Sinclair,B.K., Greer,L. and Hurst,P.L. TITLE
Characterization of acid invertase gene
expression during senescence of
broccoli (Brassica oleracea) florets JOURNAL
Unpublished REFERENCE 2 (bases 1 to 2251)
AUTHORS Coupe,S.A. TITLE Direct
Submission JOURNAL Submitted (02-JUN-2000)
Crop and Food Research, Private Bag 11 600,
Palmerston North, Manawatu 5301, New Zealand
35
II Les banques de données II.2.a GENBANK
Nom de la séquence
taille
molécule
division
LOCUS AF274299 2251 bp mRNA
PLN 26-NOV-2001 DEFINITION Brassica
oleracea clone BoINV2 acid invertase mRNA,
complete cds. ACCESSION AF274299 VERSION
AF274299.1 GI11527242 KEYWORDS . SOURCE
Brassica oleracea. ORGANISM Brassica oleracea
Eukaryota Viridiplantae
Streptophyta Embryophyta Tracheophyta
Spermatophyta Magnoliophyta eudicotyledons
core eudicots Rosidae eurosids II
Brassicales Brassicaceae Brassica. REFERENCE
1 (bases 1 to 2251) AUTHORS Coupe,S.A.,
Sinclair,B.K., Greer,L. and Hurst,P.L. TITLE
Characterization of acid invertase gene
expression during senescence of
broccoli (Brassica oleracea) florets JOURNAL
Unpublished REFERENCE 2 (bases 1 to 2251)
AUTHORS Coupe,S.A. TITLE Direct
Submission JOURNAL Submitted (02-JUN-2000)
Crop and Food Research, Private Bag 11 600,
Palmerston North, Manawatu 5301, New Zealand
36
II Les banques de données II.2.a GENBANK
37
II Les banques de données II.2.a GENBANK
38
II Les banques de données II.2.a GENBANK
39
II Les banques de données II.2.a GENBANK
40
II Les banques de données II.2.a GENBANK
41
II Les banques de données II.2.a GENBANK
LOCUS AF274299 2251 bp mRNA
PLN 26-NOV-2001 DEFINITION Brassica
oleracea clone BoINV2 acid invertase mRNA,
complete cds. ACCESSION AF274299 VERSION
AF274299.1 GI11527242 KEYWORDS . SOURCE
Brassica oleracea. ORGANISM Brassica oleracea
Eukaryota Viridiplantae
Streptophyta Embryophyta Tracheophyta
Spermatophyta Magnoliophyta eudicotyledons
core eudicots Rosidae eurosids II
Brassicales Brassicaceae Brassica. REFERENCE
1 (bases 1 to 2251) AUTHORS Coupe,S.A.,
Sinclair,B.K., Greer,L. and Hurst,P.L. TITLE
Characterization of acid invertase gene
expression during senescence of
broccoli (Brassica oleracea) florets JOURNAL
Unpublished REFERENCE 2 (bases 1 to 2251)
AUTHORS Coupe,S.A. TITLE Direct
Submission JOURNAL Submitted (02-JUN-2000)
Crop and Food Research, Private Bag 11 600,
Palmerston North, Manawatu 5301, New Zealand
42
II Les banques de données II.2.a GENBANK
LOCUS AF274299 2251 bp mRNA
PLN 26-NOV-2001 DEFINITION Brassica
oleracea clone BoINV2 acid invertase mRNA,
complete cds. ACCESSION AF274299 VERSION
AF274299.1 GI11527242 KEYWORDS . SOURCE
Brassica oleracea. ORGANISM Brassica oleracea
Eukaryota Viridiplantae
Streptophyta Embryophyta Tracheophyta
Spermatophyta Magnoliophyta eudicotyledons
core eudicots Rosidae eurosids II
Brassicales Brassicaceae Brassica. REFERENCE
1 (bases 1 to 2251) AUTHORS Coupe,S.A.,
Sinclair,B.K., Greer,L. and Hurst,P.L. TITLE
Characterization of acid invertase gene
expression during senescence of
broccoli (Brassica oleracea) florets JOURNAL
Unpublished REFERENCE 2 (bases 1 to 2251)
AUTHORS Coupe,S.A. TITLE Direct
Submission JOURNAL Submitted (02-JUN-2000)
Crop and Food Research, Private Bag 11 600,
Palmerston North, Manawatu 5301, New Zealand
43
FEATURES Location/Qualifiers
source 1..2251
/organism"Brassica oleracea"
/cultivar"Shogun"
/db_xref"taxon3712"
/clone"BoINV2" CDS 35..2023
/EC_number"3.2.1.26"
/function"cleaves sucrose into glucose
and fructose at acid pH optima"
/note"sucrose hydrolysing enzyme
beta-fructofuranosidase"
/codon_start1
/product"acid invertase"
/protein_id"AAG36943.1"
/db_xref"GI11527243"
/translation"MAKSDALLPISAREEDPLLSDGSRSDPNAETHGRRR
PVKGLLAV SFGLFFIAFYVALIATHDGS
RSNDVKIESDGTATKASRAHLAGVSEKSNDQLWKLSGD
RNTVAFSWNNSMLSWQRTAFHFQPEQNWMNDPNGPLFYKG
WYHFFYQYNPNAAVWGDI
VWGHAVSKDLIHWVHLPLAMAADQWYDANGVWTGSATFLEDGSIVMLYTG
STDKSVQV QNLAYPEDLNDPLLLKWVKF
PGNPVLVPPPGILPKDFRDPTTAWKTSAGKWRITIGSK
INRTGISLVYDTTDFKTYEKLETLLHKVPNTGMWECVDFY
PVSKTLVKGLDTSVNGPD
VKHIVKASMDDTRIDHYAIGTYFDSNGTWTPDDPTIDVGISTSLRYDYGK
FYASKTFY DQNKGRRILWGWIGESDSES
ADVQKGWSSLQGIPRTVVLDTKTGKNLVQWPVEEVKSL
RLSSKKFDMEVGPGSLVHIDVGSAAQLDIEAEFEIKKESL
EKILGDASAAAEAEEFSC
QKSGGSTVRGALGPFGFSVLAHESLSEKTPVYFYVAKGKDSKLITFFCTD
SSRSSFAN DVVKPIYGSSVPVLKGEKLT
MRILVDHSIVEAFGQGGRTCITSRVYPTKAIYGAAKLF
LFNNAIDATITASFKVWQMNSAFIQPYSEEAVRALSRT"
44
FEATURES Location/Qualifiers
source 1..2251
/organism"Brassica oleracea"
/cultivar"Shogun"
/db_xref"taxon3712"
/clone"BoINV2" CDS 35..2023
/EC_number"3.2.1.26"
/function"cleaves sucrose into glucose
and fructose at acid pH optima"
/note"sucrose hydrolysing enzyme
beta-fructofuranosidase"
/codon_start1
/product"acid invertase"
/protein_id"AAG36943.1"
/db_xref"GI11527243"
/translation"MAKSDALLPISAREEDPLLSDGSRSDPNAETHGRRR
PVKGLLAV SFGLFFIAFYVALIATHDGS
RSNDVKIESDGTATKASRAHLAGVSEKSNDQLWKLSGD
RNTVAFSWNNSMLSWQRTAFHFQPEQNWMNDPNGPLFYKG
WYHFFYQYNPNAAVWGDI
VWGHAVSKDLIHWVHLPLAMAADQWYDANGVWTGSATFLEDGSIVMLYTG
STDKSVQV QNLAYPEDLNDPLLLKWVKF
PGNPVLVPPPGILPKDFRDPTTAWKTSAGKWRITIGSK
INRTGISLVYDTTDFKTYEKLETLLHKVPNTGMWECVDFY
PVSKTLVKGLDTSVNGPD
VKHIVKASMDDTRIDHYAIGTYFDSNGTWTPDDPTIDVGISTSLRYDYGK
FYASKTFY DQNKGRRILWGWIGESDSES
ADVQKGWSSLQGIPRTVVLDTKTGKNLVQWPVEEVKSL
RLSSKKFDMEVGPGSLVHIDVGSAAQLDIEAEFEIKKESL
EKILGDASAAAEAEEFSC
QKSGGSTVRGALGPFGFSVLAHESLSEKTPVYFYVAKGKDSKLITFFCTD
SSRSSFAN DVVKPIYGSSVPVLKGEKLT
MRILVDHSIVEAFGQGGRTCITSRVYPTKAIYGAAKLF
LFNNAIDATITASFKVWQMNSAFIQPYSEEAVRALSRT"
Table des  features  Mis en place par
GenBank, EMBL et DDBJ Contient des informations
sur les gènes et leurs produits ainsi que sur
les régions dintérêt biologique des
séquences. On y trouve aussi des informations
sur les différences entre les versions dune
même séquence. Des liens sur dautres bases ou
banques de données peuvent également être
présents. Chaque clé répond à une nomenclature.
45
FEATURES Location/Qualifiers
source 1..2251
/organism"Brassica oleracea"
/cultivar"Shogun"
/db_xref"taxon3712"
/clone"BoINV2" CDS 35..2023
/EC_number"3.2.1.26"
/function"cleaves sucrose into glucose
and fructose at acid pH optima"
/note"sucrose hydrolysing enzyme
beta-fructofuranosidase"
/codon_start1
/product"acid invertase"
/protein_id"AAG36943.1"
/db_xref"GI11527243"
/translation"MAKSDALLPISAREEDPLLSDGSRSDPNAETHGRRR
PVKGLLAV SFGLFFIAFYVALIATHDGS
RSNDVKIESDGTATKASRAHLAGVSEKSNDQLWKLSGD
RNTVAFSWNNSMLSWQRTAFHFQPEQNWMNDPNGPLFYKG
WYHFFYQYNPNAAVWGDI
VWGHAVSKDLIHWVHLPLAMAADQWYDANGVWTGSATFLEDGSIVMLYTG
STDKSVQV QNLAYPEDLNDPLLLKWVKF
PGNPVLVPPPGILPKDFRDPTTAWKTSAGKWRITIGSK
INRTGISLVYDTTDFKTYEKLETLLHKVPNTGMWECVDFY
PVSKTLVKGLDTSVNGPD
VKHIVKASMDDTRIDHYAIGTYFDSNGTWTPDDPTIDVGISTSLRYDYGK
FYASKTFY DQNKGRRILWGWIGESDSES
ADVQKGWSSLQGIPRTVVLDTKTGKNLVQWPVEEVKSL
RLSSKKFDMEVGPGSLVHIDVGSAAQLDIEAEFEIKKESL
EKILGDASAAAEAEEFSC
QKSGGSTVRGALGPFGFSVLAHESLSEKTPVYFYVAKGKDSKLITFFCTD
SSRSSFAN DVVKPIYGSSVPVLKGEKLT
MRILVDHSIVEAFGQGGRTCITSRVYPTKAIYGAAKLF
LFNNAIDATITASFKVWQMNSAFIQPYSEEAVRALSRT"
Lien vers la base Taxon du NCBI
Lien vers la base Enzyme
Lien vers la fiche de la protéine dans Genbank
46
II Les banques de données II.2.a GENBANK
BASE COUNT 632 a 489 c 532 g 598
t ORIGIN 1 caaaaagaaa gaaactcgaa
aacgagaaaa aaccatggcg aagtctgacg ctctcttgcc
61 aatctccgcc agagaagaag atcctctatt atccgacggg
tcaagatccg acccaaatgc 121 cgaaacccat
ggccgtagaa gacccgtgaa aggtctcctc gccgtctcat
ttgggctttt 181 ctttatcgcc ttctacgtcg
ctctcatcgc cacacacgac ggatctagat ccaacgacgt
241 taagatcgaa agcgatggaa cagcgaccaa agcgtcacgt
gcccatctcg ccggcgtctc 301 ggagaaaagc
aatgatcagt tgtggaagct ttccggtgac aggaatacgg
tggcgttctc 361 atggaacaac agtatgttgt
cgtggcaacg aacggcgttt catttccaac ctgaacagaa
421 ctggatgaac gatcctaatg gtccattgtt ctacaaagga
tggtaccatt tcttctacca 481 gtacaaccca
aacgcagcag tatggggtga cattgtttgg ggtcatgccg
tgtctaagga /../ 1861 aagggtatat
ccaacaaagg ccatctatgg agcagcgaag cttttcttgt
tcaacaatgc 1921 cattgatgcg actattacgg
catcgtttaa ggtgtggcag atgaacagtg cttttattca
1981 gccttactct gaggaggctg ttcgtgctct ctcccgcaca
tgattataca cccatctcca 2041 gcaaattctt
tttttttttt ttttgtagat ttacttatta aaacttataa
atatcgttct 2101 gttattcttc caatttagct
cgttcaatta ttctattggg gttcaatttg attcatcata
2161 tgtaagaaaa atgggttact tgagaaattt tttttctcat
tatctttaat aaaattttgg 2221 tgaaaaaaaa
aaaaaaaaaa aaaaaaaaaa a //
47
II Les banques de données II.2.a GENBANK
Contenu de Genbank
48
II Les banques de données II.2.b Visualisation
des séquences nucléiques
  • EMBL et DDBJ stockent les même séquences sous un
    format très similaire
  • Devant la complexité croissante des fiches et
    notamment avec larrivée des tables de
     features , de nouveaux outils ont été
    développés pour visualiser ces fiches.
  • ARTEMIS est lun dentre-eux
  • Développé en langage JAVA (multiplateforme)
  • Logiciel libre (gratuit)
  • Visualise toute fiche GenBank/EMBL
  • Permet déditer ces fiches et de créer de
    nouvelles annotations

49
(No Transcript)
50
II Les banques de données
  • II.3 Les banques de séquences protéiques
  • PIR / NRL-3D
  • PIR
  • littérature, soumissions, traductions de Genbank,
    EMBL et DDBJ
  • annotations automatiques, classification en
    familles (50 didentité), superfamilles,
    domaines
  • annotations bibliographiques et vérifications
    (PIR1 et PIR2). 170 000 entrées classifiées mais
    dannotation pauvre
  • NRL-3D
  • séquences et annotations issues de la PDB. 23 000
    entrées

51
II Les banques de données II.3 Les banques de
séquences protéiques
  • II.3.a SWISS-PROT / TREMBL
  • SWISS-PROT
  • Origine des séquences littérature, soumissions
  • Annotations manuelles (littérature, experts) 100
    000 entrées (10/01)
  • TREMBL
  • Traduction des CDS de EMBL par le programme
    trembl
  • ORF (Open Reading Frame) Phase ouverte de
    lecture séquence nucléique comprise entre deux
    codons stop
  • CDS (coding sequence) sequence nucléique
    codant pour une protéine. Elle est contenue dans
    une phase ouverte de lecture et débute par un
    codon start.
  • Annotations automatiques SP-TREMBL 300 192
    entrées
  • Après expertise les fiches TREMBL validée sont
    transférées dans SWISS-PROT

52
II.3.a SWISS-PROT / TREMBL
ID line toujours la première ligne, elle
contient le nom de la séquence au format X_Y X
nom de la protéine ( mnémonique de 4 lettres) Y
code espèce (5 lettres genre (3) espèce (2))
Classe Standard/preliminary
taille
ID HXK1_ARATH STANDARD PRT 496
AA. AC Q42525 Q42535 DT 01-NOV-1997 (Rel.
35, Created) DT 16-OCT-2001 (Rel. 40, Last
sequence update) DT 16-OCT-2001 (Rel. 40, Last
annotation update) DE Hexokinase 1 (EC
2.7.1.1). GN HXK1 OR AT4G29130 OR
F19B15.160. OS Arabidopsis thaliana (Mouse-ear
cress). OC Eukaryota Viridiplantae
Streptophyta Embryophyta Tracheophyta OC
Spermatophyta Magnoliophyta eudicotyledons
core eudicots Rosidae OC eurosids II
Brassicales Brassicaceae Arabidopsis. OX
NCBI_TaxID3702
53
II.3.a SWISS-PROT / TREMBL
ID HXK1_ARATH STANDARD PRT 496
AA. AC Q42525 Q42535 DT 01-NOV-1997 (Rel.
35, Created) DT 16-OCT-2001 (Rel. 40, Last
sequence update) DT 16-OCT-2001 (Rel. 40, Last
annotation update) DE Hexokinase 1 (EC
2.7.1.1). GN HXK1 OR AT4G29130 OR
F19B15.160. OS Arabidopsis thaliana (Mouse-ear
cress). OC Eukaryota Viridiplantae
Streptophyta Embryophyta Tracheophyta OC
Spermatophyta Magnoliophyta eudicotyledons
core eudicots Rosidae OC eurosids II
Brassicales Brassicaceae Arabidopsis. OX
NCBI_TaxID3702
Numéros daccession primaire et secondaire(s)
54
II.3.a SWISS-PROT / TREMBL
ID HXK1_ARATH STANDARD PRT 496
AA. AC Q42525 Q42535 DT 01-NOV-1997 (Rel.
35, Created) DT 16-OCT-2001 (Rel. 40, Last
sequence update) DT 16-OCT-2001 (Rel. 40, Last
annotation update) DE Hexokinase 1 (EC
2.7.1.1). GN HXK1 OR AT4G29130 OR
F19B15.160. OS Arabidopsis thaliana (Mouse-ear
cress). OC Eukaryota Viridiplantae
Streptophyta Embryophyta Tracheophyta OC
Spermatophyta Magnoliophyta eudicotyledons
core eudicots Rosidae OC eurosids II
Brassicales Brassicaceae Arabidopsis. OX
NCBI_TaxID3702
Description champ texte
55
II.3.a SWISS-PROT / TREMBL
synonyme
DE Corticotropin-lipotropin precursor
(Pro-opiomelanocortin) (POMC) DE Contains
NPP Melanotropin gamma (Gamma-MSH)
Corticotropin DE (Adrenocorticotropic hormone)
(ACTH) Melanotropin alpha (Alpha-MSH) DE
Corticotropin-like intermediary peptide (CLIP)
Lipotropin beta (Beta- DE LPH) Lipotropin
gamma (Gamma-LPH) Melanotropin beta
(Beta-MSH) DE Beta-endorphin Met-enkephalin.
56
II.3.a SWISS-PROT / TREMBL
DE Corticotropin-lipotropin precursor
(Pro-opiomelanocortin) (POMC) DE Contains
NPP Melanotropin gamma (Gamma-MSH)
Corticotropin DE (Adrenocorticotropic hormone)
(ACTH) Melanotropin alpha (Alpha-MSH) DE
Corticotropin-like intermediary peptide (CLIP)
Lipotropin beta (Beta- DE LPH) Lipotropin
gamma (Gamma-LPH) Melanotropin beta
(Beta-MSH) DE Beta-endorphin Met-enkephalin.
Liste des peptides produits après clivage de la
protéine initiale
57
II.3.a SWISS-PROT / TREMBL
ID HXK1_ARATH STANDARD PRT 496
AA. AC Q42525 Q42535 DT 01-NOV-1997 (Rel.
35, Created) DT 16-OCT-2001 (Rel. 40, Last
sequence update) DT 16-OCT-2001 (Rel. 40, Last
annotation update) DE Hexokinase 1 (EC
2.7.1.1). GN HXK1 OR AT4G29130 OR
F19B15.160. OS Arabidopsis thaliana (Mouse-ear
cress). OC Eukaryota Viridiplantae
Streptophyta Embryophyta Tracheophyta OC
Spermatophyta Magnoliophyta eudicotyledons
core eudicots Rosidae OC eurosids II
Brassicales Brassicaceae Arabidopsis. OX
NCBI_TaxID3702
gènes
58
II.3.a SWISS-PROT / TREMBL
Travaux pratiqués sur la séquence par les
auteurs. Ici, le commentaire indique que seule
la séquence nucléique est expérimentale par
conséquent la séquence protéique
est conceptuelle
RN 1 RP SEQUENCE FROM N.A. RC STRAINCV.
LANDSBERG ERECTA RX MEDLINE95334527
PubMed7610198 RA Dai N., Schaffer A.A.,
Petreikov M., Granot D. RT "Arabidopsis
thaliana hexokinase cDNA isolated by
complementation of RT yeast cells." RL Plant
Physiol. 108879-880(1995).
59
II.3.a SWISS-PROT / TREMBL
RN 1 RP SEQUENCE FROM N.A. RC STRAINCV.
LANDSBERG ERECTA RX MEDLINE95334527
PubMed7610198 RA Dai N., Schaffer A.A.,
Petreikov M., Granot D. RT "Arabidopsis
thaliana hexokinase cDNA isolated by
complementation of RT yeast cells." RL Plant
Physiol. 108879-880(1995).
Reference comment origine biologique de la
séquence (organisme, plasmide, tissu)
60
II.3.a SWISS-PROT / TREMBL
Blocs de commentaires
CC -!- CATALYTIC ACTIVITY ATP D-hexose ADP
D-hexose 6-phosphate. CC -!- SUBCELLULAR
LOCATION CHLOROPLAST OUTER ENVELOPE CYTOPLASMIC
SIDE (BY SIMILARITY). CC -!- SIMILARITY
BELONGS TO THE HEXOKINASE FAMILY. DR EMBL
U28214 AAB49908.1 -. DR InterPro IPR001312
Hexokinase. DR Pfam PF00349 hexokinase 1. DR
PROSITE PS00378 HEXOKINASES 1. KW
Transferase Kinase Glycolysis ATP-binding
Transmembrane Chloroplast. FT TRANSMEM 4
24 POTENTIAL. FT NP_BIND 101
106 ATP (POTENTIAL). FT DOMAIN 171
197 GLUCOSE-BINDING (POTENTIAL). SQ
SEQUENCE 496 AA 53707 MW 6DC81CE114E0B52B
CRC64 MGKVAVGATV VCTAAVCAVA VLVVRRRMQS
SGKWGRVLAI LKAFEEDCAT PISKLRQVAD TLDFESLNPG
EQILEKIISG MYLGEILRRV/../ LLKMAEDAAF FGDTVPSKLR
IPFIIRTPHM SAMHNDTSPD LKIVGSKIKD ILEVPTTSLK
MRKVVISLCN IIATRGARLS AAGIYGILKK LGRDTTKDEE
VQKSVIAMDG GLFEHYTQFS ECMESSLKEL LGDEASGSVE
VTHSNDGSGI GAALLAASHS LYLEDS //
61
Topic
Description ALTERNATIVE PRODUCTS Description of
the existence of related protein sequence(s)
produced by alternative splicing of the same gene
or by the use of alternative initiation
codons BIOTECHNOLOGY Description of the use of
a specific protein in a biotechnological process
CATALYTIC ACTIVITY Description of the
reaction(s) catalyzed by an enzyme 1
CAUTION This topic warns you about possible
errors and/or grounds for confusion
COFACTOR Description of an enzyme cofactor
DATABASE Description of a cross-reference to
a network database/resource for a specific
protein 2 DEVELOPMENTAL STAGE Description of
the developmental specific expression of a
protein DISEASE
Description of the disease(s) associated with
a deficiency of a protein DOMAIN
Description of the domain
structure of a protein ENZYME REGULATION
Description of an enzyme regulatory mechanism
FUNCTION General description of the
function(s) of a protein INDUCTION Descriptio
n of the compound(s) which stimulate the
synthesis of a protein MASS SPECTROMETRY
Reports the exact molecular weight of a protein
or part of a protein as determined by mass
spectrometric methods 3
MISCELLANEOUS Any comment which does not
belong to any of the other defined topics
PATHWAY Description of the metabolic
pathway(s) with which a protein is associated
PHARMACEUTICAL Description of the use of a
specific protein as a pharmaceutical drug
POLYMORPHISM Description of polymorphism(s)
PTM
Description of a posttranslational
modification SIMILARITY Description of
the similaritie(s) (sequence or structural) of a
protein with other proteins SUBCELLULAR LOCATION
Description of the subcellular location of the
mature protein SUBUNIT Description of the
quaternary structure of a protein TISSUE
SPECIFICITY Description of the tissue
specificity of a protein
62
II.3.a SWISS-PROT / TREMBL
CC -!- CATALYTIC ACTIVITY ATP D-hexose ADP
D-hexose 6-phosphate. CC -!- SUBCELLULAR
LOCATION CHLOROPLAST OUTER ENVELOPE CYTOPLASMIC
SIDE (BY SIMILARITY). CC -!- SIMILARITY
BELONGS TO THE HEXOKINASE FAMILY. DR EMBL
U28214 AAB49908.1 -. DR InterPro IPR001312
Hexokinase. DR Pfam PF00349 hexokinase 1. DR
PROSITE PS00378 HEXOKINASES 1. KW
Transferase Kinase Glycolysis ATP-binding
Transmembrane Chloroplast. FT TRANSMEM 4
24 POTENTIAL. FT NP_BIND 101
106 ATP (POTENTIAL). FT DOMAIN 171
197 GLUCOSE-BINDING (POTENTIAL). SQ
SEQUENCE 496 AA 53707 MW 6DC81CE114E0B52B
CRC64 MGKVAVGATV VCTAAVCAVA VLVVRRRMQS
SGKWGRVLAI LKAFEEDCAT PISKLRQVAD TLDFESLNPG
EQILEKIISG MYLGEILRRV/../ LLKMAEDAAF FGDTVPSKLR
IPFIIRTPHM SAMHNDTSPD LKIVGSKIKD ILEVPTTSLK
MRKVVISLCN IIATRGARLS AAGIYGILKK LGRDTTKDEE
VQKSVIAMDG GLFEHYTQFS ECMESSLKEL LGDEASGSVE
VTHSNDGSGI GAALLAASHS LYLEDS //
Data base cross-reference
63
II.3.a SWISS-PROT / TREMBL
CC -!- CATALYTIC ACTIVITY ATP D-hexose ADP
D-hexose 6-phosphate. CC -!- SUBCELLULAR
LOCATION CHLOROPLAST OUTER ENVELOPE CYTOPLASMIC
SIDE (BY SIMILARITY). CC -!- SIMILARITY
BELONGS TO THE HEXOKINASE FAMILY. DR EMBL
U28214 AAB49908.1 -. DR InterPro IPR001312
Hexokinase. DR Pfam PF00349 hexokinase 1. DR
PROSITE PS00378 HEXOKINASES 1. KW
Transferase Kinase Glycolysis ATP-binding
Transmembrane Chloroplast. FT TRANSMEM 4
24 POTENTIAL. FT NP_BIND 101
106 ATP (POTENTIAL). FT DOMAIN 171
197 GLUCOSE-BINDING (POTENTIAL). SQ
SEQUENCE 496 AA 53707 MW 6DC81CE114E0B52B
CRC64 MGKVAVGATV VCTAAVCAVA VLVVRRRMQS
SGKWGRVLAI LKAFEEDCAT PISKLRQVAD TLDFESLNPG
EQILEKIISG MYLGEILRRV/../ LLKMAEDAAF FGDTVPSKLR
IPFIIRTPHM SAMHNDTSPD LKIVGSKIKD ILEVPTTSLK
MRKVVISLCN IIATRGARLS AAGIYGILKK LGRDTTKDEE
VQKSVIAMDG GLFEHYTQFS ECMESSLKEL LGDEASGSVE
VTHSNDGSGI GAALLAASHS LYLEDS //
64
II.3.a SWISS-PROT / TREMBL
CC -!- CATALYTIC ACTIVITY ATP D-hexose ADP
D-hexose 6-phosphate. CC -!- SUBCELLULAR
LOCATION CHLOROPLAST OUTER ENVELOPE CYTOPLASMIC
SIDE (BY SIMILARITY). CC -!- SIMILARITY
BELONGS TO THE HEXOKINASE FAMILY. DR EMBL
U28214 AAB49908.1 -. DR InterPro IPR001312
Hexokinase. DR Pfam PF00349 hexokinase 1. DR
PROSITE PS00378 HEXOKINASES 1. KW
Transferase Kinase Glycolysis ATP-binding
Transmembrane Chloroplast. FT TRANSMEM 4
24 POTENTIAL. FT NP_BIND 101
106 ATP (POTENTIAL). FT DOMAIN 171
197 GLUCOSE-BINDING (POTENTIAL). SQ
SEQUENCE 496 AA 53707 MW 6DC81CE114E0B52B
CRC64 MGKVAVGATV VCTAAVCAVA VLVVRRRMQS
SGKWGRVLAI LKAFEEDCAT PISKLRQVAD TLDFESLNPG
EQILEKIISG MYLGEILRRV/../ LLKMAEDAAF FGDTVPSKLR
IPFIIRTPHM SAMHNDTSPD LKIVGSKIKD ILEVPTTSLK
MRKVVISLCN IIATRGARLS AAGIYGILKK LGRDTTKDEE
VQKSVIAMDG GLFEHYTQFS ECMESSLKEL LGDEASGSVE
VTHSNDGSGI GAALLAASHS LYLEDS //
65
II.3.a SWISS-PROT / TREMBL
CC -!- CATALYTIC ACTIVITY ATP D-hexose ADP
D-hexose 6-phosphate. CC -!- SUBCELLULAR
LOCATION CHLOROPLAST OUTER ENVELOPE CYTOPLASMIC
SIDE (BY SIMILARITY). CC -!- SIMILARITY
BELONGS TO THE HEXOKINASE FAMILY. DR EMBL
U28214 AAB49908.1 -. DR InterPro IPR001312
Hexokinase. DR Pfam PF00349 hexokinase 1. DR
PROSITE PS00378 HEXOKINASES 1. KW
Transferase Kinase Glycolysis ATP-binding
Transmembrane Chloroplast. FT TRANSMEM 4
24 POTENTIAL. FT NP_BIND 101
106 ATP (POTENTIAL). FT DOMAIN 171
197 GLUCOSE-BINDING (POTENTIAL). SQ
SEQUENCE 496 AA 53707 MW 6DC81CE114E0B52B
CRC64 MGKVAVGATV VCTAAVCAVA VLVVRRRMQS
SGKWGRVLAI LKAFEEDCAT PISKLRQVAD TLDFESLNPG
EQILEKIISG MYLGEILRRV/../ LLKMAEDAAF FGDTVPSKLR
IPFIIRTPHM SAMHNDTSPD LKIVGSKIKD ILEVPTTSLK
MRKVVISLCN IIATRGARLS AAGIYGILKK LGRDTTKDEE
VQKSVIAMDG GLFEHYTQFS ECMESSLKEL LGDEASGSVE
VTHSNDGSGI GAALLAASHS LYLEDS //
66
  • II.3.b Annotations des séquences de Swiss-Prot
  • Elles concernent les points suivants
  • Fonction(s) de la protéine
  • Modifications post-traductionnelles (acétylation,
    phosphorylation,)
  • Domaines et sites (liaison au calcium, à lATP,
    doigts de zinc, )
  • Structure secondaire
  • Structure quaternaire (homodimère, hétérotrimère,
    )
  • Similitudes avec dautres protéines
  • Maladies associées à une protéine
  • Conflits sur la séquence, existence de variants,
  • Sources de linformation
  • Articles concernant une nouvelle séquence
  • Article de synthèse sur les familles de protéines
  • Groupe dexperts
  • Les mises à jour sont régulières
  • La redondance est limitée au mieux

67
II.3.c Quelques statistiques sur Swiss-Prot
68
II.3.c Quelques statistiques sur Swiss-Prot
69
II.3.c Quelques statistiques sur Swiss-Prot
70
II.3.c Quelques statistiques sur Swiss-Prot
71
II Les banques de données
  • II.4 Les banques dalignements et de motifs

72
II.4 Les banques dalignements et de motifs
  • Définitions
  • Domaine portion d'une protéine supposée avoir
    un repliement indépendant du reste de la
    protéine, et posséder une fonction spécifique.
  • Motif segment court et conservé d'une séquence
    nucléique ou protéique. Les motifs sont
    fréquemment des parties hautement conservées des
    domaines.
  • Tout commence par des alignements multiples
  • Alignement Processus par lequel deux séquences
    sont comparées afin d'obtenir le plus de
    correspondances (identités ou substitutions )
    possibles entre les nucléotides ou acides aminés
    qui les composent.
  • Alignement global alignement des deux séquences
    sur toute leur longueur. (Gap)
  • Alignement local alignement des deux séquences
    sur une portion de leur longueur. (Fasta et
    Blast)
  • Alignement optimal alignement de deux séquences
    de façon à obtenir le plus haut score possible.
    (Needleman et Wunsch)
  • Alignement multiple alignement global de trois
    ou plus de trois séquences. (ClustalW)

73
II.4 Les banques dalignements et de motifs
  • Il existe de nombreuses banques dalignements et
    de motifs
  • PROSITE SIB, Dictionnaire de sites et motifs
    protéiques (expressions régulières)
  • Profiles ISREC, Lausanne, matrices pondérées
    (profils)
  • PRINTS UCL London, (Protein Motif Fingerprint
    Database). Une empreinte (fingerprint) est un
    groupe conservé de motifs utilisé pour
    caractériser une famille de protéines
  • Pfam Sanger centre, Collection de familles
    alignées de protéines, générées automatiquement
    ou semi-automatiquement par la méthode "Hidden
    Markov Models" (HMMs).
  • BLOCKS FHCRC Seattle,  blocks , alignements
    multiples de segments sans insertions,
    correspondant aux régions les mieux conservées de
    Prosite
  • ProDom (PROtein DOMain Database) INRA,
    Toulouse, compilation automatisée des domaines
    homologues (alignements multiples et consensus)
    détectés dans Swiss-prot

74
II.4 Les banques dalignements et de motifs
II.4.a PROSITE / PROFILES SIB, expressions
régulières
Alignement multiple de séquences homologues
issues de Swiss-Prot
Détermination manuelle dune expression consensus
Affinage du consensus contre Swiss-Prot Le
consensus doit permettre de récupérer les
séquences qui ont servi à le construire. Il y a
des faux positifs ainsi que des faux négatifs.
 pattern / profile  C-x(3)-LIVMFY-x(5)-LIVMFY
-x(3)-DENQ-LIVMFY-x(10)- C-x(3)-C-T-x(4)-C-x-
LIVMFY-F-x-FY-x(13,14)-C-x-
LIVMFY-RK-x-ST-x(14,15)-S-
G-x-ST-LIVMFY-x(2)-C
Version 16.53, of 06-Dec-2001 (contient 1104
fiches documentation décrivant 1494
 patterns , règles et profils/matrices).
75
(No Transcript)
76
II.4 Les banques dalignements et de motifs
II.4.b PRINTS UCL London, empreintes
(fingerprints)
Alignement local
Identification manuelle dun  Fingerprint 
ensemble de 1 à n motifs
Affinage contre OWL
 Fingerprint  composé dun jeu de motifs
Version 32.0 de PRINTS contient 1600 entrées,
codant 9800 motifs.
77
II.4 Les banques dalignements et de motifs
II.4.c Pfam Sanger centre, HMMs profiles
Alignement multiple édité manuellement
Un profil  HMM  en est dérivé Progression
aléatoire estimant la probabilité de transition
à chaque étape et utilisant la technique
d'apprentissage
Alignement pleine longueur final
Pfam A Alignements précis vérifiés, annotés
(3071 familles, 267598 séquences) Pfam B
Clustering automatique de Swiss Prot / Trembl,
non annoté (57477, 126378)
78
(No Transcript)
79
Modèle de Markov
émission
transition
0.4
C 0.6
C 0.8
0.8
0.4
0.2
G 0.4
G 0.2
0.2
0
P(CG) 0.8 0.8 0.4 0.4 0.102 P(GC) 0.2
0.2 0.2 0.6 0.004 P(GA) 0.2 0.2 0
0 0
80
II.4 Les banques dalignements et de motifs
II.4.c Pfam Sanger centre, HMMs profiles
Pfam entry Glyco_hydro_68 Accession number
PF02435 Definition Levansucrase/Invertase
Author Mian N, Bateman A Alignment method
of seed Clustalw Source of seed members
Pfam-B_2011 (release 5.4) Gathering cutoffs
25 25 Trusted cutoffs 825.60 825.60 Noise
cutoffs -256.10 -256.10 HMM build command
line hmmbuild -F HMM SEED HMM build command
line hmmcalibrate --seed 0 HMM Reference
Number 1 Reference Medline 98394981
Reference Title Cloning, nucleotide sequence,
and expression in Escherichia Reference Title
coli of levansucrase genes from the plant
pathogens Reference Title Pseudomonas
syringae pv. glycinea and P. syringae pv.
Reference Title phaseolicola. Reference
Author Hettwer U, Jaeckel FR, Boch J, Meyer M,
Rudolph K, Ullrich Reference Author MS Referen
ce Location Appl Environ Microbiol
1998643180-3187. Database Reference
INTERPRO IPR003469 Comment This Pfam
family consists of the glycosyl hydrolase 68
family, Comment including several bacterial
levansucrase enzymes, and invertase from
Comment zymomonas. Number of members 14
81
II.4 Les banques dalignements et de motifs
II.4.d PRODOM
Swiss Prot Trembl
PSI-BLAST récursifs
Domaines, consensus
82
II.4 Les banques dalignements et de motifs
II.4.e BLOCKS FHCRC Seattle,  blocks 
Prosite (4034)
ProDom (1066)
Pfam(2258)
Domo(306)
Groupes de protéines
Alignement local sans gap avec un germe de trois
acides aminés
BLOCKS
Calibration contre Swiss Prot
Version 13.0 (08/001) 8656 blocks représentant
2101 groupes
83
II.4 Les banques dalignements et de motifs
II.4.f Quelle banque pour quel résultat ?
Recherche des membres de super-familles très
divergentes Profiles, Pfam
Recherche des membres de sous-familles Prints
Recherche de motifs courts Prosite, Blocks
84
II.4 Les banques dalignements et de motifs
II.4.f INTERPRO la base intégrative
INTERPRO Pfam, Prints, Prosite, Swiss Prot /
Trembl sont intégrées dans une hiérarchie
formant des familles.
85
II.5 La recherche dans les banques
  • Mots-clés et critères
  • Numéro daccession
  • Nom de séquence
  • Organisme
  • Définition
  • Taille dune séquence
  • Séquence
  • Recherche de séquences homologues
  • Recherche de domaines ou de motifs

86
II.5 La recherche dans les banques II.5.a
ENTREZ
87
(No Transcript)
88
II.5 La recherche dans les banques II.5.b SRS
(Sequence Retrieval System)
89
(No Transcript)
90
(No Transcript)
91
(No Transcript)
92
(No Transcript)
93
Recherche de similarités entre séquences
biologiques
  • Objectifs
  • Recherche dinformations sur la fonction
    biologique
  • Etude de la structure (motifs, domaines, )
  • Informations sur lévolution des séquences
    (phylogénie)
  • Constitue en générale la première étape
  • de létude dune séquence nouvelle

94
Recherche de similarités entre séquences
biologiques
  • La recherche de similarités permet de mettre en
    évidence les régions proches de deux séquences
  • Similarité et homologie
  • Deux gènes sont homologues sils ont un gène
    ancêtre en commun
  • On doit donc parler de recherche de similarités.
  • Si une protéine partage 25 didentité sur une
    longueur de 100 acides aminés avec une autre, on
    pourra parler dhomologie

95
Recherche de similarités entre séquences
biologiques
  • On peut comparer des séquences nucléiques ou des
    séquences protéiques
  • La probabilité est plus forte de trouver de la
    similarité par hasard dans les comparaisons
    ADN/ADN car on se restreint à 4 nucléotides
    contre 20 acides aminés
  • Séquence de 10 bases -gt 410 séquences possibles
    soit 1 048 576
  • Les banques publiques contiennent 8.109
    nucléotides à partir desquels on peut extraire
    environ 7.109 séquences de 10 bases. Une séquence
    particulière de 10 bases peut donc sy trouver
    6600 fois simplement par hasard.
  • Ainsi obtenir 100 didentité sur 10 bases
    peut ne pas avoir beaucoup de signification
    biologique et nêtre que le fruit du hasard
  • Séquence de 10 aa -gt 2010 séquences possibles
    soit 10,24.1012

96
Recherche de similarités entre séquences
biologiques
  • La recherche de similarités repose sur des
    processus évolutifs les mutations

Séq. 1 G T C A G
substitution
Séq. 2 G T T A G
suppression
Séq. 3 G T A G
insertion
Séq. 4 G T A T G
97
Recherche de similarités entre séquences
biologiques
  • La mise en évidence de similarités réclame
    daligner des séqu
Write a Comment
User Comments (0)
About PowerShow.com