Title: BIOINFORMATIQUE
1BIOINFORMATIQUE
- La bioinformatique stocker, analyser et
visualiser pour découvrir - Lexemple du séquençage dun génome
- Les banques de données
- Les banques de séquences nucléiques et protéiques
- Les banques dalignements, de motifs et de sites
- La recherche dans les banques de données
- Analyser linformation
- La comparaison de séquences
- lalignement multiple
- la phylogénie
2I La bioinformatique stocker, analyser et
visualiser pour découvrir
- Les progrès de la biotechnologie permettent aux
chercheurs daccéder à la séquence de plus en
plus de gènes ou même de génomes complets. - Chaque année, le nombre de nouvelles séquences
double. - Des systèmes efficaces de stockage de
linformation doivent être mis en œuvre.
3I La bioinformatique stocker et analyser pour
découvrir
4I La bioinformatique stocker et analyser pour
découvrir
- La production de ces séquences se fait de plus en
plus dans le cadre de séquençages de génomes
complets ou de banques dEST (Expressed Sequence
Tag) - LHomme (Homo sapiens)
- La mouche du vinaigre (Drosophila melanogaster)
- Un ver (Coenorhabditis elegans)
- Une plante (Arabidopsis thaliana)
- La levure (Saccharomyces cerevisiae)
- Une bactérie lactique (Bacillus subtilis)
5I La bioinformatique stocker et analyser pour
découvrir
- Le séquençage des génomes est une tache complexe
et gigantesque qui réclame la mise au point de
logiciels capables dautomatiser la plupart des
étapes - Exemple du séquençage dun génome complet
- I Production dune banque BAC (Bacterial
Artificial Chromosome) - II Ordonnancement des BAC
- III Séquençage des BAC en shot gun
- IV Assemblage des séquences de BAC en chromosome
- V Annotation de la séquence du génome
6Construction dune banque BAC
chromosome
7Ordonnancement de la banque BAC
Plusieurs méthodes - séquençage des extrémités
- fingerprinting
8Technique du fingerprinting
Analyse du profil de restriction des BAC
BAC 1
BAC 2
9Ordonnancement de la banque BAC
Plusieurs méthodes - séquençage des extrémités
- fingerprinting
3
1
6
5
4
2
10Séquençage shot gun
1
Amorces PCR aléatoires
11Lecture et nettoyage des séquences
PHRED lecture des chromatogrammes élimination des
bases de mauvaise qualité élimination des
séquences contaminantes (BAC)
12Les difficultés de lassemblage
Présence de séquences répétées
13annotations prédiction de gènes intelligence
artificielle (Eugène,) prédiction de la fonction
des gènes comparaison de séquences (BLAST)
14I La bioinformatique stocker et analyser pour
découvrir
- La bioinformatique a pour objet de mettre en
œuvre les moyens informatiques (bases de données,
algorithmes) utiles au stockage et à lanalyse
des données biologiques
15I La bioinformatique stocker et analyser pour
découvrir
gaaa gaaactcgaa aacgagaaaa aaccatggcg
aagtctgacg ctctcttgcc aatctccgcc agagaagaag
atcctctatt atccgacggg tcaagatccg
acccaaatgc cgaaacccat ggccgtagaa gacccgtgaa
aggtctcctc gccgtctcat ttgggctttt ctttatcgcc
ttctacgtcg ctctcatcgc cacacacgac ggatctagat
ccaacgacgt taagatcgaa agcgatggaa cagcgaccaa
agcgtcacgt gcccatctcg ccggcgtctc ggagaaaagc
aatgatcagt tgtggaagct ttccggtgac aggaatacgg
tggcgttctc atggaa
cgaa tccgaatgca gatggacagt agacattgca
gatacccaga ttagacaggg tgtaagcgat ggaaatgaac
agattgacag tagacaggat aacaagatac
cagctcgata Cagataccgc tagacataga caccatgcag
atgttcatta gataccagat agggacagat Gacagataga
ggacatagcg ctgcgtacac agatactcgg ataggacata
tatagacaga Cagatataga ctcagataga cgctcgacat
cgctagacag ctctcgccgt gcatagacca Gatgacagat
ggcgtgcgtc gtagtactgc atcgtcatcg aatgccggta
ttcgatcgaa Cgtgca
Lune de ses séquences est artificielle. Laquelle
?
16I La bioinformatique stocker et analyser pour
découvrir
- La composition des génomes
- Le rapport (GC)/(AT) ou le pourcentage de GC
- Escherichia coli 51
- Plasmodium falciparum 18
- Thermus thermophilus 68
- Vertébrés 40-45 (et présence disochores)
- Le pourcentage de GC varie entre 15 et 75 .
- Lorigine de ces variations est encore mal
comprise.
17I La bioinformatique stocker et analyser pour
découvrir
- La composition des protéines
- Relativement constante a travers le vivant.
Alanine (A) 83 Cysteine (C) 17
Méthionine (M) 24 Asparagine (N) 44
Proline (P) 51 Aspartate (D) 53
Glutamate (E) 62 Glutamine (Q) 40
Phénylalanine (F) 39 Arginine (R) 57
Glycine (G) 72 Sérine (S) 69
Histidine (H) 22 Thréonine (T) 58
Isoleucine (I) 52 Valine (V) 66
Lysine (K) 57 Tryptophane (W) 13
Leucine (L) 90 Tyrosine (Y) 32
Cette distribution moyenne peut être considérée
comme une signature
18I La bioinformatique stocker et analyser pour
découvrir
- Etude des fréquences n-uplets
- Comparaison de la fréquence dapparition dun
n-uplet fB1B2Bn au produit des fréquences
dapparition des bases individuelles fB1.fB2.fBn
- Si fB1B2Bn gt fB1.fB2.fBn le n-uplet est
sur-représenté - Si fB1B2Bn lt fB1.fB2.fBn le n-uplet est
sous-représenté - Exemple
- Chez E. coli, f CTAG 3,6 10-4 ltlt fCfTfAfG 3,9
10-3 - Les palindromes sont en général sous-représentés
dans les génomes bactériens, les palindromes sont
souvent des sites de restriction. - Chez les vertébrés, le dinucléotide GC est rare.
Il sagit dun signal de méthylation de la
cytosine. La 5-méthyl-cytosine peut ensuite être
transformée en T. Ainsi CG se raréfie au profit
de TG.
19I La bioinformatique stocker et analyser pour
découvrir
- Un n-uplet particulier le codon
- La distribution des codons doit suivre celle des
acides aminés qui leurs correspondent dans les
protéines ainsi - fW fTGG
- Etude de lusage des codons synonymes
- Il existe donc des codons privilégiés. Ces codons
ne sont pas les mêmes dune espèce à lautre.
lysine E. Coli H. Sapiens
AAA 60 38
AAG 40 62
20I La bioinformatique stocker et analyser pour
découvrir
- En étudiant un grand nombre de gènes on peut
construire, pour lorganisme auquel ces gènes
appartiennent une table dusage des codons. - Cette table diffère de celles construites pour
dautre organismes, mais on observe une
conservation évolutive des espèces proches
possèdent des tables dusage des codons proches.
21I La bioinformatique stocker et analyser pour
découvrir
- Un n-uplet particulier le codon
Homo sapiens gbpri 50031 CDS's (21930294
codons) -----------------------------------------
--------------------------------------- fields
triplet amino acid fraction frequency per
thousand (number) ----------------------------
--------------------------------------------------
-- UUU F 0.46 17.1 (374332) UCU S 0.18 14.7
(323470) UAU Y 0.44 12.1 (264652) UGU C 0.45
10.1 (221863) UUC F 0.54 20.4 (448127) UCC S
0.22 17.5 (384476) UAC Y 0.56 15.5 (339473) UGC
C 0.55 12.4 (271056) UUA L 0.07 7.3 (160731)
UCA S 0.15 11.9 (260418) UAA 0.28 0.8 (
16884) UGA 0.50 1.4 ( 30111) UUG L 0.13 12.7
(277774) UCG S 0.06 4.5 ( 98166) UAG 0.22
0.6 ( 12911) UGG W 1.00 13.0 (284246) CUU L
0.13 12.9 (283480) CCU P 0.28 17.3 (380219) CAU
H 0.41 10.6 (231860) CGU R 0.08 4.7
(102673) CUC L 0.20 19.5 (428574) CCC P 0.33
20.0 (439256) CAC H 0.59 15.0 (329569) CGC R
0.19 10.8 (236986) CUA L 0.07 7.0 (153837) CCA
P 0.27 16.7 (367297) CAA Q 0.26 11.9 (261063)
CGA R 0.11 6.3 (138297) CUG L 0.40 40.1 (880072)
CCG P 0.11 7.0 (154028) CAG Q 0.74 34.4
(755209) CGG R 0.21 11.8 (257761) AUU I 0.36
15.8 (346233) ACU T 0.24 12.9 (283671) AAU N
0.46 16.7 (365457) AGU S 0.15 12.0 (263279) AUC
I 0.48 21.3 (466577) ACC T 0.36 19.1 (419213)
AAC N 0.54 19.3 (422697) AGC S 0.24 19.4
(424788) AUA I 0.16 7.2 (157385) ACA T 0.28
14.9 (325763) AAA K 0.42 24.0 (526117) AGA R
0.21 11.7 (255681) AUG M 1.00 22.3 (489160) ACG
T 0.12 6.2 (135294) AAG K 0.58 32.5 (713826)
AGG R 0.20 11.6 (254743) GUU V 0.18 10.9
(239795) GCU A 0.26 18.6 (408931) GAU D 0.46
22.1 (484271) GGU G 0.16 10.8 (237026) GUC V
0.24 14.6 (320190) GCC A 0.40 28.4 (622538) GAC
D 0.54 25.7 (563848) GGC G 0.34 22.6
(495700) GUA V 0.11 7.0 (154102) GCA A 0.23
16.0 (350382) GAA E 0.42 29.0 (634985) GGA G
0.25 16.4 (358824) GUG V 0.47 28.7 (630151) GCG
A 0.11 7.6 (165700) GAG E 0.58 40.3 (884368)
GGG G 0.25 16.4 (360728) -----------------------
--------------------------------------------------
------- Coding GC 52.58 1st letter GC 56.14 2nd
letter GC 42.46 3rd letter GC 59.13 Genetic
code 1 Standard
22I La bioinformatique stocker et analyser pour
découvrir
H.sapiens UGG W 1.00 13.0 A thaliana UGG W 1.00
12.5 T aquaticus UGG W 1.00 11.6
H. sapiens GGU G 0.16 10.8 GGC G 0.34 22.6 GGA G
0.25 16.4 GGG G 0.25 16.4
A. thaliana GGU G 0.34 22.4 GGC G 0.14 9.1 GGA G
0.37 24.2 GGG G 0.15 10.2
T. Aquaticus GGU G 0.04 3.6 GGC G 0.48 41.2 GGA
G 0.06 5.3 GGG G 0.42 36.4
23I La bioinformatique stocker et analyser pour
découvrir
- Effet de la composition en base du génome sur
lusage des codons - Les organismes riches en GC auront une préférence
significative pour les codons possédant un G ou
un C comme troisième base. - Cest linverse pour les organismes riches en AT
- Pour les autres organismes, le choix de la
troisième base reste fortement biaisé.
24I La bioinformatique stocker et analyser pour
découvrir
- Leffet de contexte
- Si deux codons synonymes ont un usage proche,
alors le choix peut être influencé par le
contexte, cest à dire par les nucléotides
présents immédiatement en amont ou en aval du
codon. - Exemple Chez E. coli, pour la lysine, on trouve
plus fréquemment AAA lorsque le codon suivant
commence par G et AAG est préféré si un C est le
nucléotide en aval.
25I La bioinformatique stocker et analyser pour
découvrir
- Lusage des codons et lexpression des gènes.
- Chez la levure (Saccharomyces cerevisiae) et E.
coli, la fréquence dusage des codons est
directement proportionnelle à la concentration
cellulaire de lARNt correspondant. - Il sagit dune adaptation qui permet dajuster
la quantité dARNt aux besoins de la machinerie
de biosynthèse protéique. - Les gènes le plus exprimés sont ceux qui
utilisent le plus de codons privilégiés. - Lutilisation de codons rares permet dintroduire
des poses dans la traduction.
26I La bioinformatique stocker et analyser pour
découvrir
- Ces résultats statistiques peuvent permettre
danalyser les nouvelles séquences pour
rechercher les phases codantes, les limites
intron/exon, les erreurs de séquençage. - Tous ces éléments combinés permettent de prédire
la position de gènes. - Cest lannotation structurale.
- Prediction des zones introniques et exoniques au
moyen de méthodes statistiques. - Recherche des motifs accepteurs et donneurs
dépissage - Combinaison des deux infos précédentes pour
prédire précisément les limites des introns/exons - Assemblage des exons prédits et confrontation
avec les banques dEST de lorganisme considéré - Si échec, confronter les protéines prédites aux
protéines existantes dans les bases de données
(pour dautres organismes) - Il existe des logiciels qui combinent toutes ces
approches tel GenScan qui a été utilisé lors du
séquençage du génome humain
27II Les banques de données
- Lensemble des séquences nucléiques ou protéiques
connues sont regroupées dans des banques de
données - GENBANK au NCBI (National Centre for
Biotechnology Information, USA) - EMBL à lEBI (European Molecular Biology
Laboratory, European Bioinformatics Institute,
UK) - DDBJ au Japon (DNA Data Bank of Japan)
- Certaines banques ne contiennent que des
séquences protéiques - UNIPROT (Swissprot) à lISB/EBI (Institut Suisse
de bioinformatique) - PIR , Georgetown University, USA (Protein
Information Resource)
28II Les banques de données
- II.1 Lorganisation de linformation
- Banque de données linformation est stockée
sous la forme dune collection de fichiers
structurés. Une séquence correspond à un fichier. - Base de données linformation est stockée dans
les champs dun SGBD (Système de Gestion de Base
de Données). Un langage particulier permet de
formuler des requêtes pour interroger la base
(SQL, Structured Query Langage)
29II Les banques de données
- II.2 Les banques de séquences nucléiques
- GENBANK, EMBL et DDBJ sont associées et diffusent
les mêmes informations, mais sous des formats
légèrement différents. - Ces banques sont toutes accessibles via Internet
à quiconque et sans restriction - Elles gèrent les plus de 10 millions de séquences
connues à ce jour, quel que soit leur organisme
dorigine
30II Les banques de données
- II.2.a GENBANK http//www.ncbi.nlm.nih.gov/
- Les séquences sont pour une large part obtenues
par soumission directe des chercheurs ou via les
grands programmes de séquençage. - Pour simplifier les recherches des utilisateurs,
Genbank, EMBL et DDBJ séchangent régulièrement
leurs données de sorte que les trois banques
disposent en permanence des mêmes séquences - Par commodité les séquences sont classées en
divisions selon leur type (EST, séquençage
massif,) ou leur organisme dorigine. Il existe
une vingtaine de ces divisions
31II Les banques de données II.2.a GENBANK
DIVISIONS Utilisées par
quelles banques ? BCT Bacteries DDBJ,
GenBank PRO Procaryotes EMBL FUN Champignons EM
BL HUM Humain DDBJ, EMBL PRI Primates DDBJ,
EMBL, GenBank ROD Rongeurs DDBJ, EMBL,
GenBank MAM Autre mammifères DDBJ, EMBL,
GenBank VRT Autres vertébrés DDBJ, EMBL,
GenBank INV Invertébrés DDBJ, EMBL, GenBank PLN
Plantes DDBJ, EMBL, GenBank ORG
Organelles EMBL VRL Virus DDBJ, EMBL,
GenBank PHG Phages DDBJ, EMBL, GenBank RNA ARN
de tructure DDBJ, EMBL, GenBank SYN
Synthétiques et chimériques DDBJ, EMBL,
GenBank UNA Non annotées DDBJ, GenBank UNC Non
classifiées EMBL
32II Les banques de données II.2.a GENBANK
Divisions fonctionnelles Utilisées par
quelles banques ? EST Expressed sequence
tags DDBJ, EMBL, GenBank STS Sequence tagged
sites DDBJ, EMBL, GenBank GSS Genome survey
sequences DDBJ, EMBL, GenBank HTG High
throughput genomic sequences DDBJ, EMBL,
GenBank PAT Patent sequences DDBJ, EMBL,
GenBank CON Virtual contigs of segmented
sequences DDBJ, EMBL, GenBank
33II Les banques de données II.2.a GENBANK
- Chaque séquence possède une entrée qui
rassemble toute linformation la concernant.
Cette information peut-être visualisée sous forme
dune fiche - Exemple lARNm de linvertase acide de Brassica
oleracea
34II Les banques de données II.2.a GENBANK
LOCUS AF274299 2251 bp mRNA
PLN 26-NOV-2001 DEFINITION Brassica
oleracea clone BoINV2 acid invertase mRNA,
complete cds. ACCESSION AF274299 VERSION
AF274299.1 GI11527242 KEYWORDS . SOURCE
Brassica oleracea. ORGANISM Brassica oleracea
Eukaryota Viridiplantae
Streptophyta Embryophyta Tracheophyta
Spermatophyta Magnoliophyta eudicotyledons
core eudicots Rosidae eurosids II
Brassicales Brassicaceae Brassica. REFERENCE
1 (bases 1 to 2251) AUTHORS Coupe,S.A.,
Sinclair,B.K., Greer,L. and Hurst,P.L. TITLE
Characterization of acid invertase gene
expression during senescence of
broccoli (Brassica oleracea) florets JOURNAL
Unpublished REFERENCE 2 (bases 1 to 2251)
AUTHORS Coupe,S.A. TITLE Direct
Submission JOURNAL Submitted (02-JUN-2000)
Crop and Food Research, Private Bag 11 600,
Palmerston North, Manawatu 5301, New Zealand
35II Les banques de données II.2.a GENBANK
Nom de la séquence
taille
molécule
division
LOCUS AF274299 2251 bp mRNA
PLN 26-NOV-2001 DEFINITION Brassica
oleracea clone BoINV2 acid invertase mRNA,
complete cds. ACCESSION AF274299 VERSION
AF274299.1 GI11527242 KEYWORDS . SOURCE
Brassica oleracea. ORGANISM Brassica oleracea
Eukaryota Viridiplantae
Streptophyta Embryophyta Tracheophyta
Spermatophyta Magnoliophyta eudicotyledons
core eudicots Rosidae eurosids II
Brassicales Brassicaceae Brassica. REFERENCE
1 (bases 1 to 2251) AUTHORS Coupe,S.A.,
Sinclair,B.K., Greer,L. and Hurst,P.L. TITLE
Characterization of acid invertase gene
expression during senescence of
broccoli (Brassica oleracea) florets JOURNAL
Unpublished REFERENCE 2 (bases 1 to 2251)
AUTHORS Coupe,S.A. TITLE Direct
Submission JOURNAL Submitted (02-JUN-2000)
Crop and Food Research, Private Bag 11 600,
Palmerston North, Manawatu 5301, New Zealand
36II Les banques de données II.2.a GENBANK
37II Les banques de données II.2.a GENBANK
38II Les banques de données II.2.a GENBANK
39II Les banques de données II.2.a GENBANK
40II Les banques de données II.2.a GENBANK
41II Les banques de données II.2.a GENBANK
LOCUS AF274299 2251 bp mRNA
PLN 26-NOV-2001 DEFINITION Brassica
oleracea clone BoINV2 acid invertase mRNA,
complete cds. ACCESSION AF274299 VERSION
AF274299.1 GI11527242 KEYWORDS . SOURCE
Brassica oleracea. ORGANISM Brassica oleracea
Eukaryota Viridiplantae
Streptophyta Embryophyta Tracheophyta
Spermatophyta Magnoliophyta eudicotyledons
core eudicots Rosidae eurosids II
Brassicales Brassicaceae Brassica. REFERENCE
1 (bases 1 to 2251) AUTHORS Coupe,S.A.,
Sinclair,B.K., Greer,L. and Hurst,P.L. TITLE
Characterization of acid invertase gene
expression during senescence of
broccoli (Brassica oleracea) florets JOURNAL
Unpublished REFERENCE 2 (bases 1 to 2251)
AUTHORS Coupe,S.A. TITLE Direct
Submission JOURNAL Submitted (02-JUN-2000)
Crop and Food Research, Private Bag 11 600,
Palmerston North, Manawatu 5301, New Zealand
42II Les banques de données II.2.a GENBANK
LOCUS AF274299 2251 bp mRNA
PLN 26-NOV-2001 DEFINITION Brassica
oleracea clone BoINV2 acid invertase mRNA,
complete cds. ACCESSION AF274299 VERSION
AF274299.1 GI11527242 KEYWORDS . SOURCE
Brassica oleracea. ORGANISM Brassica oleracea
Eukaryota Viridiplantae
Streptophyta Embryophyta Tracheophyta
Spermatophyta Magnoliophyta eudicotyledons
core eudicots Rosidae eurosids II
Brassicales Brassicaceae Brassica. REFERENCE
1 (bases 1 to 2251) AUTHORS Coupe,S.A.,
Sinclair,B.K., Greer,L. and Hurst,P.L. TITLE
Characterization of acid invertase gene
expression during senescence of
broccoli (Brassica oleracea) florets JOURNAL
Unpublished REFERENCE 2 (bases 1 to 2251)
AUTHORS Coupe,S.A. TITLE Direct
Submission JOURNAL Submitted (02-JUN-2000)
Crop and Food Research, Private Bag 11 600,
Palmerston North, Manawatu 5301, New Zealand
43FEATURES Location/Qualifiers
source 1..2251
/organism"Brassica oleracea"
/cultivar"Shogun"
/db_xref"taxon3712"
/clone"BoINV2" CDS 35..2023
/EC_number"3.2.1.26"
/function"cleaves sucrose into glucose
and fructose at acid pH optima"
/note"sucrose hydrolysing enzyme
beta-fructofuranosidase"
/codon_start1
/product"acid invertase"
/protein_id"AAG36943.1"
/db_xref"GI11527243"
/translation"MAKSDALLPISAREEDPLLSDGSRSDPNAETHGRRR
PVKGLLAV SFGLFFIAFYVALIATHDGS
RSNDVKIESDGTATKASRAHLAGVSEKSNDQLWKLSGD
RNTVAFSWNNSMLSWQRTAFHFQPEQNWMNDPNGPLFYKG
WYHFFYQYNPNAAVWGDI
VWGHAVSKDLIHWVHLPLAMAADQWYDANGVWTGSATFLEDGSIVMLYTG
STDKSVQV QNLAYPEDLNDPLLLKWVKF
PGNPVLVPPPGILPKDFRDPTTAWKTSAGKWRITIGSK
INRTGISLVYDTTDFKTYEKLETLLHKVPNTGMWECVDFY
PVSKTLVKGLDTSVNGPD
VKHIVKASMDDTRIDHYAIGTYFDSNGTWTPDDPTIDVGISTSLRYDYGK
FYASKTFY DQNKGRRILWGWIGESDSES
ADVQKGWSSLQGIPRTVVLDTKTGKNLVQWPVEEVKSL
RLSSKKFDMEVGPGSLVHIDVGSAAQLDIEAEFEIKKESL
EKILGDASAAAEAEEFSC
QKSGGSTVRGALGPFGFSVLAHESLSEKTPVYFYVAKGKDSKLITFFCTD
SSRSSFAN DVVKPIYGSSVPVLKGEKLT
MRILVDHSIVEAFGQGGRTCITSRVYPTKAIYGAAKLF
LFNNAIDATITASFKVWQMNSAFIQPYSEEAVRALSRT"
44FEATURES Location/Qualifiers
source 1..2251
/organism"Brassica oleracea"
/cultivar"Shogun"
/db_xref"taxon3712"
/clone"BoINV2" CDS 35..2023
/EC_number"3.2.1.26"
/function"cleaves sucrose into glucose
and fructose at acid pH optima"
/note"sucrose hydrolysing enzyme
beta-fructofuranosidase"
/codon_start1
/product"acid invertase"
/protein_id"AAG36943.1"
/db_xref"GI11527243"
/translation"MAKSDALLPISAREEDPLLSDGSRSDPNAETHGRRR
PVKGLLAV SFGLFFIAFYVALIATHDGS
RSNDVKIESDGTATKASRAHLAGVSEKSNDQLWKLSGD
RNTVAFSWNNSMLSWQRTAFHFQPEQNWMNDPNGPLFYKG
WYHFFYQYNPNAAVWGDI
VWGHAVSKDLIHWVHLPLAMAADQWYDANGVWTGSATFLEDGSIVMLYTG
STDKSVQV QNLAYPEDLNDPLLLKWVKF
PGNPVLVPPPGILPKDFRDPTTAWKTSAGKWRITIGSK
INRTGISLVYDTTDFKTYEKLETLLHKVPNTGMWECVDFY
PVSKTLVKGLDTSVNGPD
VKHIVKASMDDTRIDHYAIGTYFDSNGTWTPDDPTIDVGISTSLRYDYGK
FYASKTFY DQNKGRRILWGWIGESDSES
ADVQKGWSSLQGIPRTVVLDTKTGKNLVQWPVEEVKSL
RLSSKKFDMEVGPGSLVHIDVGSAAQLDIEAEFEIKKESL
EKILGDASAAAEAEEFSC
QKSGGSTVRGALGPFGFSVLAHESLSEKTPVYFYVAKGKDSKLITFFCTD
SSRSSFAN DVVKPIYGSSVPVLKGEKLT
MRILVDHSIVEAFGQGGRTCITSRVYPTKAIYGAAKLF
LFNNAIDATITASFKVWQMNSAFIQPYSEEAVRALSRT"
Table des features Mis en place par
GenBank, EMBL et DDBJ Contient des informations
sur les gènes et leurs produits ainsi que sur
les régions dintérêt biologique des
séquences. On y trouve aussi des informations
sur les différences entre les versions dune
même séquence. Des liens sur dautres bases ou
banques de données peuvent également être
présents. Chaque clé répond à une nomenclature.
45FEATURES Location/Qualifiers
source 1..2251
/organism"Brassica oleracea"
/cultivar"Shogun"
/db_xref"taxon3712"
/clone"BoINV2" CDS 35..2023
/EC_number"3.2.1.26"
/function"cleaves sucrose into glucose
and fructose at acid pH optima"
/note"sucrose hydrolysing enzyme
beta-fructofuranosidase"
/codon_start1
/product"acid invertase"
/protein_id"AAG36943.1"
/db_xref"GI11527243"
/translation"MAKSDALLPISAREEDPLLSDGSRSDPNAETHGRRR
PVKGLLAV SFGLFFIAFYVALIATHDGS
RSNDVKIESDGTATKASRAHLAGVSEKSNDQLWKLSGD
RNTVAFSWNNSMLSWQRTAFHFQPEQNWMNDPNGPLFYKG
WYHFFYQYNPNAAVWGDI
VWGHAVSKDLIHWVHLPLAMAADQWYDANGVWTGSATFLEDGSIVMLYTG
STDKSVQV QNLAYPEDLNDPLLLKWVKF
PGNPVLVPPPGILPKDFRDPTTAWKTSAGKWRITIGSK
INRTGISLVYDTTDFKTYEKLETLLHKVPNTGMWECVDFY
PVSKTLVKGLDTSVNGPD
VKHIVKASMDDTRIDHYAIGTYFDSNGTWTPDDPTIDVGISTSLRYDYGK
FYASKTFY DQNKGRRILWGWIGESDSES
ADVQKGWSSLQGIPRTVVLDTKTGKNLVQWPVEEVKSL
RLSSKKFDMEVGPGSLVHIDVGSAAQLDIEAEFEIKKESL
EKILGDASAAAEAEEFSC
QKSGGSTVRGALGPFGFSVLAHESLSEKTPVYFYVAKGKDSKLITFFCTD
SSRSSFAN DVVKPIYGSSVPVLKGEKLT
MRILVDHSIVEAFGQGGRTCITSRVYPTKAIYGAAKLF
LFNNAIDATITASFKVWQMNSAFIQPYSEEAVRALSRT"
Lien vers la base Taxon du NCBI
Lien vers la base Enzyme
Lien vers la fiche de la protéine dans Genbank
46II Les banques de données II.2.a GENBANK
BASE COUNT 632 a 489 c 532 g 598
t ORIGIN 1 caaaaagaaa gaaactcgaa
aacgagaaaa aaccatggcg aagtctgacg ctctcttgcc
61 aatctccgcc agagaagaag atcctctatt atccgacggg
tcaagatccg acccaaatgc 121 cgaaacccat
ggccgtagaa gacccgtgaa aggtctcctc gccgtctcat
ttgggctttt 181 ctttatcgcc ttctacgtcg
ctctcatcgc cacacacgac ggatctagat ccaacgacgt
241 taagatcgaa agcgatggaa cagcgaccaa agcgtcacgt
gcccatctcg ccggcgtctc 301 ggagaaaagc
aatgatcagt tgtggaagct ttccggtgac aggaatacgg
tggcgttctc 361 atggaacaac agtatgttgt
cgtggcaacg aacggcgttt catttccaac ctgaacagaa
421 ctggatgaac gatcctaatg gtccattgtt ctacaaagga
tggtaccatt tcttctacca 481 gtacaaccca
aacgcagcag tatggggtga cattgtttgg ggtcatgccg
tgtctaagga /../ 1861 aagggtatat
ccaacaaagg ccatctatgg agcagcgaag cttttcttgt
tcaacaatgc 1921 cattgatgcg actattacgg
catcgtttaa ggtgtggcag atgaacagtg cttttattca
1981 gccttactct gaggaggctg ttcgtgctct ctcccgcaca
tgattataca cccatctcca 2041 gcaaattctt
tttttttttt ttttgtagat ttacttatta aaacttataa
atatcgttct 2101 gttattcttc caatttagct
cgttcaatta ttctattggg gttcaatttg attcatcata
2161 tgtaagaaaa atgggttact tgagaaattt tttttctcat
tatctttaat aaaattttgg 2221 tgaaaaaaaa
aaaaaaaaaa aaaaaaaaaa a //
47II Les banques de données II.2.a GENBANK
Contenu de Genbank
48II Les banques de données II.2.b Visualisation
des séquences nucléiques
- EMBL et DDBJ stockent les même séquences sous un
format très similaire - Devant la complexité croissante des fiches et
notamment avec larrivée des tables de
features , de nouveaux outils ont été
développés pour visualiser ces fiches. - ARTEMIS est lun dentre-eux
- Développé en langage JAVA (multiplateforme)
- Logiciel libre (gratuit)
- Visualise toute fiche GenBank/EMBL
- Permet déditer ces fiches et de créer de
nouvelles annotations
49(No Transcript)
50II Les banques de données
- II.3 Les banques de séquences protéiques
- PIR / NRL-3D
- PIR
- littérature, soumissions, traductions de Genbank,
EMBL et DDBJ - annotations automatiques, classification en
familles (50 didentité), superfamilles,
domaines - annotations bibliographiques et vérifications
(PIR1 et PIR2). 170 000 entrées classifiées mais
dannotation pauvre - NRL-3D
- séquences et annotations issues de la PDB. 23 000
entrées
51II Les banques de données II.3 Les banques de
séquences protéiques
- II.3.a SWISS-PROT / TREMBL
- SWISS-PROT
- Origine des séquences littérature, soumissions
- Annotations manuelles (littérature, experts) 100
000 entrées (10/01) - TREMBL
- Traduction des CDS de EMBL par le programme
trembl - ORF (Open Reading Frame) Phase ouverte de
lecture séquence nucléique comprise entre deux
codons stop - CDS (coding sequence) sequence nucléique
codant pour une protéine. Elle est contenue dans
une phase ouverte de lecture et débute par un
codon start. - Annotations automatiques SP-TREMBL 300 192
entrées - Après expertise les fiches TREMBL validée sont
transférées dans SWISS-PROT
52II.3.a SWISS-PROT / TREMBL
ID line toujours la première ligne, elle
contient le nom de la séquence au format X_Y X
nom de la protéine ( mnémonique de 4 lettres) Y
code espèce (5 lettres genre (3) espèce (2))
Classe Standard/preliminary
taille
ID HXK1_ARATH STANDARD PRT 496
AA. AC Q42525 Q42535 DT 01-NOV-1997 (Rel.
35, Created) DT 16-OCT-2001 (Rel. 40, Last
sequence update) DT 16-OCT-2001 (Rel. 40, Last
annotation update) DE Hexokinase 1 (EC
2.7.1.1). GN HXK1 OR AT4G29130 OR
F19B15.160. OS Arabidopsis thaliana (Mouse-ear
cress). OC Eukaryota Viridiplantae
Streptophyta Embryophyta Tracheophyta OC
Spermatophyta Magnoliophyta eudicotyledons
core eudicots Rosidae OC eurosids II
Brassicales Brassicaceae Arabidopsis. OX
NCBI_TaxID3702
53II.3.a SWISS-PROT / TREMBL
ID HXK1_ARATH STANDARD PRT 496
AA. AC Q42525 Q42535 DT 01-NOV-1997 (Rel.
35, Created) DT 16-OCT-2001 (Rel. 40, Last
sequence update) DT 16-OCT-2001 (Rel. 40, Last
annotation update) DE Hexokinase 1 (EC
2.7.1.1). GN HXK1 OR AT4G29130 OR
F19B15.160. OS Arabidopsis thaliana (Mouse-ear
cress). OC Eukaryota Viridiplantae
Streptophyta Embryophyta Tracheophyta OC
Spermatophyta Magnoliophyta eudicotyledons
core eudicots Rosidae OC eurosids II
Brassicales Brassicaceae Arabidopsis. OX
NCBI_TaxID3702
Numéros daccession primaire et secondaire(s)
54II.3.a SWISS-PROT / TREMBL
ID HXK1_ARATH STANDARD PRT 496
AA. AC Q42525 Q42535 DT 01-NOV-1997 (Rel.
35, Created) DT 16-OCT-2001 (Rel. 40, Last
sequence update) DT 16-OCT-2001 (Rel. 40, Last
annotation update) DE Hexokinase 1 (EC
2.7.1.1). GN HXK1 OR AT4G29130 OR
F19B15.160. OS Arabidopsis thaliana (Mouse-ear
cress). OC Eukaryota Viridiplantae
Streptophyta Embryophyta Tracheophyta OC
Spermatophyta Magnoliophyta eudicotyledons
core eudicots Rosidae OC eurosids II
Brassicales Brassicaceae Arabidopsis. OX
NCBI_TaxID3702
Description champ texte
55II.3.a SWISS-PROT / TREMBL
synonyme
DE Corticotropin-lipotropin precursor
(Pro-opiomelanocortin) (POMC) DE Contains
NPP Melanotropin gamma (Gamma-MSH)
Corticotropin DE (Adrenocorticotropic hormone)
(ACTH) Melanotropin alpha (Alpha-MSH) DE
Corticotropin-like intermediary peptide (CLIP)
Lipotropin beta (Beta- DE LPH) Lipotropin
gamma (Gamma-LPH) Melanotropin beta
(Beta-MSH) DE Beta-endorphin Met-enkephalin.
56II.3.a SWISS-PROT / TREMBL
DE Corticotropin-lipotropin precursor
(Pro-opiomelanocortin) (POMC) DE Contains
NPP Melanotropin gamma (Gamma-MSH)
Corticotropin DE (Adrenocorticotropic hormone)
(ACTH) Melanotropin alpha (Alpha-MSH) DE
Corticotropin-like intermediary peptide (CLIP)
Lipotropin beta (Beta- DE LPH) Lipotropin
gamma (Gamma-LPH) Melanotropin beta
(Beta-MSH) DE Beta-endorphin Met-enkephalin.
Liste des peptides produits après clivage de la
protéine initiale
57II.3.a SWISS-PROT / TREMBL
ID HXK1_ARATH STANDARD PRT 496
AA. AC Q42525 Q42535 DT 01-NOV-1997 (Rel.
35, Created) DT 16-OCT-2001 (Rel. 40, Last
sequence update) DT 16-OCT-2001 (Rel. 40, Last
annotation update) DE Hexokinase 1 (EC
2.7.1.1). GN HXK1 OR AT4G29130 OR
F19B15.160. OS Arabidopsis thaliana (Mouse-ear
cress). OC Eukaryota Viridiplantae
Streptophyta Embryophyta Tracheophyta OC
Spermatophyta Magnoliophyta eudicotyledons
core eudicots Rosidae OC eurosids II
Brassicales Brassicaceae Arabidopsis. OX
NCBI_TaxID3702
gènes
58II.3.a SWISS-PROT / TREMBL
Travaux pratiqués sur la séquence par les
auteurs. Ici, le commentaire indique que seule
la séquence nucléique est expérimentale par
conséquent la séquence protéique
est conceptuelle
RN 1 RP SEQUENCE FROM N.A. RC STRAINCV.
LANDSBERG ERECTA RX MEDLINE95334527
PubMed7610198 RA Dai N., Schaffer A.A.,
Petreikov M., Granot D. RT "Arabidopsis
thaliana hexokinase cDNA isolated by
complementation of RT yeast cells." RL Plant
Physiol. 108879-880(1995).
59II.3.a SWISS-PROT / TREMBL
RN 1 RP SEQUENCE FROM N.A. RC STRAINCV.
LANDSBERG ERECTA RX MEDLINE95334527
PubMed7610198 RA Dai N., Schaffer A.A.,
Petreikov M., Granot D. RT "Arabidopsis
thaliana hexokinase cDNA isolated by
complementation of RT yeast cells." RL Plant
Physiol. 108879-880(1995).
Reference comment origine biologique de la
séquence (organisme, plasmide, tissu)
60II.3.a SWISS-PROT / TREMBL
Blocs de commentaires
CC -!- CATALYTIC ACTIVITY ATP D-hexose ADP
D-hexose 6-phosphate. CC -!- SUBCELLULAR
LOCATION CHLOROPLAST OUTER ENVELOPE CYTOPLASMIC
SIDE (BY SIMILARITY). CC -!- SIMILARITY
BELONGS TO THE HEXOKINASE FAMILY. DR EMBL
U28214 AAB49908.1 -. DR InterPro IPR001312
Hexokinase. DR Pfam PF00349 hexokinase 1. DR
PROSITE PS00378 HEXOKINASES 1. KW
Transferase Kinase Glycolysis ATP-binding
Transmembrane Chloroplast. FT TRANSMEM 4
24 POTENTIAL. FT NP_BIND 101
106 ATP (POTENTIAL). FT DOMAIN 171
197 GLUCOSE-BINDING (POTENTIAL). SQ
SEQUENCE 496 AA 53707 MW 6DC81CE114E0B52B
CRC64 MGKVAVGATV VCTAAVCAVA VLVVRRRMQS
SGKWGRVLAI LKAFEEDCAT PISKLRQVAD TLDFESLNPG
EQILEKIISG MYLGEILRRV/../ LLKMAEDAAF FGDTVPSKLR
IPFIIRTPHM SAMHNDTSPD LKIVGSKIKD ILEVPTTSLK
MRKVVISLCN IIATRGARLS AAGIYGILKK LGRDTTKDEE
VQKSVIAMDG GLFEHYTQFS ECMESSLKEL LGDEASGSVE
VTHSNDGSGI GAALLAASHS LYLEDS //
61 Topic
Description ALTERNATIVE PRODUCTS Description of
the existence of related protein sequence(s)
produced by alternative splicing of the same gene
or by the use of alternative initiation
codons BIOTECHNOLOGY Description of the use of
a specific protein in a biotechnological process
CATALYTIC ACTIVITY Description of the
reaction(s) catalyzed by an enzyme 1
CAUTION This topic warns you about possible
errors and/or grounds for confusion
COFACTOR Description of an enzyme cofactor
DATABASE Description of a cross-reference to
a network database/resource for a specific
protein 2 DEVELOPMENTAL STAGE Description of
the developmental specific expression of a
protein DISEASE
Description of the disease(s) associated with
a deficiency of a protein DOMAIN
Description of the domain
structure of a protein ENZYME REGULATION
Description of an enzyme regulatory mechanism
FUNCTION General description of the
function(s) of a protein INDUCTION Descriptio
n of the compound(s) which stimulate the
synthesis of a protein MASS SPECTROMETRY
Reports the exact molecular weight of a protein
or part of a protein as determined by mass
spectrometric methods 3
MISCELLANEOUS Any comment which does not
belong to any of the other defined topics
PATHWAY Description of the metabolic
pathway(s) with which a protein is associated
PHARMACEUTICAL Description of the use of a
specific protein as a pharmaceutical drug
POLYMORPHISM Description of polymorphism(s)
PTM
Description of a posttranslational
modification SIMILARITY Description of
the similaritie(s) (sequence or structural) of a
protein with other proteins SUBCELLULAR LOCATION
Description of the subcellular location of the
mature protein SUBUNIT Description of the
quaternary structure of a protein TISSUE
SPECIFICITY Description of the tissue
specificity of a protein
62II.3.a SWISS-PROT / TREMBL
CC -!- CATALYTIC ACTIVITY ATP D-hexose ADP
D-hexose 6-phosphate. CC -!- SUBCELLULAR
LOCATION CHLOROPLAST OUTER ENVELOPE CYTOPLASMIC
SIDE (BY SIMILARITY). CC -!- SIMILARITY
BELONGS TO THE HEXOKINASE FAMILY. DR EMBL
U28214 AAB49908.1 -. DR InterPro IPR001312
Hexokinase. DR Pfam PF00349 hexokinase 1. DR
PROSITE PS00378 HEXOKINASES 1. KW
Transferase Kinase Glycolysis ATP-binding
Transmembrane Chloroplast. FT TRANSMEM 4
24 POTENTIAL. FT NP_BIND 101
106 ATP (POTENTIAL). FT DOMAIN 171
197 GLUCOSE-BINDING (POTENTIAL). SQ
SEQUENCE 496 AA 53707 MW 6DC81CE114E0B52B
CRC64 MGKVAVGATV VCTAAVCAVA VLVVRRRMQS
SGKWGRVLAI LKAFEEDCAT PISKLRQVAD TLDFESLNPG
EQILEKIISG MYLGEILRRV/../ LLKMAEDAAF FGDTVPSKLR
IPFIIRTPHM SAMHNDTSPD LKIVGSKIKD ILEVPTTSLK
MRKVVISLCN IIATRGARLS AAGIYGILKK LGRDTTKDEE
VQKSVIAMDG GLFEHYTQFS ECMESSLKEL LGDEASGSVE
VTHSNDGSGI GAALLAASHS LYLEDS //
Data base cross-reference
63II.3.a SWISS-PROT / TREMBL
CC -!- CATALYTIC ACTIVITY ATP D-hexose ADP
D-hexose 6-phosphate. CC -!- SUBCELLULAR
LOCATION CHLOROPLAST OUTER ENVELOPE CYTOPLASMIC
SIDE (BY SIMILARITY). CC -!- SIMILARITY
BELONGS TO THE HEXOKINASE FAMILY. DR EMBL
U28214 AAB49908.1 -. DR InterPro IPR001312
Hexokinase. DR Pfam PF00349 hexokinase 1. DR
PROSITE PS00378 HEXOKINASES 1. KW
Transferase Kinase Glycolysis ATP-binding
Transmembrane Chloroplast. FT TRANSMEM 4
24 POTENTIAL. FT NP_BIND 101
106 ATP (POTENTIAL). FT DOMAIN 171
197 GLUCOSE-BINDING (POTENTIAL). SQ
SEQUENCE 496 AA 53707 MW 6DC81CE114E0B52B
CRC64 MGKVAVGATV VCTAAVCAVA VLVVRRRMQS
SGKWGRVLAI LKAFEEDCAT PISKLRQVAD TLDFESLNPG
EQILEKIISG MYLGEILRRV/../ LLKMAEDAAF FGDTVPSKLR
IPFIIRTPHM SAMHNDTSPD LKIVGSKIKD ILEVPTTSLK
MRKVVISLCN IIATRGARLS AAGIYGILKK LGRDTTKDEE
VQKSVIAMDG GLFEHYTQFS ECMESSLKEL LGDEASGSVE
VTHSNDGSGI GAALLAASHS LYLEDS //
64II.3.a SWISS-PROT / TREMBL
CC -!- CATALYTIC ACTIVITY ATP D-hexose ADP
D-hexose 6-phosphate. CC -!- SUBCELLULAR
LOCATION CHLOROPLAST OUTER ENVELOPE CYTOPLASMIC
SIDE (BY SIMILARITY). CC -!- SIMILARITY
BELONGS TO THE HEXOKINASE FAMILY. DR EMBL
U28214 AAB49908.1 -. DR InterPro IPR001312
Hexokinase. DR Pfam PF00349 hexokinase 1. DR
PROSITE PS00378 HEXOKINASES 1. KW
Transferase Kinase Glycolysis ATP-binding
Transmembrane Chloroplast. FT TRANSMEM 4
24 POTENTIAL. FT NP_BIND 101
106 ATP (POTENTIAL). FT DOMAIN 171
197 GLUCOSE-BINDING (POTENTIAL). SQ
SEQUENCE 496 AA 53707 MW 6DC81CE114E0B52B
CRC64 MGKVAVGATV VCTAAVCAVA VLVVRRRMQS
SGKWGRVLAI LKAFEEDCAT PISKLRQVAD TLDFESLNPG
EQILEKIISG MYLGEILRRV/../ LLKMAEDAAF FGDTVPSKLR
IPFIIRTPHM SAMHNDTSPD LKIVGSKIKD ILEVPTTSLK
MRKVVISLCN IIATRGARLS AAGIYGILKK LGRDTTKDEE
VQKSVIAMDG GLFEHYTQFS ECMESSLKEL LGDEASGSVE
VTHSNDGSGI GAALLAASHS LYLEDS //
65II.3.a SWISS-PROT / TREMBL
CC -!- CATALYTIC ACTIVITY ATP D-hexose ADP
D-hexose 6-phosphate. CC -!- SUBCELLULAR
LOCATION CHLOROPLAST OUTER ENVELOPE CYTOPLASMIC
SIDE (BY SIMILARITY). CC -!- SIMILARITY
BELONGS TO THE HEXOKINASE FAMILY. DR EMBL
U28214 AAB49908.1 -. DR InterPro IPR001312
Hexokinase. DR Pfam PF00349 hexokinase 1. DR
PROSITE PS00378 HEXOKINASES 1. KW
Transferase Kinase Glycolysis ATP-binding
Transmembrane Chloroplast. FT TRANSMEM 4
24 POTENTIAL. FT NP_BIND 101
106 ATP (POTENTIAL). FT DOMAIN 171
197 GLUCOSE-BINDING (POTENTIAL). SQ
SEQUENCE 496 AA 53707 MW 6DC81CE114E0B52B
CRC64 MGKVAVGATV VCTAAVCAVA VLVVRRRMQS
SGKWGRVLAI LKAFEEDCAT PISKLRQVAD TLDFESLNPG
EQILEKIISG MYLGEILRRV/../ LLKMAEDAAF FGDTVPSKLR
IPFIIRTPHM SAMHNDTSPD LKIVGSKIKD ILEVPTTSLK
MRKVVISLCN IIATRGARLS AAGIYGILKK LGRDTTKDEE
VQKSVIAMDG GLFEHYTQFS ECMESSLKEL LGDEASGSVE
VTHSNDGSGI GAALLAASHS LYLEDS //
66- II.3.b Annotations des séquences de Swiss-Prot
- Elles concernent les points suivants
- Fonction(s) de la protéine
- Modifications post-traductionnelles (acétylation,
phosphorylation,) - Domaines et sites (liaison au calcium, à lATP,
doigts de zinc, ) - Structure secondaire
- Structure quaternaire (homodimère, hétérotrimère,
) - Similitudes avec dautres protéines
- Maladies associées à une protéine
- Conflits sur la séquence, existence de variants,
- Sources de linformation
- Articles concernant une nouvelle séquence
- Article de synthèse sur les familles de protéines
- Groupe dexperts
- Les mises à jour sont régulières
- La redondance est limitée au mieux
67II.3.c Quelques statistiques sur Swiss-Prot
68II.3.c Quelques statistiques sur Swiss-Prot
69II.3.c Quelques statistiques sur Swiss-Prot
70II.3.c Quelques statistiques sur Swiss-Prot
71II Les banques de données
- II.4 Les banques dalignements et de motifs
72II.4 Les banques dalignements et de motifs
- Définitions
- Domaine portion d'une protéine supposée avoir
un repliement indépendant du reste de la
protéine, et posséder une fonction spécifique. - Motif segment court et conservé d'une séquence
nucléique ou protéique. Les motifs sont
fréquemment des parties hautement conservées des
domaines. - Tout commence par des alignements multiples
- Alignement Processus par lequel deux séquences
sont comparées afin d'obtenir le plus de
correspondances (identités ou substitutions )
possibles entre les nucléotides ou acides aminés
qui les composent. - Alignement global alignement des deux séquences
sur toute leur longueur. (Gap) - Alignement local alignement des deux séquences
sur une portion de leur longueur. (Fasta et
Blast) - Alignement optimal alignement de deux séquences
de façon à obtenir le plus haut score possible.
(Needleman et Wunsch) - Alignement multiple alignement global de trois
ou plus de trois séquences. (ClustalW)
73II.4 Les banques dalignements et de motifs
- Il existe de nombreuses banques dalignements et
de motifs - PROSITE SIB, Dictionnaire de sites et motifs
protéiques (expressions régulières) - Profiles ISREC, Lausanne, matrices pondérées
(profils) - PRINTS UCL London, (Protein Motif Fingerprint
Database). Une empreinte (fingerprint) est un
groupe conservé de motifs utilisé pour
caractériser une famille de protéines - Pfam Sanger centre, Collection de familles
alignées de protéines, générées automatiquement
ou semi-automatiquement par la méthode "Hidden
Markov Models" (HMMs). - BLOCKS FHCRC Seattle, blocks , alignements
multiples de segments sans insertions,
correspondant aux régions les mieux conservées de
Prosite - ProDom (PROtein DOMain Database) INRA,
Toulouse, compilation automatisée des domaines
homologues (alignements multiples et consensus)
détectés dans Swiss-prot
74II.4 Les banques dalignements et de motifs
II.4.a PROSITE / PROFILES SIB, expressions
régulières
Alignement multiple de séquences homologues
issues de Swiss-Prot
Détermination manuelle dune expression consensus
Affinage du consensus contre Swiss-Prot Le
consensus doit permettre de récupérer les
séquences qui ont servi à le construire. Il y a
des faux positifs ainsi que des faux négatifs.
pattern / profile C-x(3)-LIVMFY-x(5)-LIVMFY
-x(3)-DENQ-LIVMFY-x(10)- C-x(3)-C-T-x(4)-C-x-
LIVMFY-F-x-FY-x(13,14)-C-x-
LIVMFY-RK-x-ST-x(14,15)-S-
G-x-ST-LIVMFY-x(2)-C
Version 16.53, of 06-Dec-2001 (contient 1104
fiches documentation décrivant 1494
patterns , règles et profils/matrices).
75(No Transcript)
76II.4 Les banques dalignements et de motifs
II.4.b PRINTS UCL London, empreintes
(fingerprints)
Alignement local
Identification manuelle dun Fingerprint
ensemble de 1 à n motifs
Affinage contre OWL
Fingerprint composé dun jeu de motifs
Version 32.0 de PRINTS contient 1600 entrées,
codant 9800 motifs.
77II.4 Les banques dalignements et de motifs
II.4.c Pfam Sanger centre, HMMs profiles
Alignement multiple édité manuellement
Un profil HMM en est dérivé Progression
aléatoire estimant la probabilité de transition
à chaque étape et utilisant la technique
d'apprentissage
Alignement pleine longueur final
Pfam A Alignements précis vérifiés, annotés
(3071 familles, 267598 séquences) Pfam B
Clustering automatique de Swiss Prot / Trembl,
non annoté (57477, 126378)
78(No Transcript)
79Modèle de Markov
émission
transition
0.4
C 0.6
C 0.8
0.8
0.4
0.2
G 0.4
G 0.2
0.2
0
P(CG) 0.8 0.8 0.4 0.4 0.102 P(GC) 0.2
0.2 0.2 0.6 0.004 P(GA) 0.2 0.2 0
0 0
80II.4 Les banques dalignements et de motifs
II.4.c Pfam Sanger centre, HMMs profiles
Pfam entry Glyco_hydro_68 Accession number
PF02435 Definition Levansucrase/Invertase
Author Mian N, Bateman A Alignment method
of seed Clustalw Source of seed members
Pfam-B_2011 (release 5.4) Gathering cutoffs
25 25 Trusted cutoffs 825.60 825.60 Noise
cutoffs -256.10 -256.10 HMM build command
line hmmbuild -F HMM SEED HMM build command
line hmmcalibrate --seed 0 HMM Reference
Number 1 Reference Medline 98394981
Reference Title Cloning, nucleotide sequence,
and expression in Escherichia Reference Title
coli of levansucrase genes from the plant
pathogens Reference Title Pseudomonas
syringae pv. glycinea and P. syringae pv.
Reference Title phaseolicola. Reference
Author Hettwer U, Jaeckel FR, Boch J, Meyer M,
Rudolph K, Ullrich Reference Author MS Referen
ce Location Appl Environ Microbiol
1998643180-3187. Database Reference
INTERPRO IPR003469 Comment This Pfam
family consists of the glycosyl hydrolase 68
family, Comment including several bacterial
levansucrase enzymes, and invertase from
Comment zymomonas. Number of members 14
81II.4 Les banques dalignements et de motifs
II.4.d PRODOM
Swiss Prot Trembl
PSI-BLAST récursifs
Domaines, consensus
82II.4 Les banques dalignements et de motifs
II.4.e BLOCKS FHCRC Seattle, blocks
Prosite (4034)
ProDom (1066)
Pfam(2258)
Domo(306)
Groupes de protéines
Alignement local sans gap avec un germe de trois
acides aminés
BLOCKS
Calibration contre Swiss Prot
Version 13.0 (08/001) 8656 blocks représentant
2101 groupes
83II.4 Les banques dalignements et de motifs
II.4.f Quelle banque pour quel résultat ?
Recherche des membres de super-familles très
divergentes Profiles, Pfam
Recherche des membres de sous-familles Prints
Recherche de motifs courts Prosite, Blocks
84II.4 Les banques dalignements et de motifs
II.4.f INTERPRO la base intégrative
INTERPRO Pfam, Prints, Prosite, Swiss Prot /
Trembl sont intégrées dans une hiérarchie
formant des familles.
85II.5 La recherche dans les banques
- Mots-clés et critères
- Numéro daccession
- Nom de séquence
- Organisme
- Définition
- Taille dune séquence
- Séquence
- Recherche de séquences homologues
- Recherche de domaines ou de motifs
86II.5 La recherche dans les banques II.5.a
ENTREZ
87(No Transcript)
88II.5 La recherche dans les banques II.5.b SRS
(Sequence Retrieval System)
89(No Transcript)
90(No Transcript)
91(No Transcript)
92(No Transcript)
93Recherche de similarités entre séquences
biologiques
- Objectifs
- Recherche dinformations sur la fonction
biologique - Etude de la structure (motifs, domaines, )
- Informations sur lévolution des séquences
(phylogénie) - Constitue en générale la première étape
- de létude dune séquence nouvelle
94Recherche de similarités entre séquences
biologiques
- La recherche de similarités permet de mettre en
évidence les régions proches de deux séquences - Similarité et homologie
- Deux gènes sont homologues sils ont un gène
ancêtre en commun - On doit donc parler de recherche de similarités.
- Si une protéine partage 25 didentité sur une
longueur de 100 acides aminés avec une autre, on
pourra parler dhomologie
95Recherche de similarités entre séquences
biologiques
- On peut comparer des séquences nucléiques ou des
séquences protéiques - La probabilité est plus forte de trouver de la
similarité par hasard dans les comparaisons
ADN/ADN car on se restreint à 4 nucléotides
contre 20 acides aminés - Séquence de 10 bases -gt 410 séquences possibles
soit 1 048 576 - Les banques publiques contiennent 8.109
nucléotides à partir desquels on peut extraire
environ 7.109 séquences de 10 bases. Une séquence
particulière de 10 bases peut donc sy trouver
6600 fois simplement par hasard. - Ainsi obtenir 100 didentité sur 10 bases
peut ne pas avoir beaucoup de signification
biologique et nêtre que le fruit du hasard - Séquence de 10 aa -gt 2010 séquences possibles
soit 10,24.1012
96Recherche de similarités entre séquences
biologiques
- La recherche de similarités repose sur des
processus évolutifs les mutations
Séq. 1 G T C A G
substitution
Séq. 2 G T T A G
suppression
Séq. 3 G T A G
insertion
Séq. 4 G T A T G
97Recherche de similarités entre séquences
biologiques
- La mise en évidence de similarités réclame
daligner des séqu