Title: Interoprabilit et qualit dans le contexte de SwissProt
1Interopérabilité et qualité dans le contexte de
Swiss-Prot
Amos Bairoch Institut Suisse de Bioinformatique
(ISB) Groupe Swiss-Prot Séminaire INTech 23
Octobre 2003
2Swiss-Prot
- Created in July 1986 since 1987, a collaboration
of the SIB and the EMBL/EBI from 2003 onward it
is the central part of the UniProt project - Annotated, non-redundant, cross-referenced,
documented protein sequence knowledge resource - 136000 sequences 125000 references 1200000
cross-references 320 Mb of annotations - About 935000 sequences in TrEMBL, the Swiss-Prot
computer-annotated supplement - Weekly releases available from about 50 servers,
the main source being ExPASy.
3The ExPASy WWW server
www.expasy.org
10 years of continuous service to the user
community
- First molecular biology server on the Web (August
1993) 320 million access since - Dedicated to proteomics
- Databases Swiss-Prot, PROSITE, Swiss-2DPAGE,
etc. - Many 2D/MS protein identification/characterization
and sequence analysis tools - Mirror sites in Australia, Bolivia, Canada,
China, Korea, Taiwan and USA. Soon in Brazil.
4The contents of the Swiss-Prot protein
knowledgebase
- Sequences!
- ANNOTATIONS
- References
- Taxonomic data
- Keywords
- Cross-references
- Documentation
- Function(s) role(s)
- Post-translational modifications
- Domains
- Subcellular location
- Protein/protein interactions
- Similarities
- Diseases, mutagenesis
- Conflicts and variants
5ID CYC_HUMAN STANDARD PRT 104
AA. AC P00001 Q96BV4 DT 21-JUL-1986 (Rel. 01,
Created) DT 21-JUL-1986 (Rel. 01, Last sequence
update) DT 15-JUN-2002 (Rel. 41, Last annotation
update) DE Cytochrome c. GN CYC. OS Homo
sapiens (Human), and OS Pan troglodytes
(Chimpanzee). OC Eukaryota Metazoa Chordata
Craniata Vertebrata Euteleostomi OC Mammalia
Eutheria Primates Catarrhini Hominidae
Homo. OX NCBI_TaxID9606, 9598 RN 1 RP
SEQUENCE. RC SPECIESHuman TISSUEHeart RA
Matsubara H., Smith E.L. RT "The amino acid
sequence of human heart cytochrome c." RL J.
Biol. Chem. 2373575-3576(1962). RN 2 RP
SEQUENCE. RC SPECIESHuman TISSUEHeart RA
Matsubara H., Smith E.L. RT "Human heart
cytochrome c. Chymotryptic peptides, tryptic
peptides, RT and the complete amino acid
sequence." RL J. Biol. Chem. 2382732-2753(1963)
. RN 3 RP SEQUENCE FROM N.A. RC
SPECIESHuman RX MEDLINE89071748
PubMed2849112 RA Evans M.J., Scarpulla
R.C. RT "The human somatic cytochrome c gene
two classes of processed RT pseudogenes
demarcate a period of rapid molecular
evolution." RL Proc. Natl. Acad. Sci. U.S.A.
859625-9629(1988). RN 4 RP SEQUENCE FROM
N.A. RC SPECIESHuman TISSUEAmygdala RA
Ansorge W., Wirkner U., Mewes H.-W., Weil B.,
Wiemann S. RL Submitted (MAR-2002) to the
EMBL/GenBank/DDBJ databases. RN 5 RP SEQUENCE
FROM N.A. RC SPECIESHuman RC TISSUEBone
marrow, Brain, Skeletal muscle, Skin, and Urinary
bladder RA Strausberg R. RL Submitted
(FEB-2002) to the EMBL/GenBank/DDBJ databases. RN
6 RP SEQUENCE, AND COMPOSITION OF
CHYMOTRYPTIC PEPTIDES. RC SPECIESP.troglodytes
RX MEDLINE69150225 PubMed4975694 RA
Needleman S.B., Margoliash E. RL Unpublished
results, cited by RL Margoliash E., Fitch
W.M. RL Ann. N.Y. Acad. Sci. 151359-381(1968).
RN 7 RP REVIEW ON ROLE IN APOPTOSIS. RX
PubMed9515723 RA Skulachev V.P. RT
"Cytochrome c in the apoptotic and antioxidant
cascades." RL FEBS Lett. 423275-280(1998).
CC -!- FUNCTION Electron carrier protein. The
oxidized form of the CC cytochrome c heme
group can accept an electron from the heme
group CC of the cytochrome c1 subunit of
cytochrome reductase. Cytochrome c CC then
transfers this electron to the cytochrome oxidase
complex, CC the final protein carrier in the
mitochondrial electron-transport CC
chain. CC -!- FUNCTION Play a role in
apoptosis. Suppression of the anti- CC
apoptotic members or activation of the
pro-apoptotic members of CC the Bcl-2 family
leads to altered mitochondrial membrane CC
permeability resulting in release of cytochrome c
into the CC cytosol. Binding of cytochrome c
to Apaf-1 triggers the activation CC of
caspase-9, which then accelerates apoptosis by
activating other CC caspases. CC -!-
SUBCELLULAR LOCATION Mitochondrial matrix. CC
-!- PTM Binds one heme group per molecule. CC
-!- SIMILARITY Belongs to the cytochrome c
family. DR EMBL M22877 AAA35732.1 -. DR
EMBL AL713681 CAD28485.1 -. DR EMBL
BC005299 AAH05299.1 -. DR EMBL BC008475
AAH08475.1 -. DR EMBL BC008477 AAH08477.1
-. DR EMBL BC009578 AAH09578.1 -. DR EMBL
BC009579 AAH09579.1 -. DR EMBL BC009582
AAH09582.1 -. DR EMBL BC009587 AAH09587.1
-. DR EMBL BC009602 AAH09602.1 -. DR EMBL
BC009607 AAH09607.1 -. DR EMBL BC014359
AAH14359.1 -. DR EMBL BC014361 AAH14361.1
-. DR EMBL BC015130 AAH15130.1 -. DR EMBL
BC016006 AAH16006.1 -. DR EMBL BC021994
AAH21994.1 -. DR EMBL BC022330 AAH22330.1
-. DR PIR A31764 CCHU. DR PIR A00002
CCCZ. DR HSSP P00004 1WEJ. DR MIM 123970
-. DR InterPro IPR000345 CytC_heme_bind. DR
InterPro IPR003088 Cyt_CI. DR InterPro
IPR002327 Cyt_CIAB. DR Pfam PF00034
cytochrome_c 2. DR PRINTS PR00604
CYTCHRMECIAB. DR ProDom PD000375 Cyt_CIAB
1. DR PROSITE PS00190 CYTOCHROME_C 1. KW
Mitochondrion Electron transport Respiratory
chain Heme KW Acetylation Polymorphism
Apoptosis. FT INIT_MET 0 0 FT MOD_RES
1 1 ACETYLATION. FT BINDING
14 14 HEME (COVALENT). FT BINDING
17 17 HEME (COVALENT). FT METAL
18 18 IRON (HEME AXIAL LIGAND). FT
METAL 80 80 IRON (HEME AXIAL
LIGAND). FT VARIANT 65 65 M -gt L
(IN 10 OF HUMAN). FT
/FTIdVAR_002204. FT CONFLICT 17 17
C -gt Y (IN REF. 5 AAH15130). SQ SEQUENCE
104 AA 11617 MW D47C9B513DF1C5C2 CRC64
GDVEKGKKIF IMKCSQCHTV EKGGKHKTGP NLHGLFGRKT
GQAPGYSYTA ANKNKGIIWG EDTLMEYLEN PKKYIPGTKM
IFVGIKKKEE RADLIAYLKK ATNE //
6Names, gene names, species, taxonomy
7References
8Comments annotations
9Cross -references
Keywords
10Features annotation
11Sequence
12The golden goals of Swiss-Prot
- Annotated
- Complete
- Non-redundant
- Highly cross-referenced
- Available from a variety of servers and through
sequence analysis software tools - Associated with a wide-range of documentation.
13TrEMBL a platform for the improvement of
automatic annotion tools
- Two important factors
- It is not possible to manually cope with the
speed with which new data is coming out - We do not want to dilute the quality of
Swiss-Prot - The solution
- TrEMBL (TRanslation of EMBL) contains all what
is not yet in Swiss-Prot - TrEMBL is automatically generated and annotated
- After a lot of testing some sequence analysis
tools will be applied systematically SignalP,
TMHMM, REP, InterPro domain assignement, etc. - Rule based annotation expert systems are being
developed and will be applied to TrEMBL starting
in early 2004 - EVIDENCE TAGS are added to any part of a TrEMBL
entry not derived from the original EMBL entry.
14Cross-references
- Explicitly cross-referenced to 53 databases. Such
as DNA (EMBL/GenBank/DDBJ), 3D-structure (PDB),
domain/families (PROSITE, InterPro, Pfam, etc.),
genomic (MIM, MGD, FlyBase, SGD, SubtiList,
etc.), 2D-gel (Swiss-2DPAGE), specialized db
(REBASE, TRANSFAC, etc.) - Implicitly cross-referenced to 30 additional db
on the WWW (DIP, Ensembl, GeneCards, etc.) - Additional links at the level of the taxonomy
(NCBI taxonomy browser and NewT) references
(PubMed and journal full texts) comments
(specialized Web pages) and features (dbSNP).
15Domains, sites, families HAMAP InterPro PIRSF Pfam
PRINTS ProDom PROSITE SMART TIGRFAMs
Sequence EMBL PIR
PTM GlycoSuiteDB PhosSite
Organism-specific dbSNP DictyDb EcoGene FlyBase Ge
neDB_SPombe Genew GK Gramene HIV Leproma ListiList
MaizeDB MGD MypuList OMIM SagaList SGD StyGene Su
btiList TIGR TubercuList WormPep ZFIN
Swiss-Prot explicit links
2D-gel electrophoresis ANU-2DPAGE Aarhus/Ghent-2D
PAGE COMPLUYEAST-2DPAGE ECO2DBASE HSC-2DPAGE MAIZE
-2DPAGE PHCI-2DPAGE PMMA-2DPAGE Siena-2DPAGE SWISS
-2DPAGE
Miscellaneous GermOnline GO MEROPS REBASE TRANSFAC
Structure HSSP PDB
16Controlled vocabularies in Swiss-Prot
- Taxonomy (species names and classification)
- Strain names
- Plasmid names
- Tissues
- Protein names and synonyms
- Catalytic activity (ENZYME db)
- Gene names Human(HUGO/Genew), Mouse(MGD),
Yeast(SGD), Drosophila(Flybase) Bacterial
(EcoGene/SubtiList) - Keywords (list -gt dictionary)
- Author names!
- Journal abbreviations
- Feature keys and some descriptions (PTM)
- CC similarity statements (BELONGS/CONTAINS)
- In the near future COFACTOR, PATHWAY, SUBUNIT.
17Certains problèmes
- Un manque de rigueur de la part de la communauté
des sciences de la vie à utiliser et à faire
évoluer des règles de nomenclature - Lextraordinaire hétérogénéité de linformation
biologique, que ce soit au niveau de la qualité,
du type de données ou de leur représentation - Les ontologies telles que GO (Gene Ontology) sont
une aide précieuse pour permettre de représenter
des processus biologiques, mais malheureusement
elles sont souvent utilisées hors de leur
contexte et souvent mal appliquées.
18La qualité (1/3)
- La qualité de linformation primaire séquence
et structure va en augmentant grâce aux avancées
technologiques - La qualité de linformation secondaire
linterprétation des résultats expérimentaux est
en constante baisse. La pression publish or
perish devient de plus en plus forte et par
conséquent - Ne permet pas aux chercheurs de prendre le temps
de réfléchir - La compétition étant féroce, il est difficile de
bénéficier de lexpertise de collègues
travaillant dans le même domaine - Comme il est presque impossible de décrire des
résultats négatifs, ceux-ci sont mis à la trappe - Il faut savoir se vendre et donc tirer les
conclusions vers ce qui est le plus porteur et
ceci souvent au mépris du bon sens.
19La qualité (2/3)
- Paradoxalement
- Les auteurs des informations collectées par
Swiss-Prot ne sont pas toujours les mieux à même
dassurer une qualité et une consistence maximum - La qualité des informations ne dépend que très
peu du prestige de la source primaire de
linformation. En dautres termes il y a autant
derreurs dans Nature ou Science que dans un
journal bien moins loti en impact factor
20La qualité (3/3)
- Formation des annotatrices/annotateurs. Deux ans
pour devenir indépendent, mais un apprentissage
constant - Chaque entrée de Swiss-Prot est toujours vue par
deux personnes et vérifiée par des logiciels qui
contrôlent le contenu et la consistence de
linformation - Nous développons des systèmes experts pour aider
à trouver les erreurs possibles. Cest loin
dêtre trivial car une exception nest souvent
pas une erreur, mais la conséquence de
lextraordinaire variété du monde vivant.
21Le contraulle de kallité
Est essentiel pour toute banque de données, il
est crucial dans le domaine des sciences de la
vie. Dans Swiss-Prot nous passons une partie
importante de notre temps à cette activité
22The Swiss-Prot staff at SIB and EBI
- Group leaders Amos Bairoch, Rolf Apweiler
- Annotators/curators Andrea Auchincloss, Kristian
Axelsen, Kirsty Bates, Margaret Biswas,
Marie-Claude Blatter Garin, Brigitte Boeckmann,
Silvia Braconi Quintaje, Paul Browne, Eveyl
Camon, Danielle Coral, Elisabeth Coudert, Tania
de Oliveira Lima, Kirill Degtyarenko, Sylvie
Dethiollaz, Anne Estreicher, Livia Famiglietti,
Nathalie Farriol-Mathis, Stephanie Federico,
Serenella Ferro, Gill Fraser, John Garavelli,
Raffaella Gatto, Vivienne Gerritsen, Arnaud Gos,
Nadine Gruaz-Gumowski, Ursula Hinz, Chantal Hulo,
Nicolas Hulo, Janet James, Florence Jungo, Vivien
Junker, Youla Karavidopoulou, Maria
Krestyaninova, Kati Laiho, Minna Lehvaslaiho,
Michele Magrane, Karine Michoud, Virginie
Mittard, Madelaine Moinat, Nicola Mulder, Claire
O'Donovan, Sandra Orchard, Sandrine Pilbout,
Sylvain Poux, Manuela Prüss, Sorogini Reynaud,
Catherine Rivoire, Bernd Röchert, Michel
Schneider, Christian Sigrist, André Stutz,
Shyamala Sundaram, Michael Tognoli, Sandra van
den Broek, Eleanor Whitfield - Programmers and system administrators Daniel
Barrell, David Binns, Laurent Bollondi, Sergio
Contrino, Michael Darsow, Edouard deCastro,
Séverine Duvaud, Alexander Fedetov, Astrid
Fleischmann, Wolfgang Fleischmann, Elisabeth
Gasteiger, Alain Gateau, Andre Hackmann, Henning
Hermjakob, Ivan Ivanyi, Eric Jain , Alexander
Kanapin, Paul Kersey, Ernst Kretschmann, Corinne
Lachaize, Maria-Jesus Martin, Xavier Martin, John
O Rourke, Tom Oinn, Isabelle Phan, Astrid Rakow,
Nicole Redaschi, Kai Runte, Florence Servant,
Allyson Williams, Dan Wu - Research staff Pavel Dobrokhotov, Alexandre
Gattiker, Margus Luk, Anne Morgat, Anne-Lise
Veuthey - Clerical and secretarial assistance Veronique
Mangold, Claudia Sapsezian, Margaret Shore-Nye,
Laure Verbregue