Interoprabilit et qualit dans le contexte de SwissProt - PowerPoint PPT Presentation

1 / 22
About This Presentation
Title:

Interoprabilit et qualit dans le contexte de SwissProt

Description:

... Kirsty Bates, Margaret Biswas, Marie-Claude Blatter Garin, Brigitte ... secretarial assistance: Veronique Mangold, Claudia Sapsezian, Margaret Shore-Nye, ... – PowerPoint PPT presentation

Number of Views:150
Avg rating:3.0/5.0
Slides: 23
Provided by: amo103
Category:

less

Transcript and Presenter's Notes

Title: Interoprabilit et qualit dans le contexte de SwissProt


1
Interopérabilité et qualité dans le contexte de
Swiss-Prot
Amos Bairoch Institut Suisse de Bioinformatique
(ISB) Groupe Swiss-Prot Séminaire INTech 23
Octobre 2003
2
Swiss-Prot
  • Created in July 1986 since 1987, a collaboration
    of the SIB and the EMBL/EBI from 2003 onward it
    is the central part of the UniProt project
  • Annotated, non-redundant, cross-referenced,
    documented protein sequence knowledge resource
  • 136000 sequences 125000 references 1200000
    cross-references 320 Mb of annotations
  • About 935000 sequences in TrEMBL, the Swiss-Prot
    computer-annotated supplement
  • Weekly releases available from about 50 servers,
    the main source being ExPASy.

3
The ExPASy WWW server
www.expasy.org
10 years of continuous service to the user
community
  • First molecular biology server on the Web (August
    1993) 320 million access since
  • Dedicated to proteomics
  • Databases Swiss-Prot, PROSITE, Swiss-2DPAGE,
    etc.
  • Many 2D/MS protein identification/characterization
    and sequence analysis tools
  • Mirror sites in Australia, Bolivia, Canada,
    China, Korea, Taiwan and USA. Soon in Brazil.

4
The contents of the Swiss-Prot protein
knowledgebase
  • Sequences!
  • ANNOTATIONS
  • References
  • Taxonomic data
  • Keywords
  • Cross-references
  • Documentation
  • Function(s) role(s)
  • Post-translational modifications
  • Domains
  • Subcellular location
  • Protein/protein interactions
  • Similarities
  • Diseases, mutagenesis
  • Conflicts and variants

5
ID CYC_HUMAN STANDARD PRT 104
AA. AC P00001 Q96BV4 DT 21-JUL-1986 (Rel. 01,
Created) DT 21-JUL-1986 (Rel. 01, Last sequence
update) DT 15-JUN-2002 (Rel. 41, Last annotation
update) DE Cytochrome c. GN CYC. OS Homo
sapiens (Human), and OS Pan troglodytes
(Chimpanzee). OC Eukaryota Metazoa Chordata
Craniata Vertebrata Euteleostomi OC Mammalia
Eutheria Primates Catarrhini Hominidae
Homo. OX NCBI_TaxID9606, 9598 RN 1 RP
SEQUENCE. RC SPECIESHuman TISSUEHeart RA
Matsubara H., Smith E.L. RT "The amino acid
sequence of human heart cytochrome c." RL J.
Biol. Chem. 2373575-3576(1962). RN 2 RP
SEQUENCE. RC SPECIESHuman TISSUEHeart RA
Matsubara H., Smith E.L. RT "Human heart
cytochrome c. Chymotryptic peptides, tryptic
peptides, RT and the complete amino acid
sequence." RL J. Biol. Chem. 2382732-2753(1963)
. RN 3 RP SEQUENCE FROM N.A. RC
SPECIESHuman RX MEDLINE89071748
PubMed2849112 RA Evans M.J., Scarpulla
R.C. RT "The human somatic cytochrome c gene
two classes of processed RT pseudogenes
demarcate a period of rapid molecular
evolution." RL Proc. Natl. Acad. Sci. U.S.A.
859625-9629(1988). RN 4 RP SEQUENCE FROM
N.A. RC SPECIESHuman TISSUEAmygdala RA
Ansorge W., Wirkner U., Mewes H.-W., Weil B.,
Wiemann S. RL Submitted (MAR-2002) to the
EMBL/GenBank/DDBJ databases. RN 5 RP SEQUENCE
FROM N.A. RC SPECIESHuman RC TISSUEBone
marrow, Brain, Skeletal muscle, Skin, and Urinary
bladder RA Strausberg R. RL Submitted
(FEB-2002) to the EMBL/GenBank/DDBJ databases. RN
6 RP SEQUENCE, AND COMPOSITION OF
CHYMOTRYPTIC PEPTIDES. RC SPECIESP.troglodytes
RX MEDLINE69150225 PubMed4975694 RA
Needleman S.B., Margoliash E. RL Unpublished
results, cited by RL Margoliash E., Fitch
W.M. RL Ann. N.Y. Acad. Sci. 151359-381(1968).
RN 7 RP REVIEW ON ROLE IN APOPTOSIS. RX
PubMed9515723 RA Skulachev V.P. RT
"Cytochrome c in the apoptotic and antioxidant
cascades." RL FEBS Lett. 423275-280(1998).
CC -!- FUNCTION Electron carrier protein. The
oxidized form of the CC cytochrome c heme
group can accept an electron from the heme
group CC of the cytochrome c1 subunit of
cytochrome reductase. Cytochrome c CC then
transfers this electron to the cytochrome oxidase
complex, CC the final protein carrier in the
mitochondrial electron-transport CC
chain. CC -!- FUNCTION Play a role in
apoptosis. Suppression of the anti- CC
apoptotic members or activation of the
pro-apoptotic members of CC the Bcl-2 family
leads to altered mitochondrial membrane CC
permeability resulting in release of cytochrome c
into the CC cytosol. Binding of cytochrome c
to Apaf-1 triggers the activation CC of
caspase-9, which then accelerates apoptosis by
activating other CC caspases. CC -!-
SUBCELLULAR LOCATION Mitochondrial matrix. CC
-!- PTM Binds one heme group per molecule. CC
-!- SIMILARITY Belongs to the cytochrome c
family. DR EMBL M22877 AAA35732.1 -. DR
EMBL AL713681 CAD28485.1 -. DR EMBL
BC005299 AAH05299.1 -. DR EMBL BC008475
AAH08475.1 -. DR EMBL BC008477 AAH08477.1
-. DR EMBL BC009578 AAH09578.1 -. DR EMBL
BC009579 AAH09579.1 -. DR EMBL BC009582
AAH09582.1 -. DR EMBL BC009587 AAH09587.1
-. DR EMBL BC009602 AAH09602.1 -. DR EMBL
BC009607 AAH09607.1 -. DR EMBL BC014359
AAH14359.1 -. DR EMBL BC014361 AAH14361.1
-. DR EMBL BC015130 AAH15130.1 -. DR EMBL
BC016006 AAH16006.1 -. DR EMBL BC021994
AAH21994.1 -. DR EMBL BC022330 AAH22330.1
-. DR PIR A31764 CCHU. DR PIR A00002
CCCZ. DR HSSP P00004 1WEJ. DR MIM 123970
-. DR InterPro IPR000345 CytC_heme_bind. DR
InterPro IPR003088 Cyt_CI. DR InterPro
IPR002327 Cyt_CIAB. DR Pfam PF00034
cytochrome_c 2. DR PRINTS PR00604
CYTCHRMECIAB. DR ProDom PD000375 Cyt_CIAB
1. DR PROSITE PS00190 CYTOCHROME_C 1. KW
Mitochondrion Electron transport Respiratory
chain Heme KW Acetylation Polymorphism
Apoptosis. FT INIT_MET 0 0 FT MOD_RES
1 1 ACETYLATION. FT BINDING
14 14 HEME (COVALENT). FT BINDING
17 17 HEME (COVALENT). FT METAL
18 18 IRON (HEME AXIAL LIGAND). FT
METAL 80 80 IRON (HEME AXIAL
LIGAND). FT VARIANT 65 65 M -gt L
(IN 10 OF HUMAN). FT
/FTIdVAR_002204. FT CONFLICT 17 17
C -gt Y (IN REF. 5 AAH15130). SQ SEQUENCE
104 AA 11617 MW D47C9B513DF1C5C2 CRC64
GDVEKGKKIF IMKCSQCHTV EKGGKHKTGP NLHGLFGRKT
GQAPGYSYTA ANKNKGIIWG EDTLMEYLEN PKKYIPGTKM
IFVGIKKKEE RADLIAYLKK ATNE //
6
Names, gene names, species, taxonomy
7
References
8
Comments annotations
9
Cross -references
Keywords
10
Features annotation
11
Sequence
12
The golden goals of Swiss-Prot
  • Annotated
  • Complete
  • Non-redundant
  • Highly cross-referenced
  • Available from a variety of servers and through
    sequence analysis software tools
  • Associated with a wide-range of documentation.

13
TrEMBL a platform for the improvement of
automatic annotion tools
  • Two important factors
  • It is not possible to manually cope with the
    speed with which new data is coming out
  • We do not want to dilute the quality of
    Swiss-Prot
  • The solution
  • TrEMBL (TRanslation of EMBL) contains all what
    is not yet in Swiss-Prot
  • TrEMBL is automatically generated and annotated
  • After a lot of testing some sequence analysis
    tools will be applied systematically SignalP,
    TMHMM, REP, InterPro domain assignement, etc.
  • Rule based annotation expert systems are being
    developed and will be applied to TrEMBL starting
    in early 2004
  • EVIDENCE TAGS are added to any part of a TrEMBL
    entry not derived from the original EMBL entry.

14
Cross-references
  • Explicitly cross-referenced to 53 databases. Such
    as DNA (EMBL/GenBank/DDBJ), 3D-structure (PDB),
    domain/families (PROSITE, InterPro, Pfam, etc.),
    genomic (MIM, MGD, FlyBase, SGD, SubtiList,
    etc.), 2D-gel (Swiss-2DPAGE), specialized db
    (REBASE, TRANSFAC, etc.)
  • Implicitly cross-referenced to 30 additional db
    on the WWW (DIP, Ensembl, GeneCards, etc.)
  • Additional links at the level of the taxonomy
    (NCBI taxonomy browser and NewT) references
    (PubMed and journal full texts) comments
    (specialized Web pages) and features (dbSNP).

15
Domains, sites, families HAMAP InterPro PIRSF Pfam
PRINTS ProDom PROSITE SMART TIGRFAMs
Sequence EMBL PIR
PTM GlycoSuiteDB PhosSite
Organism-specific dbSNP DictyDb EcoGene FlyBase Ge
neDB_SPombe Genew GK Gramene HIV Leproma ListiList
MaizeDB MGD MypuList OMIM SagaList SGD StyGene Su
btiList TIGR TubercuList WormPep ZFIN
Swiss-Prot explicit links
2D-gel electrophoresis ANU-2DPAGE Aarhus/Ghent-2D
PAGE COMPLUYEAST-2DPAGE ECO2DBASE HSC-2DPAGE MAIZE
-2DPAGE PHCI-2DPAGE PMMA-2DPAGE Siena-2DPAGE SWISS
-2DPAGE
Miscellaneous GermOnline GO MEROPS REBASE TRANSFAC
Structure HSSP PDB
16
Controlled vocabularies in Swiss-Prot
  • Taxonomy (species names and classification)
  • Strain names
  • Plasmid names
  • Tissues
  • Protein names and synonyms
  • Catalytic activity (ENZYME db)
  • Gene names Human(HUGO/Genew), Mouse(MGD),
    Yeast(SGD), Drosophila(Flybase) Bacterial
    (EcoGene/SubtiList)
  • Keywords (list -gt dictionary)
  • Author names!
  • Journal abbreviations
  • Feature keys and some descriptions (PTM)
  • CC similarity statements (BELONGS/CONTAINS)
  • In the near future COFACTOR, PATHWAY, SUBUNIT.

17
Certains problèmes
  • Un manque de rigueur de la part de la communauté
    des sciences de la vie à utiliser et à faire
    évoluer des règles de nomenclature
  • Lextraordinaire hétérogénéité de linformation
    biologique, que ce soit au niveau de la qualité,
    du type de données ou de leur représentation
  • Les ontologies telles que GO (Gene Ontology) sont
    une aide précieuse pour permettre de représenter
    des processus biologiques, mais malheureusement
    elles sont souvent utilisées hors de leur
    contexte et souvent mal appliquées.

18
La qualité (1/3)
  • La qualité de linformation primaire séquence
    et structure va en augmentant grâce aux avancées
    technologiques
  • La qualité de linformation secondaire
    linterprétation des résultats expérimentaux est
    en constante baisse. La pression publish or
    perish devient de plus en plus forte et par
    conséquent
  • Ne permet pas aux chercheurs de prendre le temps
    de réfléchir
  • La compétition étant féroce, il est difficile de
    bénéficier de lexpertise de collègues
    travaillant dans le même domaine
  • Comme il est presque impossible de décrire des
    résultats négatifs, ceux-ci sont mis à la trappe
  • Il faut savoir se vendre et donc tirer les
    conclusions vers ce qui est le plus porteur et
    ceci souvent au mépris du bon sens.

19
La qualité (2/3)
  • Paradoxalement
  • Les auteurs des informations collectées par
    Swiss-Prot ne sont pas toujours les mieux à même
    dassurer une qualité et une consistence maximum
  • La qualité des informations ne dépend que très
    peu du prestige de la source primaire de
    linformation. En dautres termes il y a autant
    derreurs dans Nature ou Science que dans un
    journal bien moins loti en impact factor

20
La qualité (3/3)
  • Formation des annotatrices/annotateurs. Deux ans
    pour devenir indépendent, mais un apprentissage
    constant
  • Chaque entrée de Swiss-Prot est toujours vue par
    deux personnes et vérifiée par des logiciels qui
    contrôlent le contenu et la consistence de
    linformation
  • Nous développons des systèmes experts pour aider
    à trouver les erreurs possibles. Cest loin
    dêtre trivial car une exception nest souvent
    pas une erreur, mais la conséquence de
    lextraordinaire variété du monde vivant.

21
Le contraulle de kallité
Est essentiel pour toute banque de données, il
est crucial dans le domaine des sciences de la
vie. Dans Swiss-Prot nous passons une partie
importante de notre temps à cette activité
22
The Swiss-Prot staff at SIB and EBI
  • Group leaders Amos Bairoch, Rolf Apweiler
  • Annotators/curators Andrea Auchincloss, Kristian
    Axelsen, Kirsty Bates, Margaret Biswas,
    Marie-Claude Blatter Garin, Brigitte Boeckmann,
    Silvia Braconi Quintaje, Paul Browne, Eveyl
    Camon, Danielle Coral, Elisabeth Coudert, Tania
    de Oliveira Lima, Kirill Degtyarenko, Sylvie
    Dethiollaz, Anne Estreicher, Livia Famiglietti,
    Nathalie Farriol-Mathis, Stephanie Federico,
    Serenella Ferro, Gill Fraser, John Garavelli,
    Raffaella Gatto, Vivienne Gerritsen, Arnaud Gos,
    Nadine Gruaz-Gumowski, Ursula Hinz, Chantal Hulo,
    Nicolas Hulo, Janet James, Florence Jungo, Vivien
    Junker, Youla Karavidopoulou, Maria
    Krestyaninova, Kati Laiho, Minna Lehvaslaiho,
    Michele Magrane, Karine Michoud, Virginie
    Mittard, Madelaine Moinat, Nicola Mulder, Claire
    O'Donovan, Sandra Orchard, Sandrine Pilbout,
    Sylvain Poux, Manuela Prüss, Sorogini Reynaud,
    Catherine Rivoire, Bernd Röchert, Michel
    Schneider, Christian Sigrist, André Stutz,
    Shyamala Sundaram, Michael Tognoli, Sandra van
    den Broek, Eleanor Whitfield
  • Programmers and system administrators Daniel
    Barrell, David Binns, Laurent Bollondi, Sergio
    Contrino, Michael Darsow, Edouard deCastro,
    Séverine Duvaud, Alexander Fedetov, Astrid
    Fleischmann, Wolfgang Fleischmann, Elisabeth
    Gasteiger, Alain Gateau, Andre Hackmann, Henning
    Hermjakob, Ivan Ivanyi, Eric Jain , Alexander
    Kanapin, Paul Kersey, Ernst Kretschmann, Corinne
    Lachaize, Maria-Jesus Martin, Xavier Martin, John
    O Rourke, Tom Oinn, Isabelle Phan, Astrid Rakow,
    Nicole Redaschi, Kai Runte, Florence Servant,
    Allyson Williams, Dan Wu
  • Research staff Pavel Dobrokhotov, Alexandre
    Gattiker, Margus Luk, Anne Morgat, Anne-Lise
    Veuthey
  • Clerical and secretarial assistance Veronique
    Mangold, Claudia Sapsezian, Margaret Shore-Nye,
    Laure Verbregue
Write a Comment
User Comments (0)
About PowerShow.com