Arnaud Muller - PowerPoint PPT Presentation

1 / 23
About This Presentation
Title:

Arnaud Muller

Description:

22 millions de s quences en 20 ans dont 7 millions pour 2002 ... Acc s aux informations ais et rapide. Interface web. Banques de s quences. Banques de ... – PowerPoint PPT presentation

Number of Views:62
Avg rating:3.0/5.0
Slides: 24
Provided by: igb91
Category:
Tags: aise | arnaud | muller

less

Transcript and Presenter's Notes

Title: Arnaud Muller


1
Laboratoire de Génomique et de Biologie
Structurales de lI.G.B.M.C. UMR 7104
  • Arnaud Muller

2
Biologie à haut débit
Données GOLD (Genome OnLine Database) 139
génomes séquencés publiés (76 bactéries - 12
archaea - 12 eucaryote )
Données CNS (Centre National de Séquençage -
Genoscope) 2,4 millions de séquences/an
Croissance GenBank 22 millions de séquences en
20 ans dont 7 millions pour 2002
3
Groupe de Bioinformatique et Génomique
  • Mise en place dune plate forme bioinformatique
    dédiée à la détection de cibles
  • séquences (génomes, familles de protéines)
  • hyperstructure (complexe, organelle, virus)
  • données Affymetrix
  • Annotation étendue (fonction, localisation
    génomique, établissement de carte exonique, étude
    des promoteurs)
  • Réseau de relations (homologie, ontologie,
    expression, interactions)

4
DAEDALUS
Système dextraction automatique dinformations
dans les banques de données biologiques.
  • Permet lextraction dinformations textuelles des
    banques de données biologiques.
  • Création dune banque personnelle à la volée,
    dynamique.
  • Couplage et analyse dinformations personnelles
    avec les banques de données biologiques.
  • Système souple et facile à intégrer dans la
    plateforme.

5
DAEDALUS et SRS
  • SRS6 (Sequence Retrieval System)
  • installé à lI.G.B.M.C.

6
Page daccueil de SRS
7
DAEDALUS et SRS
  • SRS6 (Sequence Retrieval System)
  • installé à lI.G.B.M.C.
  • Avantages principaux
  • Adapté aux bases de données biologiques (gt400)
  • Indexation des fichiers à plats
  • Accès aux informations aisé et rapide
  • Interface web

8
Les banques installées
Banques de séquences
Banques de motifs et signatures protéiques
Banque dexpression
Banque de structures
Banque dontologie
Applications
9
Schéma relationnel de SRS à lIGBMC
10
Système dindexation de SRS
Exemple d une entrée swissprot
  • Indexation pour chaque champ

ID AATM_RABIT STANDARD PRT 30
AA. AC P12345 DT 01-OCT-1989 (Rel. 12,
Created) DT 01-OCT-1989 (Rel. 12, Last sequence
update) DT 15-SEP-2003 (Rel. 42, Last
annotation update) DE Aspartate
aminotransferase, mitochondrial (EC 2.6.1.1)
(Transaminase DE A) (Glutamate oxaloacetate
transaminase-2) (Fragment). GN GOT2. OS
Oryctolagus cuniculus (Rabbit). OC Eukaryota
Metazoa Chordata Craniata Vertebrata
Euteleostomi OC Mammalia Eutheria
Lagomorpha Leporidae Oryctolagus. OX
NCBI_TaxID9986 RN 1 RP SEQUENCE. RC
TISSUELiver RX MEDLINE85289123
PubMed4030726 RA Kuramitsu S., Inoue K.,
Kondo K., Aki K., Kagamiyama H. RT "Aspartate
aminotransferase isozymes from rabbit liver.
Purification RT and properties." RL J.
Biochem. 971337-1345(1985). CC -!- CATALYTIC
ACTIVITY L-aspartate 2-oxoglutarate
oxaloacetate CC L-glutamate. CC -!-
COFACTOR Pyridoxal phosphate. CC -!- SUBUNIT
Homodimer. CC -!- SUBCELLULAR LOCATION
Mitochondrial matrix. DR PDB 1B3U
09-FEB-99. DR GO GO0007586 Pdigestion
TAS. DR InterPro IPR004838 NHtransf_1. DR
PROSITE PS00105 AA_TRANSFER_CLASS_1
PARTIAL. KW Transferase Aminotransferase
Pyridoxal phosphate Mitochondrion. FT NON_TER
30 30 SQ SEQUENCE 30 AA 3401 MW
410321530B95B673 CRC64 SSWWAHVEMG
PPDPILGVTE AYKRDTNSKK //
Un fichier dindex par champ
11
Liens directs
Exemple de fiche swissprot
  • Un champ particulier est dédié à la liaison
    entre une banque et les autres

ID AATM_RABIT STANDARD PRT 30
AA. AC P12345 DT 01-OCT-1989 (Rel. 12,
Created) DT 01-OCT-1989 (Rel. 12, Last sequence
update) DT 15-SEP-2003 (Rel. 42, Last
annotation update) DE Aspartate
aminotransferase, mitochondrial (EC 2.6.1.1)
(Transaminase DE A) (Glutamate oxaloacetate
transaminase-2) (Fragment). GN GOT2. OS
Oryctolagus cuniculus (Rabbit). OC Eukaryota
Metazoa Chordata Craniata Vertebrata
Euteleostomi OC Mammalia Eutheria
Lagomorpha Leporidae Oryctolagus. OX
NCBI_TaxID9986 RN 1 RP SEQUENCE. RC
TISSUELiver RX MEDLINE85289123
PubMed4030726 RA Kuramitsu S., Inoue K.,
Kondo K., Aki K., Kagamiyama H. RT "Aspartate
aminotransferase isozymes from rabbit liver.
Purification RT and properties." RL J.
Biochem. 971337-1345(1985). CC -!- CATALYTIC
ACTIVITY L-aspartate 2-oxoglutarate
oxaloacetate CC L-glutamate. CC -!-
COFACTOR Pyridoxal phosphate. CC -!- SUBUNIT
Homodimer. CC -!- SUBCELLULAR LOCATION
Mitochondrial matrix. DR PDB 1B3U
09-FEB-99. DR GO GO0007586 Pdigestion
TAS. DR InterPro IPR004838 NHtransf_1. DR
PROSITE PS00105 AA_TRANSFER_CLASS_1
PARTIAL. KW Transferase Aminotransferase
Pyridoxal phosphate Mitochondrion. FT NON_TER
30 30 SQ SEQUENCE 30 AA 3401 MW
410321530B95B673 CRC64 SSWWAHVEMG
PPDPILGVTE AYKRDTNSKK //
PDB
Gene Ontology
InterPro
Prosite
12
Page de requête de SRS
13
Daedalus le principe
icarus
Sources dinformations additionnelles
tcl
Liste de séquences (numéros daccession) couplées
à une information additionnelle (expect, taux de
GC, niveau dexpression )
xml
C
14
Exemple dutilisation
1 séquence requête
Motifs conservés
AAL85500 CAD46176 BAC13440 AAN25560 BAC12318 AAN33
408 CAD52468 AAN36328 Q8KFL5 Q8MSW0 P12345
Domaine récepteur nucléaire
Domaine kinase
15
La banque DAEDALUS_DB
Exemple de fiche DAEDALUS_DB
Informations indispensables
ID numéro didentification donné par
lutilisateur DR point dentrée vers SRS
Informations additionnelles
1. Prédéfinie
BL informations Blast
2. Libre test (X 10)
S0 informations textuelles à la convenance de
lutilisateur R0 informations numérique à la
convenance de lutilisateur
16
DAEDALUS application
Séquences groupées
Séquences alignées
Group 1 Group 2 Group 3 Group 4 Group
5 Group 6
Seq L1  Seq L2  Seq I1  Seq I3  Seq I4 
Seq V1 Seq V2 Seq L3 Seq X Seq I5
Groupe de référence (requête)
Objectif Trouver les séquences ou des groupes
ayant une fonction proche du groupe de référence.
17
Étape 1 création dune banque DAEDALUS
Générer les fichiers à plat
Indexation
18
Étape 2 interrogation des banques
Avec InterPro
IPR002302Leu-tRNAsynt1a IPR002302Leu-tRNAsynt1a IP
R002301tRNA-synt_ile IPR002301tRNA-synt_ile IPR002
301tRNA-synt_ile IPR002303tRNA-synt_val IPR002303t
RNA-synt_val IPR004493Leu-tRNA-synt1a IPR002301tRN
A-synt_ile IPR002301tRNA-synt_ile
LEUCYL-TRNA SYNTHETASE (EC 6.1.1.4) PROBABLE
LEUCYL-TRNA SYNTHETASE (EC 6.1.1.4) ISOLEUCYL-TRNA
LIGASE (EC 6.1.1.5) ISOLEUCYL-TRNA
SYNTHETASE. ISOLEUCYL-TRNA SYNTHETASE,
MITOCHONDRIAL VALINE-TRNA LIGASE VALYL-TRNA
SYNTHETASE (EC 6.1.1.9) (VALRS) LEUCYL-TRNA
SYNTHETASE (EC 6.1.1.4) HYPOTHETICAL
PROTEIN ISOLEUCYL-TRNA SYNTHETASE
Seq L1 Seq L2  Seq I1 Seq I3 Seq I4 Seq V Seq
V2 Seq L3 Seq X Seq I5
Group 1 Group 2 Group 3 Group 4 Group
5 Group 6
?
19
DAEDALUS 2ème application
Objectif caractériser une liste de séquence par
son ontologie.
AAL85500 CAD46176 BAC13440 AAN25560 BAC12318 AAN33
408 CAD52468 AAN36328 Q8KFL5 Q8MSW0 Q8KSI2 Q8L1B1
Q8K9Z2 Q8K6S2
EC
key
Mots clefs Domaines InterPro Ontologies
GO Numéros EC
ID
ID
GO
IPR
20
Résultats appliqués à la protéine bi fonctionnelle
ID 212 liens vers GO Daedalus 2700
KINASE
21
Distribution - disponibilité
  • Linstallation du cur nécessite
  • SRS
  • Des bases de données
  • Un compilateur C
  • Compatibilité OS
  • Solaris
  • TrueUnix64
  • Les modules nécessitent
  • Tcl/Tk

22
Perspectives
  • Enrichissement des fichiers à plat
  • Création dynamique de champs
  • Interfaçage
  • Langage récursivité ...
  • Accès par la page web de SRS de lIGBMC
    (septembre 2003)

23
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com