myGrid: Une Vision globale - PowerPoint PPT Presentation

About This Presentation
Title:

myGrid: Une Vision globale

Description:

myGrid: Une Vision globale – PowerPoint PPT presentation

Number of Views:52
Avg rating:3.0/5.0
Slides: 56
Provided by: Kat121
Category:
Tags: globale | mygrid | une | vfw | vision

less

Transcript and Presenter's Notes

Title: myGrid: Une Vision globale


1
myGrid Une Vision globale
Rencontre autour de la plate-forme
bioinformatiques Rennes, 2008-04-10
  • Franck Tanoh
  • http//www.mygrid.org.uk

2
myGrid
  • Le projet myGrid a un ensemble de composants
    destinés
  • à soutenir la réalisation dexpériences in silico
    en biologie.
  • Taverna workbench Un système de gestion de
    workflows
  • Feta découverte des services web
  • myExperiment collaboration réutilisation des
    workflows
  • open source

3
Partenaires
Première étape du projet fiancée par lEPSRC
4
OMII-UK
Soutenir la communauté e-Science aux Royaumes
Unis et ses collaborateurs internationaux.
5
Motivations
NAR 2007 968 base de données
EMBL database growth
6
Problèmes
  • Tout est distribuées
  • Données
  • Ressources
  • Scientifiques
  • Ressources hétérogènes
  • Très peu de standards
  • formats dentrée et de sortie
  • représentation
  • annotation des données
  • Lintégration des données, linteropérabilité des
    ressources très difficile.

7
Intégration des données bioinformatiques
Couper-coller
8
Intégration des données bioinformatiques
  • Couper-coller
  • Avantages
  • Technologie très simple
  • Analyse des résultats pendant lintégration
  • Inconvénients
  • Demande beaucoup de temps
  • Répétition difficile
  • Limitée aux petites données
  • Exposés aux erreurs
  • Impossible dappliquer cette technologie au
    génome/protéome/métabolome

9
Intégration des données bioinformatiques
  • Pipeline programmation
  • Avantages
  • Reproductible
  • Automatique
  • Rapide, fiable, efficace
  • Inconvénients
  • Exige des compétences en programmation
  • Difficile a modifier
  • Nécessite outils et maintenance des bases de
    données !!!

10
Meilleurs solutions ??
  • Un système qui
  • Permet dautomatiser lintégration des données
  • Fonctionne sur des ressources distribuées
  • Facilite la répétition, la vérification et le
    partage des expériences scientifiques
  • Nécessite peu ou pas de compétences en
    programmation
  • Fonctionne à partir dun ordinateur de
    bureau/portable

11
La solution myGrid
  • myGrid permit dautomatiser lexécution
    d'expériences in
  • silico sur des ressources distribuées à partir
    dun simple
  • ordinateur de bureau.
  • Technologie basée sur
  • Services web
  • Workflows
  • Web sémantique

12
Services web
  • Un Service Web est un programme informatique
    permettant la
  • communication et l'échange de données entre
    applications et
  • systèmes hétérogènes dans des environnements
    distribués (Wikipedia).
  • Avantages
  • Interopérabilité entre divers logiciels
  • fonctionne sur diverses plate-forme
  • Utilise des standards et protocoles ouverts

13
Workflows
  • Workflow chaîne de traitement
  • Automatisation d'un processus au cours duquel des
    ressources
  • Passent d'un participant à un autre.

Décrivez ce que vous voulez faire
Pas besoin dêtres programmeur
14
Moteur de workflows
Différents langages, accès, domaines
15
Taverna
  • Taverna est
  • Un moteur de workflow basé sur le flot des
    données.
  • Un environnement pour la construction et
    lédition de workflows.
  • Un système d'exécution des workflows sur des
    données fournies par lutilisateur
  • Un système de visualisation des résultats (3d,
    html)

Le tout en un logiciel exécutable à partir de
votre ordinateur
16
Taverna Workflow Workbench
  • http//taverna.sf.net

17
Taverna
  • gt45000 téléchargements
  • International US, Singapore, UK, Europe,
    Australie
  • Parmi les 200 logiciels sur sourceforge en Juin
    2007

18
Taverna
  • Par défaut, Taverna interopère avec
  • SOAP services web
  • Biomart Entrepôts de données
  • Soaplab outils de ligne de commande
  • BioMoby services web
  • Interprète script Beanshell (proche de Java)

19
Taverna dans la recherche
  • Biologie des systèmes
  • Biologie moléculaire
  • Annotation Gene/protéine
  • Analyse des données microarray
  • Analyse dimages médicales
  • Simulation cardiaque
  • Etude des Génotypes/Phénotypes
  • Informatique médicale
  • Astronomie
  • Chimie informatique
  • Intégration de données

20
La trypanosomiase chez les bovins
Steve Kemp
Andy Brass
Paul Fisher
http//www.genomics.liv.ac.uk/tryps/trypsindex.htm
l
21
Trypanosomiase chez les bovins
  • Une forme de la maladie du sommeil chez les
    bovins connue sous
  • le nom ngana causée par Trypanosoma brucei.
  • Les bovins en Afrique (Kenya) résistent a cette
    forme, ce qui nest
  • pas le cas des bovins Anglais.
  • Quelles sont les causes des différences?

22
Trypanosomiase chez les bovins
  • Comprendre le phénotype
  • Comparaison des souches sensibles vs résistants
    Microarrays
  • Comprendre le génotype
  • Analyse de QTL (Loci de Caractères Quantitatifs )

23
Etude de la Trypanosomiase
A Trouver les gènes dans les régions QTL B
Annotation des gènes avec des bases de données
externes C Faire correspondre KEGG ids et gène
ids D Récupérer les données microarray E
pour chaque KEGG gène retrouver sa voie
métabolique F obtenir la description de chaque
voie métabolique G obtenir lannotation de
chaque KEGG gène
24
Résultats
  • Identification du gène (Daxx) qui semblerait
    jouer un rôle
  • dans la résistance à la trypanosomiase.
  • Au préalable, lanalyse manuelle des même données
    na pas
  • réussi à identifier ce gène comme un candidat.

25
Succès du workflow?
  • Chaque donnée est systématiquement analysée
  • Pas besoin de filtrer les données ou émettre des
    hypothèses en vu de réduire le volume de données.
  • Enregistrement de la provenance des données
  • Volume de données réduit a lissue de
    lexpérience

26
Gestion des erreurs
  • La plupart des services web nappartiennent pas à
    myGrid .
  • Impossible donc de vérifier leur fiabilité.
  • Taverna a plusieurs mécanismes pour y remédier
  • Encourager lutilisation des services fournis par
    de grands organismes come EMBL, NCBI, DDBJ
  • Informer lutilisateur lorsqu'un service ne
    fonctionne pas
  • Ré-exécuter les services
  • Remplacement des services

27
Découverte des services web
  • Plus de 24 000 services web (seekda 03/08)
  • Difficile de trouver un service particulier?
  • Majorité des services sans descriptions
  • WSDL input0string, Output0string
  • Nom des services fonction des services. e.g
    serachsimple, seqret

On ne peut donc pas uniquement Google les
services web
28
La solution myGrid
  • Découverte des services en fonction de leurs
  • Noms
  • Fonctions
  • Paramètres (entrées et sorties)
  • Ressources utilisées
  • Annotation Sémantique
  • Annotation manuelle ou automatique des services
    web à partir
  • de vocabulaires contrôlés (ontologies).

29
Annotation des services web
Ontologie bioinformatique
WSDL
Marquer chaque description avec des termes dans
lontologie.
30
Annotation des services web
  • Plus de 600 services dans le catalogue de myGrid
    .
  • Annotation faite par des experts en
    bioinformatique.
  • En démontrant limportance de lannotation dans
    lutilisation des services, myGrid vise à
    encourager les développeurs de services à fournir
    les annotations à l'avenir.

31
Feta découverte sémantique
  • Feta, composant de myGrid interroge le catalogue
    des services web .
  • Exemple de questions
  • Trouve-moi tous les services qui effectuent un
  • alignement des séquences et acceptent pour input
    des
  • séquences de protéines avec le format FASTA

32
Interface utilisateur de Feta
33
Provenance et Origine
  • Workflows peuvent générer beaucoup
    dinformations
  • Données
  • Métadonnées
  • origine de lexpérience
  • Scientifiques ont besoin de revenir ou réutiliser
    les résultats passés, de comparer, partager les
    workflows avec des collègues
  • Comment gérer de telles donnes?

34
Le Logbook de myGrid
Smart Tea
  • qui, quoi, ou, quand, pourquoi?, comment?
  • Contexte
  • Interprétation
  • Reproductibilité
  • Vérification
  • Crédibilité

BioMOBY
Bonnes pratiques scientifiques
35
Interface utilisateur du Logbook
36
myExperiment
37
Motivations
  • Workflows nouvelles rock and roll
  • L'ère des Services web en bioinformatiques

38
Motivations
Recyclage, Réutilisation, Réorientation des
workflows
39
Motivations
Communauté scientifique distribuée et sous équipée
40
myExperiment est
Réseau social pour le scientifique
41
myExperiment
Demo
http//www.myexperiment.org
42
(No Transcript)
43
(No Transcript)
44
(No Transcript)
45
(No Transcript)
46
La communauté de myGrid
47
Taverna2 ou T2
myGrid nouvelle direction
  • Moteur workflow (enactor) totalement réécrit avec
    plus de points d'extensions
  • Adresser les problèmes de sécurité des données
  • Taverna sur le grid
  • Glisser-déposer (Drag and drop )

48
T2 un avant-goût
Les erreurs sont également des données
49
T2 un avant-goût
50
T2 un avant-goût
  • Data Manager plusieurs gestionnaires de données
  • Mémoire
  • Fichiers
  • Disque dur
  • Serveurs

51
T2 un avant-goût
  • Taverna 1.7 Contient un plugin pour T2
  • Plusieurs mise à jour à suivre courant 2008
  • http//taverna.sourceforge.net/download

52
Biocatalogue
Un catalogue de services web
53
Une vision globale de myGrid
Client Applications
myExperiment Web portal
Taverna Workbench GUI
Workflow Warehouse
Provenance Ontology
Service Ontology
Provenance Warehouse
Logbook Provenance Management
Taverna Workflow Enactor
Feta Information Services
Service Catalogue
Middleware (Web Services, Grid
Services)
54
http//www.mygrid.org.uk
55
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com