Title: myGrid: Une Vision globale
1myGrid Une Vision globale
Rencontre autour de la plate-forme
bioinformatiques Rennes, 2008-04-10
- Franck Tanoh
- http//www.mygrid.org.uk
2myGrid
- Le projet myGrid a un ensemble de composants
destinés - à soutenir la réalisation dexpériences in silico
en biologie. - Taverna workbench Un système de gestion de
workflows - Feta découverte des services web
- myExperiment collaboration réutilisation des
workflows - open source
3Partenaires
Première étape du projet fiancée par lEPSRC
4OMII-UK
Soutenir la communauté e-Science aux Royaumes
Unis et ses collaborateurs internationaux.
5 Motivations
NAR 2007 968 base de données
EMBL database growth
6Problèmes
- Tout est distribuées
- Données
- Ressources
- Scientifiques
- Ressources hétérogènes
- Très peu de standards
- formats dentrée et de sortie
- représentation
- annotation des données
- Lintégration des données, linteropérabilité des
ressources très difficile.
7Intégration des données bioinformatiques
Couper-coller
8Intégration des données bioinformatiques
- Couper-coller
- Avantages
- Technologie très simple
- Analyse des résultats pendant lintégration
- Inconvénients
- Demande beaucoup de temps
- Répétition difficile
- Limitée aux petites données
- Exposés aux erreurs
- Impossible dappliquer cette technologie au
génome/protéome/métabolome
9Intégration des données bioinformatiques
- Pipeline programmation
- Avantages
- Reproductible
- Automatique
- Rapide, fiable, efficace
- Inconvénients
- Exige des compétences en programmation
- Difficile a modifier
- Nécessite outils et maintenance des bases de
données !!!
10Meilleurs solutions ??
- Un système qui
- Permet dautomatiser lintégration des données
- Fonctionne sur des ressources distribuées
- Facilite la répétition, la vérification et le
partage des expériences scientifiques - Nécessite peu ou pas de compétences en
programmation - Fonctionne à partir dun ordinateur de
bureau/portable
11La solution myGrid
- myGrid permit dautomatiser lexécution
d'expériences in - silico sur des ressources distribuées à partir
dun simple - ordinateur de bureau.
- Technologie basée sur
- Services web
- Workflows
- Web sémantique
12Services web
- Un Service Web est un programme informatique
permettant la - communication et l'échange de données entre
applications et - systèmes hétérogènes dans des environnements
distribués (Wikipedia). - Avantages
- Interopérabilité entre divers logiciels
- fonctionne sur diverses plate-forme
- Utilise des standards et protocoles ouverts
13Workflows
- Workflow chaîne de traitement
- Automatisation d'un processus au cours duquel des
ressources - Passent d'un participant à un autre.
-
Décrivez ce que vous voulez faire
Pas besoin dêtres programmeur
14Moteur de workflows
Différents langages, accès, domaines
15Taverna
- Taverna est
- Un moteur de workflow basé sur le flot des
données. - Un environnement pour la construction et
lédition de workflows. - Un système d'exécution des workflows sur des
données fournies par lutilisateur - Un système de visualisation des résultats (3d,
html)
Le tout en un logiciel exécutable à partir de
votre ordinateur
16Taverna Workflow Workbench
17Taverna
- gt45000 téléchargements
- International US, Singapore, UK, Europe,
Australie - Parmi les 200 logiciels sur sourceforge en Juin
2007
18Taverna
- Par défaut, Taverna interopère avec
- SOAP services web
- Biomart Entrepôts de données
- Soaplab outils de ligne de commande
- BioMoby services web
- Interprète script Beanshell (proche de Java)
19Taverna dans la recherche
- Biologie des systèmes
- Biologie moléculaire
- Annotation Gene/protéine
- Analyse des données microarray
- Analyse dimages médicales
- Simulation cardiaque
- Etude des Génotypes/Phénotypes
- Informatique médicale
- Astronomie
- Chimie informatique
- Intégration de données
20La trypanosomiase chez les bovins
Steve Kemp
Andy Brass
Paul Fisher
http//www.genomics.liv.ac.uk/tryps/trypsindex.htm
l
21Trypanosomiase chez les bovins
- Une forme de la maladie du sommeil chez les
bovins connue sous - le nom ngana causée par Trypanosoma brucei.
- Les bovins en Afrique (Kenya) résistent a cette
forme, ce qui nest - pas le cas des bovins Anglais.
- Quelles sont les causes des différences?
22Trypanosomiase chez les bovins
- Comprendre le phénotype
- Comparaison des souches sensibles vs résistants
Microarrays - Comprendre le génotype
- Analyse de QTL (Loci de Caractères Quantitatifs )
23Etude de la Trypanosomiase
A Trouver les gènes dans les régions QTL B
Annotation des gènes avec des bases de données
externes C Faire correspondre KEGG ids et gène
ids D Récupérer les données microarray E
pour chaque KEGG gène retrouver sa voie
métabolique F obtenir la description de chaque
voie métabolique G obtenir lannotation de
chaque KEGG gène
24Résultats
- Identification du gène (Daxx) qui semblerait
jouer un rôle - dans la résistance à la trypanosomiase.
- Au préalable, lanalyse manuelle des même données
na pas - réussi à identifier ce gène comme un candidat.
25Succès du workflow?
- Chaque donnée est systématiquement analysée
- Pas besoin de filtrer les données ou émettre des
hypothèses en vu de réduire le volume de données.
- Enregistrement de la provenance des données
- Volume de données réduit a lissue de
lexpérience
26Gestion des erreurs
- La plupart des services web nappartiennent pas à
myGrid . - Impossible donc de vérifier leur fiabilité.
- Taverna a plusieurs mécanismes pour y remédier
- Encourager lutilisation des services fournis par
de grands organismes come EMBL, NCBI, DDBJ - Informer lutilisateur lorsqu'un service ne
fonctionne pas - Ré-exécuter les services
- Remplacement des services
27Découverte des services web
- Plus de 24 000 services web (seekda 03/08)
- Difficile de trouver un service particulier?
- Majorité des services sans descriptions
- WSDL input0string, Output0string
- Nom des services fonction des services. e.g
serachsimple, seqret
On ne peut donc pas uniquement Google les
services web
28La solution myGrid
- Découverte des services en fonction de leurs
- Noms
- Fonctions
- Paramètres (entrées et sorties)
- Ressources utilisées
- Annotation Sémantique
- Annotation manuelle ou automatique des services
web à partir - de vocabulaires contrôlés (ontologies).
29Annotation des services web
Ontologie bioinformatique
WSDL
Marquer chaque description avec des termes dans
lontologie.
30Annotation des services web
- Plus de 600 services dans le catalogue de myGrid
. - Annotation faite par des experts en
bioinformatique. - En démontrant limportance de lannotation dans
lutilisation des services, myGrid vise à
encourager les développeurs de services à fournir
les annotations à l'avenir.
31Feta découverte sémantique
- Feta, composant de myGrid interroge le catalogue
des services web . - Exemple de questions
- Trouve-moi tous les services qui effectuent un
- alignement des séquences et acceptent pour input
des - séquences de protéines avec le format FASTA
32Interface utilisateur de Feta
33Provenance et Origine
- Workflows peuvent générer beaucoup
dinformations - Données
- Métadonnées
- origine de lexpérience
- Scientifiques ont besoin de revenir ou réutiliser
les résultats passés, de comparer, partager les
workflows avec des collègues - Comment gérer de telles donnes?
34Le Logbook de myGrid
Smart Tea
- qui, quoi, ou, quand, pourquoi?, comment?
- Contexte
- Interprétation
- Reproductibilité
- Vérification
- Crédibilité
BioMOBY
Bonnes pratiques scientifiques
35Interface utilisateur du Logbook
36myExperiment
37Motivations
- Workflows nouvelles rock and roll
- L'ère des Services web en bioinformatiques
38Motivations
Recyclage, Réutilisation, Réorientation des
workflows
39Motivations
Communauté scientifique distribuée et sous équipée
40myExperiment est
Réseau social pour le scientifique
41myExperiment
Demo
http//www.myexperiment.org
42(No Transcript)
43(No Transcript)
44(No Transcript)
45(No Transcript)
46La communauté de myGrid
47 Taverna2 ou T2
myGrid nouvelle direction
- Moteur workflow (enactor) totalement réécrit avec
plus de points d'extensions - Adresser les problèmes de sécurité des données
- Taverna sur le grid
- Glisser-déposer (Drag and drop )
48T2 un avant-goût
Les erreurs sont également des données
49T2 un avant-goût
50T2 un avant-goût
- Data Manager plusieurs gestionnaires de données
- Mémoire
- Fichiers
- Disque dur
- Serveurs
51T2 un avant-goût
- Taverna 1.7 Contient un plugin pour T2
- Plusieurs mise à jour à suivre courant 2008
- http//taverna.sourceforge.net/download
52Biocatalogue
Un catalogue de services web
53Une vision globale de myGrid
Client Applications
myExperiment Web portal
Taverna Workbench GUI
Workflow Warehouse
Provenance Ontology
Service Ontology
Provenance Warehouse
Logbook Provenance Management
Taverna Workflow Enactor
Feta Information Services
Service Catalogue
Middleware (Web Services, Grid
Services)
54http//www.mygrid.org.uk
55(No Transcript)