Title: Web et Industrie Serge Abiteboul, INRIA Saclay
1Web et IndustrieSerge Abiteboul, INRIA Saclay
ENS Cachan
Juin 2009
2Organisation
- Le Web grand public
- Le Web dans lindustrie
- Gestion dinformation en P2P
- Perspective de recherche
- A lINRIA
- Zooms sur des sujets de recherche
- Conclusion
3Le Web grand public
4Success stories sur le Web
- Google gestion des pages du Web
- Amazon, eBay catalogues de vente sur le Web
- Facebook informations personnelles et
communautés - Emule musique en ligne
- Flickr base de données de photos
- Myspace pages Web
- YouTube vidéos
- Wikipedia dictionnaire
- Meetic fiches individuelles
- Dailymotion vidéos
Quel est leur point commun ?
Gestion dinformation sur le Web
5La gestion dinformation contexte
- Un grand succès de linformatique du 20ème siècle
- Le modèle relationnel
- Des tableaux à deux dimensions sur des serveurs
centralisés
6Ca a bougé
7Pour quelles sources dinformation?
- Base de données sur un serveur
- Un système de fichier
- Un serveur Web
- Un PC
- Un PDA
- Un smartphone
- Un senseur
- Un objet communicant - domotique
- Une voiture
- Une machine outil
- Un équipement télécom
- Un jouet
- Etc.
?
Nimporte quel objet ou logiciel connecté au
réseau avec de linformation à partager
8Le risque se noyer sous un océan de données
- De plus en plus facile de publier
- De plus en plus de données publiées
- De plus en plus difficile de trouver linfo
- De plus en plus difficile de lavoir à temps
données
données
temps
temps
9Ca a bougé
- Un grand succès de linformatique du 20ème siècle
- Le modèle relationnel
- Des tableaux à deux dimensions sur des serveurs
centralisés - Avec le Web, aujourdhui
- Les données sont hétérogènes (format, structure,
métadonnées, ontologies, multimédia, etc.) - Les serveurs de données sont hétérogènes,
distribués, autonomes, parfois mobiles (BDs, PDA,
téléphones, objets communicants, senseurs) - Linformation est changeante, imprécise,
incohérente parfois - Parfois grande échelle Millions de serveurs,
terra octets de données, milliards dobjets
communicants
10Les standards du Web
- Linformation résidait sur des iles avec des
formats, des langages de programmation, des
applications, des systèmes dexploitations
différents - Mais ça a changé avec les
standards du Web - XML données
- Xquery requêtes
- SOAP calcul distribué
- Services Web - BPEL
- Owl sémantique
- Accès uniforme et universel à
linformation
XML
Owl RDFS
SOAP WSDL BPEL
Xquery Xpath
11XML et tout le spectre dinformation
Structured Data
Meta data
Hierarchy
Books Contracts Catalogs Bank
accounts Emails Financial Reports Insurance
Policies Economical Analysis
Derivatives Inventory Political
analysis Insurance Claims Financial
News Sports News Resumes
12Xquery (et Xpath)
- Une logique pour des arbres étiquetés,
ordonnés, non bornés - langage déclaratif
- Inspiré de SQL standard pour données
relationnelles - Inspiré de OQL standard pour données objet
- Mélange le contenu et la structure BD et
recherche dinformation - Documents où Twingo apparait dans le titre
- Langage de mise-à-jour
13Services Web et calcul distribué
- Possibilité dactiver une méthode sur un serveur
Web distant - (un peu Corba en moins sophistiqué)
- Echange dinformation en XML input/résultat en
XML - Infrastructure pour faire du calcul distribué
partout - Avec XML et les services Web, il est devenu
possible - Dobtenir de linformation de quasiment partout
- De publier de linformation de quasiment partout
- Une famille de standards SOAP, WSDL, UDDI
14Les workflows chorégraphie de services
- Wikipedia On appelle workflow la
modélisation et la gestion informatique de
l'ensemble des tâches à accomplir et des
différents acteurs impliqués dans la réalisation
d'un processus métier - Un workflow est un flux d'informations au sein
d'une organisation - Business Process Execution Language (BPEL), un
standards exécutable pour spécifier des
interactions avec des services Web
15Sémantique des standards émergeants
Je ne vais beaucoup parler de sémantique
- Web sémantique
- Domaine très actif
- Standards encore peu figés
16 Un accès uniforme à linformation Le rêve
de la gestion de données distribuées
17Tendances
- Plus de sémantique Web sémantique
- Un programme peut poser des questions précises et
obtenir des réponses précises - Plus dinteraction
- Web 2.0 réseaux sociaux
- Wiki, mashups, facebook, twitter
- Applications de plus en plus distribuées
pair-à-pair
18Et lindustrie
19Ils font comme tout le monde
- Ils utilisent
- Google
- Leurs réseaux sociaux comme Linkedin
- Youtube et Dailymotion (pour la pub, la
formation) - Twitter pour le buzz
- Des sites demploi (leur Meetic)
- Ils vendent/achètent sur e-bay
- Ils font des sites Webs
20Ils ont leurs propres applications
- Commerce propres sites
- Vendre e-business
- Achat e-approvisionnement
- Ils utilisent le Web pour informatiser leurs
processus - Web service et workflows BPEL
- Fabrication
- Traçabilité
- Même si ça se voit moins, ils lutilisent
énormément - Virage XML plus rapide que le grand public qui
reste textuel - Virage Web service plus rapide car ça demande
des ingénieurs
21Ce qui leur plait
- Outils de gestion/partage de données distribuées
- Standard d échanges XML.
- Possibilité de déploiement très rapide
- Moteur de recherche Web
- Faire baisser les coûts de développement
dapplications réparties - Outils de composition et dorchestration de
services - Web services - Outils de déploiement rapide dapplications
réparties - Mashups
22Ils ont des contraintes particulières
- Qualité de service performance, sécurité,
disponibilité - Souvent inacceptable pour eux sur le Web
aujourdhui - Contrôle daccès et confidentialité
- Idem
- Facebook comme réseau social dentreprise cest
pas sérieux - Ils commencent à trouver que linformatique coûte
cher et aiment bien le gratuit même si - Ils ne peuvent pas se permettre le piratage
- Ils nhésitent pas à payer
23Gestion dinformation en pair-à-pair
24Gestion dinformation en P2P
- Content Sharing Community (CSC) Un groupe
dutilisateurs qui partagent de linformation à
lintérieur dun domaine particulier - Exemples Un groupes de sociétés, des
scientifiques dans un certain domaine, une
association, un groupe damis - Problème nouveau de gestion de données
- Les données sont hétérogènes et dynamiques
- Les données sont distribuées
25La difficulté
- Arriver à faire coopérer des machines autonomes
- SGBD distribués
- Depuis longtemps un écueil de la gestion de
données - Lourds à mettre en place
- Nombre restreint de machine Souvent systèmes
homogènes - Pourquoi cest devenu faisable
- On va limiter nos exigences
- On va utiliser la puissance du parallélisme
- Et surtout les nouveaux standards du Web
26Pair-à-pair
- Pair-à-pair un nombre important et changeant de
systèmes coopèrent pour réaliser une tache sans
aucune autorité centrale - Pair-à-pair massif musique en ligne avec des
millions de pairs - Pair-à-pair pas massif gestion de données dans
une entreprise avec des dizaines de pairs
27De bonnes raisons pour une gestion P2P de données
- Des raisons techniques
- Performance
- Disponibilité
- Des raisons socio-économiques
- Coût
- Organisation décentralisée
- Contrôle des données
28Avantage techniqueperformances
- Exemple Dans un système centralisé, plus un
document est populaire, plus ça prend du temps de
lobtenir - Avec un système P2P comme BitTorrent, cest le
contraire - Serveur saturé Accélération
-
29Avantage techniquedisponibilité
- Avantages
- Plusieurs copies dune même donnée, disponible
même en cas de panne - Système darchivage et de sauvegarde en P2P
- Aussi des désavantages dun point de vue
technique - Plus complexe donc risque de pannes
- Difficile de gérer les mises-à-jour
- Difficile de contrôler la qualité de service
30Avantage économiquegestion de données à coût
zéro
- On utilise un système P2P gratuit
- On utilise des machines existantes (pc, livebox,
etc.) - On utilise les ingénieurs qui gèrent déjà ces
systèmes et leurs applications - Bien adapté au Web et sa philosophie du tout
gratuit - Moins que pour le grand public
- Même les entreprises shabituent au free
31Avantage économiquebien adapté aux
organisations peu centralisées
- Avantages du P2P
- Pas nécessaire de trouver un leader
- Pas nécessaire de décider/imposer des règles
fortes - Possibilité de laisser chacun indépendant et
autonome - Désavantages du P2P pour des organisations très
centralisées - Plus difficile dimposer des règles fortes
- Plus difficile de garantir la cohérence des
données en présence de mises-à-jour - Bien adapté aux gros groupes avec des entités
indépendantes même sils nen sont pas encore
convaincus ?
32Mais des difficultés aussi
- Complexité
- Cause sérieuse de pannes
- Difficulté de gérer les mises-à-jour
- Difficulté de contrôler la qualité de service
- Comportement asociaux
- Spam, spamdexing autres
- Confiance
33Ça narrive pas vite dans lindustrie
- QoS
- Business model pas clair
- Qui paie?
- Pour quoi?
34 Perspective de recherche A lINRIA Zooms sur
des sujets de recherche
35A lINRIA
- De nombreuses équipes travaille autour du Web
- Nombreux verrous technologiques
- Gestion de données distribuées
- Gestion de connaissance
- Linguistique computationnelle
- Systèmes pair-à-pair
- Spécification et vérification dapplications
réparties - Interface humain-machine
- Etc.
363 Zooms
- (sûrement moins par manque de temps)
- Surveillance du Web
- Facebook en P2P
- Artifacts business
37Surveillance du Web Fonctionnalités
- Acquisition de données
- Crawl du Web focalisé sur un domaine
- Surveillance des changements gestion de flux de
données - Intégration avec les données de lentreprise
outils LTE - Gestion de données
- Stockage, indexation, requêtes/mises-à-jour,
contrôle daccès - Enrichissement
- Classification, annotations sémantiques
- Multilinguisme
- Gestion dontologies, extraction de connaissances
- Exploitation
- IHM, fouille de données
38Surveillance du Web Webcontent (1)
- Plateforme ANR
- Entrepôt pour le Web sémantique
- http//www.webcontent.fr
- INRIA, CEA, Thales, EADS, Soredab, INRA, Exalead,
etc. - Premières applications
- Veille économique en aéronautique
- Intelligence stratégique
- Risque alimentaire microbiologique et chimique
- Surveillance dévènements sismique
-
39Surveillance du Web Webcontent (2)
- Archi basée sur XML et les services Web
- Services dacquisition, enrichissement,
dexploitation - Autour dun service de gestion de données XML
- 2 architectures
- Archi centralisée autour dun bus logiciel
- Archi P2P autour dun système de gestion de XML
en P2P
40- Facebook stocke des données personnelles
- Plein dautres systèmes également
- Difficile de contrôler ce quils en font
- Difficile de garder mes données à jour
41Facebook Architecture
Facebook
X
Delicious
Myspace
X
Gmail
X
LinkedIn
Sue
Sue
Bob
Bob
Sue
42Facebook en P2P
Facebook
Facebook
Facebook
Facebook
- Directes interactions
- Je garde le contrôle sur mes données personnelles
- Toutes les applications qui me concernent
partagent les mêmes données - Si je change de numéro de téléphone, je nai pas
à le changer dans 100 systèmes
chez Bob
Proxy Bob
Proxy Sue
Sue
Sue
Bob
Sue
43Facebook en P2P (fin)
- Droits daccès en P2P cryptographie
- Index en P2P (avec des données cryptées)
- Faire tourner chez soi des applications
développées par des inconnus
44Workflows centrés sur les données (1)
- Artifact business document qui représente une
activité humaine - Commande, voyage, objet à construire
- Évolue dans le temps suivant certaines règles
- Active XML Artifacts
- Modèle basé sur XML avec des appels de services
imbriqués - Documents que lont peut séchanger
- Domaine général workflow centré sur les données
- Combine les systèmes de workflow et les systèmes
de gestion de données - Bien adapté pour des applications distribuées
- Application jouet le système de fabrication de
Dell sites commerciaux, banques, usines,
entrepôts, société livraison
45Workflows centrés sur les données (2)
- Quelques sujets de recherche dans ce cadre
- Aide à la conception de tels systèmes
- Vérifier que le code est conforme aux
spécifications - Surveillance de tels systèmes
- Prévoir les ruptures de stock de pièces détachés
- Aider au dispatching
- Détecter les disfonctionnement et en trouver les
causes - Passage à léchelle
- Contrôle accès, qualité des données et confiance
46Conclusion
47Conclusion
- Prévision sur le Web il faut être très modeste
- Ça va ralentir on a fait le plus facile et on
arrive aux sujets durs - Linguistique
- Gestion de connaissances
- Ça va continuer à bouger créativité humaine
- Web sémantique Web de connaissances plutôt que
de texte - Web 2.0 un Web plus interactif, plus
communautaire - Web des objets
- Web du pair-a-pair
- Histoire pour le Web, on a toujours sous-estimé
la créativité humaine
48Merci