Web et Industrie Serge Abiteboul, INRIA Saclay - PowerPoint PPT Presentation

About This Presentation
Title:

Web et Industrie Serge Abiteboul, INRIA Saclay

Description:

Amazon, eBay: catalogues de vente sur le Web. Facebook: informations personnelles et ... accomplir et des diff rents acteurs impliqu s dans la r alisation ... – PowerPoint PPT presentation

Number of Views:153
Avg rating:3.0/5.0
Slides: 49
Provided by: proje73
Category:

less

Transcript and Presenter's Notes

Title: Web et Industrie Serge Abiteboul, INRIA Saclay


1
Web et IndustrieSerge Abiteboul, INRIA Saclay
ENS Cachan
Juin 2009
2
Organisation
  • Le Web grand public
  • Le Web dans lindustrie
  • Gestion dinformation en P2P
  • Perspective de recherche
  • A lINRIA
  • Zooms sur des sujets de recherche
  • Conclusion

3
Le Web grand public
4
Success stories sur le Web
  • Google gestion des pages du Web
  • Amazon, eBay catalogues de vente sur le Web
  • Facebook informations personnelles et
    communautés
  • Emule musique en ligne
  • Flickr base de données de photos
  • Myspace pages Web
  • YouTube vidéos
  • Wikipedia dictionnaire
  • Meetic fiches individuelles
  • Dailymotion vidéos

Quel est leur point commun ?
Gestion dinformation sur le Web
5
La gestion dinformation contexte
  • Un grand succès de linformatique du 20ème siècle
  • Le modèle relationnel
  • Des tableaux à deux dimensions sur des serveurs
    centralisés

6
Ca a bougé
7
Pour quelles sources dinformation?
  • Base de données sur un serveur
  • Un système de fichier
  • Un serveur Web
  • Un PC
  • Un PDA
  • Un smartphone
  • Un senseur
  • Un objet communicant - domotique
  • Une voiture
  • Une machine outil
  • Un équipement télécom
  • Un jouet
  • Etc.

?
Nimporte quel objet ou logiciel connecté au
réseau avec de linformation à partager
8
Le risque se noyer sous un océan de données
  • De plus en plus facile de publier
  • De plus en plus de données publiées
  • De plus en plus difficile de trouver linfo
  • De plus en plus difficile de lavoir à temps

données
données
temps
temps
9
Ca a bougé
  • Un grand succès de linformatique du 20ème siècle
  • Le modèle relationnel
  • Des tableaux à deux dimensions sur des serveurs
    centralisés
  • Avec le Web, aujourdhui
  • Les données sont hétérogènes (format, structure,
    métadonnées, ontologies, multimédia, etc.)
  • Les serveurs de données sont hétérogènes,
    distribués, autonomes, parfois mobiles (BDs, PDA,
    téléphones, objets communicants, senseurs)
  • Linformation est changeante, imprécise,
    incohérente parfois
  • Parfois grande échelle Millions de serveurs,
    terra octets de données, milliards dobjets
    communicants

10
Les standards du Web
  • Linformation résidait sur des iles avec des
    formats, des langages de programmation, des
    applications, des systèmes dexploitations
    différents
  • Mais ça a changé avec les
    standards du Web
  • XML données
  • Xquery requêtes
  • SOAP calcul distribué
  • Services Web - BPEL
  • Owl sémantique
  • Accès uniforme et universel à
    linformation

XML
Owl RDFS
SOAP WSDL BPEL
Xquery Xpath
11
XML et tout le spectre dinformation
Structured Data
Meta data
Hierarchy
Books Contracts Catalogs Bank
accounts Emails Financial Reports Insurance
Policies Economical Analysis
Derivatives Inventory Political
analysis Insurance Claims Financial
News Sports News Resumes
12
Xquery (et Xpath)
  • Une  logique  pour des arbres étiquetés,
    ordonnés, non bornés
  • langage déclaratif
  • Inspiré de SQL standard pour données
    relationnelles
  • Inspiré de OQL standard pour données objet
  • Mélange le contenu et la structure BD et
    recherche dinformation
  • Documents où Twingo apparait dans le titre
  • Langage de mise-à-jour

13
Services Web et calcul distribué
  • Possibilité dactiver une méthode sur un serveur
    Web distant
  • (un peu Corba en moins sophistiqué)
  • Echange dinformation en XML input/résultat en
    XML
  • Infrastructure pour faire du calcul distribué
    partout
  • Avec XML et les services Web, il est devenu
    possible
  • Dobtenir de linformation de quasiment partout
  • De publier de linformation de quasiment partout
  • Une famille de standards SOAP, WSDL, UDDI

14
Les workflows chorégraphie de services
  • Wikipedia On appelle  workflow  la
    modélisation et la gestion informatique de
    l'ensemble des tâches à accomplir et des
    différents acteurs impliqués dans la réalisation
    d'un processus métier
  • Un workflow est un flux d'informations au sein
    d'une organisation
  • Business Process Execution Language (BPEL), un
    standards exécutable pour spécifier des
    interactions avec des services Web

15
Sémantique des standards émergeants
Je ne vais beaucoup parler de sémantique
  • Web sémantique
  • Domaine très actif
  • Standards encore peu figés

16
Un accès uniforme à linformation Le rêve
de la gestion de données distribuées
17
Tendances
  • Plus de sémantique Web sémantique
  • Un programme peut poser des questions précises et
    obtenir des réponses précises
  • Plus dinteraction
  • Web 2.0 réseaux sociaux
  • Wiki, mashups, facebook, twitter
  • Applications de plus en plus distribuées
    pair-à-pair

18
Et lindustrie
19
Ils font comme tout le monde
  • Ils utilisent
  • Google
  • Leurs réseaux sociaux comme Linkedin
  • Youtube et Dailymotion (pour la pub, la
    formation)
  • Twitter pour le buzz
  • Des sites demploi (leur Meetic)
  • Ils vendent/achètent sur e-bay
  • Ils font des sites Webs

20
Ils ont leurs propres applications
  • Commerce propres sites
  • Vendre e-business
  • Achat e-approvisionnement
  • Ils utilisent le Web pour informatiser leurs
    processus
  • Web service et workflows BPEL
  • Fabrication
  • Traçabilité
  • Même si ça se voit moins, ils lutilisent
    énormément
  • Virage XML plus rapide que le grand public qui
    reste textuel
  • Virage Web service plus rapide car ça demande
    des ingénieurs

21
Ce qui leur plait
  • Outils de gestion/partage de données distribuées
  • Standard d échanges XML.
  • Possibilité de déploiement très rapide
  • Moteur de recherche Web
  • Faire baisser les coûts de développement
    dapplications réparties
  • Outils de composition et dorchestration de
    services - Web services
  • Outils de déploiement rapide dapplications
    réparties - Mashups

22
Ils ont des contraintes particulières
  • Qualité de service performance, sécurité,
    disponibilité
  • Souvent inacceptable pour eux sur le Web
    aujourdhui
  • Contrôle daccès et confidentialité
  • Idem
  • Facebook comme réseau social dentreprise cest
    pas sérieux
  • Ils commencent à trouver que linformatique coûte
    cher et aiment bien le gratuit même si
  • Ils ne peuvent pas se permettre le piratage
  • Ils nhésitent pas à payer

23
Gestion dinformation en pair-à-pair
24
Gestion dinformation en P2P
  • Content Sharing Community (CSC) Un groupe
    dutilisateurs qui partagent de linformation à
    lintérieur dun domaine particulier
  • Exemples Un groupes de sociétés, des
    scientifiques dans un certain domaine, une
    association, un groupe damis
  • Problème nouveau de gestion de données
  • Les données sont hétérogènes et dynamiques
  • Les données sont distribuées

25
La difficulté
  • Arriver à faire coopérer des machines autonomes
  • SGBD distribués
  • Depuis longtemps un écueil de la gestion de
    données
  • Lourds à mettre en place
  • Nombre restreint de machine Souvent systèmes
    homogènes
  • Pourquoi cest devenu faisable
  • On va limiter nos exigences
  • On va utiliser la puissance du parallélisme
  • Et surtout les nouveaux standards du Web

26
Pair-à-pair
  • Pair-à-pair un nombre important et changeant de
    systèmes coopèrent pour réaliser une tache sans
    aucune autorité centrale
  • Pair-à-pair massif musique en ligne avec des
    millions de pairs
  • Pair-à-pair pas massif gestion de données dans
    une entreprise avec des dizaines de pairs

27
De bonnes raisons pour une gestion P2P de données
  • Des raisons techniques
  • Performance
  • Disponibilité
  • Des raisons socio-économiques
  • Coût
  • Organisation décentralisée
  • Contrôle des données

28
Avantage techniqueperformances
  • Exemple Dans un système centralisé, plus un
    document est populaire, plus ça prend du temps de
    lobtenir
  • Avec un système P2P comme BitTorrent, cest le
    contraire
  • Serveur saturé Accélération

29
Avantage techniquedisponibilité
  • Avantages
  • Plusieurs copies dune même donnée, disponible
    même en cas de panne
  • Système darchivage et de sauvegarde en P2P
  • Aussi des désavantages dun point de vue
    technique
  • Plus complexe donc risque de pannes
  • Difficile de gérer les mises-à-jour
  • Difficile de contrôler la qualité de service

30
Avantage économiquegestion de données à coût
zéro
  • On utilise un système P2P gratuit
  • On utilise des machines existantes (pc, livebox,
    etc.)
  • On utilise les ingénieurs qui gèrent déjà ces
    systèmes et leurs applications
  • Bien adapté au Web et sa philosophie du  tout
    gratuit 
  • Moins que pour le grand public
  • Même les entreprises shabituent au  free 

31
Avantage économiquebien adapté aux
organisations peu centralisées
  • Avantages du P2P
  • Pas nécessaire de trouver un leader
  • Pas nécessaire de décider/imposer des règles
    fortes
  • Possibilité de laisser chacun indépendant et
    autonome
  • Désavantages du P2P pour des organisations très
    centralisées
  • Plus difficile dimposer des règles fortes
  • Plus difficile de garantir la cohérence des
    données en présence de mises-à-jour
  • Bien adapté aux gros groupes avec des entités
    indépendantes même sils nen sont pas encore
    convaincus ?

32
Mais des difficultés aussi
  • Complexité
  • Cause sérieuse de pannes
  • Difficulté de gérer les mises-à-jour
  • Difficulté de contrôler la qualité de service
  • Comportement asociaux
  • Spam, spamdexing autres
  • Confiance

33
Ça narrive pas vite dans lindustrie
  • QoS
  • Business model pas clair
  • Qui paie?
  • Pour quoi?

34
Perspective de recherche A lINRIA Zooms sur
des sujets de recherche
35
A lINRIA
  • De nombreuses équipes travaille autour du Web
  • Nombreux verrous technologiques
  • Gestion de données distribuées
  • Gestion de connaissance
  • Linguistique computationnelle
  • Systèmes pair-à-pair
  • Spécification et vérification dapplications
    réparties
  • Interface humain-machine
  • Etc.

36
3 Zooms
  • (sûrement moins par manque de temps)
  • Surveillance du Web
  • Facebook en P2P
  • Artifacts business

37
Surveillance du Web Fonctionnalités
  • Acquisition de données
  • Crawl du Web focalisé sur un domaine
  • Surveillance des changements gestion de flux de
    données
  • Intégration avec les données de lentreprise
    outils LTE
  • Gestion de données
  • Stockage, indexation, requêtes/mises-à-jour,
    contrôle daccès
  • Enrichissement
  • Classification, annotations sémantiques
  • Multilinguisme
  • Gestion dontologies, extraction de connaissances
  • Exploitation
  • IHM, fouille de données

38
Surveillance du Web Webcontent (1)
  • Plateforme ANR
  • Entrepôt pour le Web sémantique
  • http//www.webcontent.fr
  • INRIA, CEA, Thales, EADS, Soredab, INRA, Exalead,
    etc.
  • Premières applications
  • Veille économique en aéronautique
  • Intelligence stratégique
  • Risque alimentaire microbiologique et chimique
  • Surveillance dévènements sismique

39
Surveillance du Web Webcontent (2)
  • Archi basée sur XML et les services Web
  • Services dacquisition, enrichissement,
    dexploitation
  • Autour dun service de gestion de données XML
  • 2 architectures
  • Archi centralisée autour dun bus logiciel
  • Archi P2P autour dun système de gestion de XML
    en P2P

40
  • Facebook stocke des données personnelles
  • Plein dautres systèmes également
  • Difficile de contrôler ce quils en font
  • Difficile de garder mes données à jour

41
Facebook Architecture
Facebook
X
Delicious
Myspace
X
Gmail
X
LinkedIn
Sue
Sue
Bob
Bob
Sue
42
Facebook en P2P
Facebook
Facebook
Facebook
Facebook
  • Directes interactions
  • Je garde le contrôle sur mes données personnelles
  • Toutes les applications qui me concernent
    partagent les mêmes données
  • Si je change de numéro de téléphone, je nai pas
    à le changer dans 100 systèmes

chez Bob
Proxy Bob
Proxy Sue
Sue
Sue
Bob
Sue
43
Facebook en P2P (fin)
  • Droits daccès en P2P cryptographie
  • Index en P2P (avec des données cryptées)
  • Faire tourner chez soi des applications
    développées par des inconnus

44
Workflows centrés sur les données (1)
  • Artifact business document qui représente une
    activité humaine
  • Commande, voyage, objet à construire
  • Évolue dans le temps suivant certaines règles
  • Active XML Artifacts
  • Modèle basé sur XML avec des appels de services
    imbriqués
  • Documents que lont peut séchanger
  • Domaine général workflow centré sur les données
  • Combine les systèmes de workflow et les systèmes
    de gestion de données
  • Bien adapté pour des applications distribuées
  • Application jouet le système de fabrication de
    Dell sites commerciaux, banques, usines,
    entrepôts, société livraison

45
Workflows centrés sur les données (2)
  • Quelques sujets de recherche dans ce cadre
  • Aide à la conception de tels systèmes
  • Vérifier que le code est conforme aux
    spécifications
  • Surveillance de tels systèmes
  • Prévoir les ruptures de stock de pièces détachés
  • Aider au dispatching
  • Détecter les disfonctionnement et en trouver les
    causes
  • Passage à léchelle
  • Contrôle accès, qualité des données et confiance

46
Conclusion
47
Conclusion
  • Prévision sur le Web il faut être très modeste
  • Ça va ralentir on a fait le plus facile et on
    arrive aux sujets durs
  • Linguistique
  • Gestion de connaissances
  • Ça va continuer à bouger créativité humaine
  • Web sémantique Web de connaissances plutôt que
    de texte
  • Web 2.0 un Web plus interactif, plus
    communautaire
  • Web des objets
  • Web du pair-a-pair
  • Histoire pour le Web, on a toujours sous-estimé
    la créativité humaine

48
Merci
Write a Comment
User Comments (0)
About PowerShow.com