Title: Le Data Warehousing: challenge ou mode
1stefano.spaccapietra_at_epfl.ch Laboratoire de bases
de données (LBD) Ecole Polytechnique Fédérale
Lausanne (EPFL), Suisse
2Modélisation informationnelle espace, temps,
contexte-une approche conceptuelleMADS
Stefano Spaccapietrahttp//lbd.epfl.ch
3Introduction besoin de - modélisation
(représentation) - décision - échange
4Modélisation et information géographique
- Représentation de la structure urbaine de
St.Maximin - Par exemple, pour des analyses socio-économiques
- Représentation de la structure de l'Hôtel Couvent
Royal ou du complexe monastique
(basiliquecouvent) - Par exemple, pour létude des procédures
dévacuation - Représentation de la montagne St.Victoire (espace
géographique) - Par exemple, pour établir une cartographie
- Représentation dune région (Provence), dun pays
(France) - Par exemple, pour des études d'aménagement
- Représentation dun réseau de transport (routes,
trains, fluvial, électrique, gaz, etc.) - Par exemple, pour la planification de son
évolution
5Décision et information géographique
- Gestion du trafic faut-il doubler une autoroute
? - Gestion des transports faut-il renforcer une
ligne ou créer une ligne nouvelle - Gestion des risques naturels sait-on faire face
à une tempête ? - Gestion des villes quels sont les
investissements prioritaires ? - Gestion des risques industriels organisation des
secours ? - Gestion de lenvironnement comment choisir les
bons indicateurs ? - Etudes archéologiques quels types de bâti sont
compatibles avec les ruines existantes ?
(simulation)
6Echanger un besoin incontournable
- Rarement une base de données contient toutes les
informations nécessaires - L'accès à des données dans d'autres bases de
données nécessite des solutions humaines (accord
de partage) et des solutions techniques
(protocoles d'exportation et d'importation). - Les standards cherchent à faciliter la définition
de ces protocoles. Ils règlent les problèmes de
syntaxe. - La solution des problèmes de sémantique
(compréhension correcte des informations
échangées) s'oriente aujourd'hui vers le recours
aux ontologies (super-dictionnaire métier)
7Les solutions informatiques
- Mémorisation des informations
- Bases de données géographique
- Bases de données spatiales ou spatio-temporelles
- Systèmes type SIG/GIS ou SGBD/DBMS étendu
- Support à la décision
- Entrepôts de données spatiales ou
spatio-temporelles - Systèmes Data Warehouse
- Interopérabilité - Echange
- Protocoles standards
- Ontologies
8Les entrepôts de données
Extraction des données
9Ontologies
- Un moyen de partager linformation, entre humains
comme entre ordinateurs - Une spécification explicite dune
conceptualisation" (Gruber) - Constituée par
- un vocabulaire spécifique utilisé pour décrire
les concepts pertinents pour un certain domaine
du savoir, et - un ensemble de descriptions formelles de la
signification de ces concepts
10Les bases de données
- Modélisation conceptuelle
11Modélisation conceptuelle
- Objectif représenter la réalité telle qu'elle
est perçue par les utilisateurs - Avantages
- Attention portée sur les applications
- Indépendante des technologies
- Portabilité
- Longévité
- Orientée utilisateur
- Facilité de compréhension
- Support du dialogue concepteurs / utilisateurs
- Permet la collaboration et la validation par les
utilisateurs
12Autres avantages
- Spécifications formelles, non ambiguës
- Puissance descriptive des concepts
- Support dinterfaces visuelles (lisibilité)
- Diagrammes de structure des données
- Manipulation de données
- Facilite les échanges dinformations entre SGBD
différents (interopérabilité)
13Comment structurer les informations
14Conception dune BD
- analyse de la réalité
- partielle
- subjective
- infidèle
- représentation (modèle)
- contenu
- structure
- règles
- dynamique
- description (langage de définition des données -
LDD)
15Concepts de base d'un modèle conceptuel
- Les concepts de base (correspondent aux concepts
dabstraction de la réalité) - entité ltgt objet
- lien ltgt association ("relationship")
- propriété ltgt attribut
- la représentation multiple
16Des objets complexes
17Des associations entre objets
- Association représentation d'un lien non
orienté entre plusieurs entités (qui jouent un
rôle déterminé)
Achète
Personne
Maison
"achète" lt 1 personne, 1 maison gt
18Les objets dans le temps
- qu'est qu'un client ???
- Toute personne qui a une commande en cours
- Toute personne qui a fait une commande dans les
six derniers mois - Toute personne qui a fait une commande dans le
passé ou qui est susceptible de faire une
commande dans le futur
19Les associations dans le temps
Emprunte
Personne
Livre
- Quels emprunts veut-on dans la BD?
- Seulement les emprunts en cours
- Les emprunts des trois derniers mois
- Aussi les emprunts à venir (réservations)
- .
20Les attributs
- Décrivent linformation (les propriétés) à
conserver sur - un objet
- une association
- un attribut
FEMME
Marié à
Personne
MARI
Date_mariage
nom
prénom
salaire
jour
mois année
Domaine 1,31
21Associations Ternaires
3 objets liés
Achète
Client
Produit
Fournisseur
- "achète" lt 1 client, 1 produit, 1 fournisseur gt
22Identifiants
- Pour désigner un objet (une association) de façon
univoque - Identifiant fixé par l'application clé
- Ensemble minimal d'attributs tel qu'il n'existe
pas deux objets (ou deux associations) qui aient
la même valeur pour ces attributs (exemple
numéro sécurité sociale) - Dans les bases de données relationnelles, toute
table doit avoir un identifiant - Identifiant fixé par le système object
identifier - Valeur discriminante attribuée à chaque objet
(association) pour la différencier de toutes les
autres
23Contraintes de cardinalité
- Une personne peut ne pas avoir de voiture, en
avoir 1, 2, n (pas de contrainte)
- Une voiture a un et un seul propriétaire
24Contraintes d'intégrité
- âge ? 0 130 0 âge 130
- SI mois ? 4, 6, 9, 11 ALORS jour ? 130 ,
- SINON SI mois2 ALORS jour ? 129,
- SINON jour ? 131
- " x,y ? Personne, ltx,ygt ? Mariage
- gt x.état-civil "marié"
y.état-civil "marié - " x ? Personne, " y ? Voiture, ltx,ygt ? Conduit
-
gt x.âge gt18 - " x ? Personne,
- (x.sexeF OR x.agelt18) gt
x.statut_militaireNULL
25Représentation multiple
- Un objet peut avoir plusieurs représentations
Bâtiment
Habitation
Civique
Religieux
Eglise
Synagogue
- Plusieurs points de vue
- un bâtiment
- un bâtiment religieux
- une église
Couvent
26Lien de Généralisation / Spécialisation (Is-a)
Raffinement de classification
Bâtiment
Un bâtiment religieux est un bâtiment
Lien IS_A
Bâtiment civique
Bâtiment habitation
Bâtiment religieux
Eglise
Synagogue
Couvent
27Clusters de spécialisation
Etudiant
Et.garçon
Et.fille
Et.info
Et.archi
Et.3ème
Et.4ème
critère sexe critère
discipline critère année
28Exemple avec multi-instanciation
overlapping
Moyen de Transport
Accessoire Cinéma
disjoint
disjoint
Véhicule
Avion
Bicyclette
overlapping
Voiture
Objet de collection
29Spécialisation d'associations
Premier Auteur
- Dans certaines applications on souhaite savoir
lequel des auteurs d'un article apparaît en
premier auteur.
30Spécialisation de TA avec liens supplémentaires
- Des liens (comme des attributs) peuvent être
ajoutés à une association spécialisée
31Des associations aux multi-associations
- Une association lie un objet de chaque type
d'objet lié - Une personne possède un logement
- Parfois, on a besoin de lier des groupes
d'objets, plutôt que des objets individuels - Un groupe de parcelles est restructuré pour
donner un autre groupe de parcelles
(remembrement) - En modélisation traditionnelle, ceci force la
création d'un objet "groupe de parcelles" (objet
artificiel)
32La multi-association
5 bâtiments 110000 (1,2,3,4,5) représentés par 3
bâtiments 150000 (a,b,c)
- Pas de correspondance 1-1 ou n-1 entre les
batiments des deux types - Association N-M
t ( 1,2,3,4,5 , a,b,c )
33Sémantique des (multi-)associations
- Les associations et multi-associations peuvent
être enrichies avec une ou plusieurs sémantiques
prédéfinies - Agrégation
- Transition
- Génération
- Et d'autres, dans le domaine spatial, temporel,
multi-représentation,
34Agrégation (ou composition)
- Noms des rôles
- composant, composé
- Règle de dérivation
- Ferme.geometry SpatialUnion (Champ.geometry,Bâti
ment.geometry) - Contrainte
- les champs et les bâtiment d'une même ferme
doivent appartenir au même propriétaire et être
adjacents
35Transition
- Décrit l'évolution des objets par rapport à leur
classification
Personne
Etudiant
Alumnus
Promotion
36Génération
- Un ensemble d'objets source génère un ensemble
d'objets cible
0n cible 1n
Parcelle
0n source 1n
37Au delà des structures espace, temps, contexte
38Modélisation multidimensionnelle
- Décrire la structure des données est fondamental,
mais il y a beaucoup plus à décrire - La localisation dans l'espace des phénomènes qui
nous intéressent - Leur localisation dans le temps
- Les contextes multiples qui déterminent une
modélisation particulière - Le degré de certitude/incertitude de
l'information - Etc.
39Espace de représentation multidimensionnel
Classification
deux représentations du même objet selon le même
point de vue à des résolutions spatiales
différentes
Point de vue
Espace (granularité)
40Un instantané de BD
Classification
Point de vue
Temps
41Orthogonalité des dimensions de modélisation
réservoirs
rivières
bassins versants
42Exemple structure des données / espace
ou
Objets spatiaux ou attributs spatiaux ?
Rivière
nom réservoirs
R nom localisation
ou les deux ?
43Ajouter des annotations spatiales
Dans
Rivière
BassinVersant
nom
C
Sur
Réservoir
R
nom
Rivière
B surface
nom
bassinVersant
réservoirs
Dans
Rivière
BassinVersant
nom
B
réservoirs
44Ajouter des annotations temporelles
attribut date (user defined time)
Attribut variable dans le temps
numéro nom
nom dateNais adresse f( ) téléphones
rue ville codePostal pays
Personne
Cycle de vie
nom budget
Département
Employé
salaire f( )
Projet
budget
nom présentations
speaker lieu durée
45Modélisation de l'espace
- Vue discrète et vue continue
- Vue discrète
- objets spatiaux
- et attributs spatiaux
- Rivière avec bassins versant, digues, réservoirs
- ZoneAvalanche avec point de départ, corridors
- Associations à contraintes spatiales
- Intersection routière feux, signalisation,
nombre de collisions - topologiques, métriques, d'orientation
- Vue continue
- Attributs variables dans l'espace (space-varying
attributes) - Fonction étendue spatiale ? valeurs
- Exemples altitude, hauteur de pluie, couverture
du sol, type de sol,
46Vue discrète et vue continue
- Vue continue
- grille (une valeur par cellule)
- Vue discrète
- points, lignes ou surfaces (délimitées par des
lignes) - Monde réel
47Attributs spatiaux
Lac
Type d'objet spatial
nom km2 iles (0,n) profondeur f( ) ports
(0,n) nom localisation capacité
Attribut spatial (surface)
Attribut variable dans l'espace
Attribut spatial (point)
- UNE IMPLEMENTATION RELATIONNELLE
- Lac (Lnom, geometry, km2)
- Island (Lnom, numéro-Ile, surface)
- Profondeur (Lnom, point, prof)
- Port (Lnom, nom-port, localisation, capacité)
48Types spatiaux en MADS
49Modélisation du temps
- Mémoriser quand un objet était (est, sera) actif
- Cycle-de-vie des objets et des associations
- Validité des valeurs d'attribut
- Mémoriser l'évolution (passée et future) des
valeurs des attributs - Attributs variables dans le temps
- Fonction intervalle de temps --gt valeurs
- Associations à contrainte temporelle
- Imposer une contrainte temporelle sur le cycle de
vie des objets liés - Associations de synchronisation
- Ex. Mariage gt les deux personnes vivent au même
moment - Ex. PèreDe gt le père est né avant son enfant
50Cycle de vie
- Différentes possibilités
- un intervalle de temps, ex. Personne
- un instant, ex. EtoileFilante
- Un ensemble d'intervalles
- gt état actif et suspendu
- ex. un professeur est en sabbatique
- L'ensemble des états possibles et leurs
propriétés dépendent des applications
51Concepts spatio-temporels
- Variabilité dans l'espace et dans le temps
- ex. occupation du sol
- fonction (domaine spatial X domaine temporel)
--gt valeurs - Implémentation ensemble de (point, instant,
valeur) - Objets spatiaux mobiles
- Point mobile
- Ex. personne, voiture
- fonction Temps --gt Point
- trajectoires
- Surface mobile tempête, nappe de pollution
- fonction Temps --gt Surface
- Avec déformations possibles
52Les contextes perception et représentations
multiples
53Multi-Représentation points de vue multiples
Monde Réel
Gestionnaire de risques
Constructeur
Pont
Avalanche
Lac
Bâtiment
Parcelle
Parcelle
Bâtiment
Route
geometry
geometry
no-bât
no-parcelle
Lac
Route
geometry nom
Route
geometry no-route materiau
geometry no-route type nbDeVoies
Lac Léman
Lac de Genève
54Résolution multiples
moins précise
plus précise
ltN11947, Durandgt
occupation-du-sol surface cultivée, foret,
surface construite
ltN11947, 1987, Durand, 600m2, 2 étagesgt
occupation-du-sol verger, vigne, céréales,
pré, foret
55Géométrie multiples
Rivière décrite comme surface ou comme ligne
résolution plus précise
résolution moins précise
56Valeurs multiples d'attributs
- Décrire la même propriété à différents niveaux
d'abstraction - même idée que les hiérarchies de classification
pour les objets
occupation du sol
surface cultivée forêt
verger
céréales
oléagineux
vignes
poiriers
citronniers
pommiers
mais
blé
colza
tournesol
57La solution MADS
- Identification des perceptions
- ex. BD Risques naturels
- Résolutions 1/1000, 1/5000, 1/25000
- Points de vue Technicien, Gestionnaire, Public
- gt T1, T5, T25, G1, G5, G25, P1, P5, P25
- Chaque objet ou lien du monde réel peut avoir
dans la BD une ou plusieurs représentations - Souvent une par perception
- Estampillage de chaque élément de la BD et du
schéma avec l'identifiant des perceptions
auxquelles il appartient
58Principes de la solution
- Deux usages d'une BD "PRM" (perceptions et
représentations multiples) - mono-perception gt BD normale
- multi-perception gt un nouveau genre de BD
- Nouvelles règles de cohérence
- Deux façons de modéliser une BD PRM
- Intégration
- Toutes les représentations du même objet sont
réunies en un seul type d'objet - Liens inter-représentation
- un type d'objet par représentation
59Des types mono-repr. aux types multi-repr.
Route
Perceptions
numéro (11) integer nom (11) string
f(P) classAdm (11) integer dpt (11)
integer type (11) enum (locale, régionale,
nationale) string
60Modélisations séparées
61Ouverture d'une BD PRM
Ouverture avec les perceptions rouge et bleu
toutes les instances
Ouverture avec la perception bleu
Ouverture avec la perception rouge
Road
Route
numéro (11) integer name (11)
string classAdm (11) integer type (11) enum
(locale, régionale, nationale)
numéro (11) integer nom (11) string dpt
(11) integer type (11) string
toutes les instances rouges, rougebleu
toutes les instances bleues, rougebleu
62Manipulation dans une BD PRM
- Utilisateur rouge
- InsertInto Route (numéro D506, nom
Départementale Paris-Aubervilliers, dpt 78,
type locale, geometry list-of-coordinates) - Utilisateur bleu
- AddRepresentationTo Route Where (numéro
D506)(classAdm 3, type route secondaire,
geometry new-list-of-coordinates)
63Conclusion
- Les concepts pour la modélisation conceptuelle de
l'espace et du temps existent. - Une modélisation par dimensions orthogonales est
préférable. - Les outils correspondants ne sont qu'au stade de
prototypes. - Des outils de traduction d'une modélisation
conceptuelle en spécifications logiques
(compréhensibles par les systèmes type GIS
actuels) sont en cours de développement. - La représentation multiple est un besoin
incontournable. - L'interopérabilité reste pauvre.
64Pour en savoir plus
- Les publications du laboratoire
http//lbd.epfl.ch - Mon email stefano.spaccapietra_at_epfl.ch
- Un livre
- Christine Parent, Stefano Spaccapietra, Esteban
Zimán?yiConceptual Modeling for Traditional and
Spatio-Temporal Applications - Springer2006, 466 p. 115 Illus. 11 Tables.
Hardcover
Merci pour votre attention