Title: Introduction aux systmes SOLAP
1Introduction aux systèmes SOLAP
- Cours sujet spécial
- Généralisation et représentations multiples
- 4 juin 2002
2Table des matières
- Entrepôts de données
- Systèmes transactionnels et systèmes danalyse
- Définition et concepts dun entrepôt de données
- Entrepôts de données spatiales
- Outils clients dun entrepôt de données
- OLAP et SOLAP
- Définition, vocabulaire, composantes
- Architectures
- Structures multidimensionnelles
- Opérations
- Démonstration
3Entrepôts de données
4Le marché traditionnel
- Les outils traditionnels de gestion et
dexploitation des données spatiales sont du type
transactionnel ou OLTP (On-Line Transaction
Processing) - SGBD (Système de gestion de base de données)
- SIG (Système dinformation géographique)
- Serveurs SIG-WEB
5Systèmes transactionnels
- Le transactionnel réfère à un mode dexploitation
de données tourné vers la saisie, le stockage, la
mise à jour, la sécurité et lintégrité des
données. - Par exemple, les systèmes de gestion des
transactions boursières ou bancaires, dont les
guichets automatiques ou les systèmes
dinventaire dans les magasins
6Systèmes transactionnels
- Le système transactionnel réfère aux bases de
données développées afin de gérer les
transactions quotidiennes - Ces bases de données supportent habituellement
des applications particulières telles que les
inventaires de magasins, les réservations
dhôtel, etc
7Systèmes transactionnels
- Le contenu est fait de données actuelles, pas
darchives - Les données sont très détaillées (détails de
chacune des transactions) - La mise à jour seffectue par de nouvelles
transactions - Très souvent plusieurs de ces systèmes existent
indépendamment les uns des autres dans les
grandes organisations
8Systèmes transactionnels
- La plupart des systèmes transactionnels sont
implantés selon une structure relationnelle
normalisée (à différents degrés) - Redondance minimum
- Intégrité des données
- Facilité de mise à jour
9Systèmes transactionnels
- Opérations dans les systèmes transactionnels
- Ajout
- Effacement
- Mise à jour
- des enregistrements (habituellement, gros volume
de transactions impliquant chacune un petit
volume de données détaillées) - Requêtes simples (de type non-agrégatif)
10Obstacles à lanalyse dans les systèmes
transactionnels
- Les bases de données transactionnelles sont
habituellement normalisées de telle sorte que la
duplication des données est à son minimum - Assure lintégrité des données
- Simplifie la mise à jour des données
- Cependant, une très forte normalisation
complexifie lanalyse des données - Nombre élevé de tables donc nombre élevé de
jointures nécessaires entre les tables
(performance pauvre) - Temps de traitement long
- Élaboration complexe des requêtes
- Difficulté doptimiser le fonctionnement des
systèmes transactionnels et des systèmes daide à
la décision qui partagent la même structure de
données.
11Obstacles à lanalyse dans les systèmes
transactionnels
- De plus, les types danalyses servant aux
processus de décision des organisations
nécessitent - Données sommaires (agrégées ou résumées) sur
lensemble de lorganisation (provenant des
différentes BD dispersées de lorganisation et
intégrées) - Données historiques
- Réponses rapides (requêtes surtout de type
agrégatif), interfaces à lusager faciles à
utiliser - Besoin de systèmes dédiés à lanalyse
12Systèmes danalyse
- Les nouveaux outils dexploitation des données
spatiales sont de type analytique - Entrepôts de données (Data Warehouses)
- Marchés de données (Data Marts)
- Clients
- Requêteurs et rapporteurs (Querying and Reporting
Tools) - OLAP (On-Line Analytical Processing)
- Forage de données automatique (Data Mining)
13Entrepôts de données
- Les termes tels que entrepôt de données, magasin
de données et marché de données se succèdent
autour de la même idée - déposer des données initialement disparates
- dans un dépôt, endroit, magasin, i.e. très grande
base de données (TGBD (en anglais VLDB) volume
nb. enregistrements nb usagers concurrents) - organisée en fonction dune analyse facile et
rapide de cet ensemble de données. -
- Basé sur Bédard, et al, 1997, Geospatial data
warehousing positionnement technologique et
stratégique .
14Entrepôts de données
- Un entrepôt de données est une collection de
données portant sur des sujets touchant une
organisation, intégrée, variant dans le temps, et
non-volatile pour supporter le processus de prise
de décision dune organisation (traduction
libre, Inmon et al. 1996)
15Entrepôts de données
- Lentrepôt de données réfère aux bases de données
développées afin danalyser un grand volume de
données - Le contenu est fait des données actuelles et
darchives - Les données sont agrégées ou résumées
- Aucune mise à jour nest effectuée, mais lajout
de nouvelles données est possible - Un système global existe dans les grandes
organisations
16Marché de données
- Le marché de données est une implantation
localisée dun entrepôt de données à usage
unique (traduction libre, Devlin 1997) - Lentrepôt de données est prévu pour
lentreprise dans son ensemble alors que le
marché de données est sectoriel (il peut être un
sous-ensemble exact ou modifié de lentrepôt de
données) (Bédard et al, 1997)
17Architecture des entrepôts de données
- Une architecture dentrepôt de données possède
les caractéristiques suivantes - les données sources sont extraites de systèmes,
de bases de données et de fichiers - les données sources sont nettoyées, transformées
et intégrées avant dêtre stockées dans
lentrepôt - lentrepôt est en lecture seulement et est défini
spécifiquement pour la prise de décision
organisationnelle - les usagers accèdent à lentrepôt à partir
dinterfaces et dapplications (clients)
18Architecture centralisée(Corporated architecture)
Entrepôt de données centralisé, unique et
intégré de lorganisation
Systèmes transactionnels de lorganisation
Clients distribués
Il sagit de la version centralisée et intégrée
dun entrepôt regroupant lensemble des données
de lentreprise. Les différentes bases de données
sources sont intégrées et sont distribuées à
partir de la même plate-forme physique
19Architecture fédérée(Federated architecture)
Département A
Département B
Département C
Entrepôt de données de lorganisation
Systèmes transactionnels de lorganisation
Marchés de données distribués par département
Clients distribués
Il sagit de la version intégrée dun entrepôt
où les données sont introduites dans les marchés
de données orientés selon les différentes
fonctions de lentreprise
20Architecture trois-tiers(Three-tiers
architecture)
Tiers 3
Tiers 2
Tiers 1
Département A
Département B
Département C
Entrepôt de données (données détaillées)
Systèmes transactionnels (données très
détaillées)
Marchés de données (données résumées et agrégées)
Clients distribués
Il sagit dune variante de larchitecture
fédérée où les données sont divisées par niveau
de détail
21Architecture à niveaux multiples(Multiple-tiers
architecture)
Tiers 4
Tiers 3
Tiers 2
Tiers 1
Département A
Département B
Département C
Entrepôt (données détaillées)
Entrepôt (données résumées)
Systèmes transactionnels (données très
détaillées)
Clients distribués
Marchés de données (données résumées et agrégées)
Il sagit dune variante de larchitecture
trois-tiers où lentrepôt se compose de deux
niveaux de détail (utile pour entrepôt de données
spatiales)
22Entrepôts de données spatiales
Un entrepôt de données spatiales est une
collection de données spatiales de qualité,
orientée par sujet, non-volatile, variable dans
le temps, qui inclut un ensemble doutils de base
permettant daccéder et dextraire
linformation. (Traduction libre, Rawling et al
1997)
23Entrepôts de données spatiales
- La nature des données spatiales nécessite de
tenir compte des possibles incompatibilités - dans la référence spatiale (position, forme,
orientation, taille) - dans les systèmes de référence
- dans les unités de mesure
- dans lincertitude spatiale
- dans la précision
- dans le format
-
- ? Besoin doutils dintégration ou daccès
spécialisés (ex. FME, OGDI)
24Entrepôts de données spatiales
- Autres éléments à prendre en considération lors
de lintégration des données spatiales - la topologie
- les contraintes dintégrité spatiale
- les échelles
-
- ? Traitements dintégration longs, complexes et
coûteux - Afin déviter de répéter les efforts
dintégration, il peut être utile de stocker le
résultat des différentes étapes dintégration,
par exemple dans une architecture à niveaux
multiples
25Outils clients dun entrepôt de données
- Différents types dusagers nécessitent différents
outils dexploitation de données. Il en existe
trois principaux types - Les logiciels requêteurs (Cognos Impromptu,
Crystal Decisions Crystal analysis, ) - Les outils de forage de données (SPSS Clementine,
SGI Mineset, ) - Les outils OLAP (Hyperion Analyzer, Cognos
Powerplay, ProClarity, )
26OLAP
27OLAP
- Il sagit dune catégorie de logiciels axés
sur lexploration et lanalyse rapide des données
selon une approche multidimensionnelle à
plusieurs niveaux dagrégation (Caron, 1998)
28OLAP
- Catégorie de logiciels
- Sexprime par une grande quantité de produits
logiciels disponibles sur le marché - Exploration et analyse rapide
- OLAP vise à assister lusager dans son analyse en
lui facilitant lexploration de ses données et en
lui donnant la possibilité de le faire rapidement
- Rapidité et facilité
29OLAP
- Facilité
- Lusager na pas à maîtriser des langages
dinterrogation et des interfaces complexes - Lusager interroge directement les données, en
interagissant avec celles-ci - Rapidité
- OLAP exploite une dénormalisation maximale des
données, sous la forme dune pré-agrégation
stockée - Lusager devient opérationnel en très peu de
temps - Lusager peut se concentrer sur son analyse et
non sur le processus (les moyens utilisés pour
lanalyse)
30OLAP
- Approche multidimensionnelle
- Basée sur des thèmes danalyse (dimensions)
- Plus intuitive
- Plusieurs niveaux dagrégation
- Les données peuvent être groupées à différents
niveaux de granularité (les regroupements sont
pré-calculés, par exemple, le total des ventes
pour le mois dernier calculé à partir de la somme
de toutes les ventes du mois). - Granularité niveau de détail des données
emmagasinées dans une base de données.
31Composantes OLAP
- Larchitecture OLAP consiste en trois services
- Base de données
- Doit supporter les données agrégées ou résumées
- Peut provenir dun entrepôt ou dun marché de
données - Doit posséder une structure multidimensionnelle
(SGDB multidimensionnel ou relationnel) - Serveur OLAP
- Gère la structure multidimensionnelle dans le
SGBD - Gère laccès aux données de la part des usagers
- Module client
- Permet aux usagers de manipuler et dexplorer les
données - Affiche les données sous forme de graphiques
statistiques et de tableaux - Selon le type de base de données accédé,
plusieurs configurations sont possibles
multidimensionnelle, relationnelle ou hybride
32MOLAP(OLAP Multidimensionnel)
33ROLAP (OLAP Relationnel)
34HOLAP (OLAP Hybride)
35Structure multidimensionnelle
- Pour une configuration ROLAP ou HOLAP, il est
nécessaire de simuler une structure
multidimensionnelle dans un SGBD relationnel à
laide de modèles particuliers qui permettent de
mieux répondre aux besoins multidimensionnels - Modèle en étoile (Star Schema)
- Modèle en flocon (Snowflake Schema)
- Modèle mixte (Mixed Schema)
- Modèle en constellation (Fact Constellation
Schema)
36Modèle en étoile
37Modèle en flocon
38Opérations OLAP
- Les outils OLAP utilisent des opérateurs
particuliers afin de naviguer dans les cubes
multidimensionnels - Pivoter (pivot, swap) Permet dinterchanger
deux dimensions - Forer (drill-down) Permet de descendre dans la
hiérarchie de la dimension. Ex. visualiser le
nombre daccidents par mois au lieu de par année. - Remonter (drill-up, roll-up) Permet de remonter
dans la hiérarchie de la dimension. Ex.
visualiser le nombre daccidents par année au
lieu de par mois. - Forer latéralement (drill-across)
- Permet de passer dune mesure à lautre. Ex.
visualiser le coût des travaux au lieu du nombre
daccidents - Permet de passer dun membre de dimension à un
autre. Ex. visualiser les données de Montréal au
lieu de celles de Québec
39OLTP vs OLAP
40OLTP vs OLAP
41SOLAP
42SOLAP
- Environ 80 des données ont une composante
spatiale qui est souvent inexploitée - Besoin de nouveaux outils danalyse
spatio-temporelle pour exploiter cette composante
43SOLAP
- SIG ? Il est bien connu que les SIG seuls ne
présentent pas lefficacité requise par les
applications analytiques (langages
dinterrogation, interfaces complexes, temps de
traitement longs) - OLAP ? Lintérêt dOLAP pour lanalyse
spatio-temporelle a été démontré Caron, 1997.
Cependant, sans volet cartographique, il est
impossible de visualiser la composante
géométrique des données - SIG OLAP ? Une solution pourrait être de
combiner des technologies spatiales et
non-spatiales SIG et OLAP
44SOLAP
- SOLAP Une plate-forme visuelle supportant
lexploration et lanalyse spatio-temporelle
faciles et rapides des données selon une approche
multidimensionnelle à plusieurs niveaux
dagrégation via un affichage cartographique,
tabulaire ou en diagramme statistique.
45SOLAP
- 3 types de dimensions spatiales
- Descriptive
- Géométrique
- Mixte
- 2 types de mesures
- Descriptive numérique
- Spatiale
46SOLAP
- Plusieurs architectures possibles (SGBDM, SGBDR,
SIG, serveur OLAP, client OLAP, logiciel de
visualisation, DAO, logiciel statistique, ) - Exemples
- ICEMSE Access SoftMap VB
- MSSS SQL Server JMap Java
- MTQ routier SQL Server (Analysis Services)
ProClarity Geomedia VB
47SOLAP
- Des recherches très actives sont en cours à ce
sujet au CRG - Projets SOLAP en cours
- Ministère des Transports transport hors-norme
- Ministère de la Santé et des Services sociaux