Title: volution de schmas par classification automatique dans les entrepts de donnes
1Évolution de schémas par classification
automatique dans les entrepôts de données
- 3ème journée francophone sur les Entrepôts de
Données et l'Analyse en ligne (EDA 2007) - Futuroscope-Poitiers, juin 2007
- Ony Rakotoarivelo et Fadila Bentayeb
- Laboratoire ERIC - Université Lyon 2
2Motivation
schéma classique
Hiérarchies statiques ? Possibilités danalyse
limitée ? Tendances inexplorées
3Plan
- État de lart
- Approche
- Mise en oeuvre
- Conclusion et perspectives
4Plan
- État de lart
- Approche
- Mise en oeuvre
- Conclusion et perspectives
5Les deux courants dévolution de schéma
- Mise à jour de modèles
- Blaschka et al. DaWak 1999
- Hurtado et al. ICDE 1999
- Hurtado et al. DOLAP 1999
- Pourrabas et al. DOLAP 1999
- Favre et al. ICEIS 2007
- Entrepôts de données temporels
- Bliujute et al. Technical report 1998
- Vaisman et al. VLDB 2000
- Morzy et al. ICEIS 2003
- Morzy et al. DOLAP 2004
6Evolution par mise à jour de modèles
- Dimension graphe acyclique direct
- Sommet niveau danalyse
- Arête lien dagrégation
- Mise à jour
- Modification de la structure du graphe
- Conservation des propriétés de départ
? Evolution non historisée
7Modèles dentrepôts temporels
- Schéma en étoile temporel
- Bliujute et al. Technical report 1998
- Idée Labéliser chaque instance dun niveau
danalyse par un intervalle de temps - TOLAP Temporal OLAP
- Vaisman et al. VLDB 2000
- Idée Labéliser chaque lien dagrégation par un
intervalle de temps - Versionnement
- Morzy et al. ICEIS 2003, DOLAP 2004
- Idée
- Effectuer les modifications sur une nouvelle
version de lentrepôt - Labéliser chaque version par un intervalle de
temps
8Positionnement de notre approche par rapport à
lexistant
?
9Plan
- État de lart
- Approche
- Mise en oeuvre
- Conclusion et perspectives
10Idée générale de lapproche
- Approche modulaire basée sur deux opérateurs
- Opérateur de classification
- Opérateur dévolution de schéma
Évolution de schéma
classification automatique
connaissances
Quelle méthode de classification utiliser ?
11Choix dune méthode de classification
- Objectif de la classification
- Regrouper les individus similaires et séparer les
individus dissemblables - Les principales méthodes
- CAH génère une hiérarchie de partitions
- Cartes de Kohonen effectue une classification
visuelle affichant la typologie dune population
sur une carte - K-means génère une partition à partir des
centres de classe - Critères de choix
- Format des classes partition
- Complexité algorithmique faible
Comment établir un lien dagrégation avec les
k-means ?
12Établissement du lien dagrégation
Générer la partition classifiant les instances
du niveau de départ
Instances du niveau produit
Comment choisir les variables de classification ?
13Choix des variables de classification
Option 1 utiliser les attributs du niveau
source Ex classifier les produits selon leur prix
Famille famille
produit
Catégorie Categ.
Jupe Robe Pantalon Short
Produit Produit prix
Option 2 combiner les attributs du niveau source
avec les indicateurs Ex classifier les produits
par rapport aux ventes
VENTES Produit Magasin Mois Qté vendue Montant
produit
Jupe Robe Pantalon Short
14Plan
- État de lart
- Approche
- Mise en oeuvre
- Conclusion et perspectives
15Approche dimplémentation fouille de données en
ligne
- Choix technique
- Intégration des k-means au sein du SGBD Oracle
- Avantages
- Pas de limitation sur la taille de la base
dapprentissage (niveau source) - Accès direct aux données via SQL
- Combinaison efficace k-means / OLAP
- Étapes de limplémentation
- Programmation en PL/SQL des k-means
- Programmation en PL/SQL de lopérateur
dévolution de schéma qui permet de créer les
nouveaux niveaux danalyse
16Tests
- Entrepôt de données de test
- http//www.emode.com
- Table des faits 89 200 enregistrements
- Table de dimension Produit 213 produits
regroupés en 12 familles de produits - Scénarii de test
- Scénario 1 regrouper les produits par prix
- Scénario 2 regrouper les produits sur les
indicateurs (quantité vendue et chiffre
daffaire).
17Résultats
18Plan
- État de lart
- Approche
- Mise en oeuvre
- Conclusion et perspectives
19Conclusion et perspectives
- Conclusion
- Définition dun opérateur dévolution de schéma
en utilisant les k-means - Combinaison OLAP et classification automatique
- Intégration des k-means dans le SGBD Oracle
- Perspectives
- Exploitation des règles dassociation
- Intégration de connaissances utilisateurs
- Détection dindividus atypiques
- Opérateurs de suppression et de modification