volution de schmas par classification automatique dans les entrepts de donnes - PowerPoint PPT Presentation

1 / 19
About This Presentation
Title:

volution de schmas par classification automatique dans les entrepts de donnes

Description:

Positionnement de notre approche par rapport l'existant ... Approche modulaire bas e sur deux op rateurs. Op rateur de classification. Op rateur ... – PowerPoint PPT presentation

Number of Views:53
Avg rating:3.0/5.0
Slides: 20
Provided by: philippe132
Category:

less

Transcript and Presenter's Notes

Title: volution de schmas par classification automatique dans les entrepts de donnes


1
Évolution de schémas par classification
automatique dans les entrepôts de données
  • 3ème journée francophone sur les Entrepôts de
    Données et l'Analyse en ligne (EDA 2007)
  • Futuroscope-Poitiers, juin 2007
  • Ony Rakotoarivelo et Fadila Bentayeb
  • Laboratoire ERIC - Université Lyon 2

2
Motivation
schéma classique
Hiérarchies statiques ? Possibilités danalyse
limitée ? Tendances inexplorées
3
Plan
  • État de lart
  • Approche
  • Mise en oeuvre
  • Conclusion et perspectives

4
Plan
  • État de lart
  • Approche
  • Mise en oeuvre
  • Conclusion et perspectives

5
Les deux courants dévolution de schéma
  • Mise à jour de modèles
  • Blaschka et al. DaWak 1999
  • Hurtado et al. ICDE 1999
  • Hurtado et al. DOLAP 1999
  • Pourrabas et al. DOLAP 1999
  • Favre et al. ICEIS 2007
  • Entrepôts de données temporels
  • Bliujute et al. Technical report 1998
  • Vaisman et al. VLDB 2000
  • Morzy et al. ICEIS 2003
  • Morzy et al. DOLAP 2004

6
Evolution par mise à jour de modèles
  • Dimension graphe acyclique direct
  • Sommet niveau danalyse
  • Arête lien dagrégation
  • Mise à jour
  • Modification de la structure du graphe
  • Conservation des propriétés de départ

? Evolution non historisée
7
Modèles dentrepôts temporels
  • Schéma en étoile temporel
  • Bliujute et al. Technical report 1998
  • Idée Labéliser chaque instance dun niveau
    danalyse par un intervalle de temps
  • TOLAP Temporal OLAP
  • Vaisman et al. VLDB 2000
  • Idée Labéliser chaque lien dagrégation par un
    intervalle de temps
  • Versionnement
  • Morzy et al. ICEIS 2003, DOLAP 2004
  • Idée
  • Effectuer les modifications sur une nouvelle
    version de lentrepôt
  • Labéliser chaque version par un intervalle de
    temps

8
Positionnement de notre approche par rapport à
lexistant
?
9
Plan
  • État de lart
  • Approche
  • Mise en oeuvre
  • Conclusion et perspectives

10
Idée générale de lapproche
  • Approche modulaire basée sur deux opérateurs
  • Opérateur de classification
  • Opérateur dévolution de schéma

Évolution de schéma
classification automatique
connaissances
Quelle méthode de classification utiliser ?
11
Choix dune méthode de classification
  • Objectif de la classification
  • Regrouper les individus similaires et séparer les
    individus dissemblables
  • Les principales méthodes
  • CAH génère une hiérarchie de partitions
  • Cartes de Kohonen effectue une classification
    visuelle affichant la typologie dune population
    sur une carte
  • K-means génère une partition à partir des
    centres de classe
  • Critères de choix
  • Format des classes partition
  • Complexité algorithmique faible

Comment établir un lien dagrégation avec les
k-means ?
12
Établissement du lien dagrégation
Générer la partition classifiant les instances
du niveau de départ
Instances du niveau  produit 
Comment choisir les variables de classification ?
13
Choix des variables de classification
Option 1 utiliser les attributs du niveau
source Ex classifier les produits selon leur prix
Famille famille
 produit 
Catégorie Categ.
Jupe Robe Pantalon Short
Produit Produit prix
Option 2 combiner les attributs du niveau source
avec les indicateurs Ex classifier les produits
par rapport aux ventes
VENTES Produit Magasin Mois Qté vendue Montant
 produit 
Jupe Robe Pantalon Short
14
Plan
  • État de lart
  • Approche
  • Mise en oeuvre
  • Conclusion et perspectives

15
Approche dimplémentation fouille de données en
ligne
  • Choix technique
  • Intégration des k-means au sein du SGBD Oracle
  • Avantages
  • Pas de limitation sur la taille de la base
    dapprentissage (niveau source)
  • Accès direct aux données via SQL
  • Combinaison efficace k-means / OLAP
  • Étapes de limplémentation
  • Programmation en PL/SQL des k-means
  • Programmation en PL/SQL de lopérateur
    dévolution de schéma qui permet de créer les
    nouveaux niveaux danalyse

16
Tests
  • Entrepôt de données de test
  • http//www.emode.com
  • Table des faits 89 200 enregistrements
  • Table de dimension  Produit  213 produits
    regroupés en 12 familles de produits
  • Scénarii de test
  • Scénario 1 regrouper les produits par prix
  • Scénario 2 regrouper les produits sur les
    indicateurs (quantité vendue et chiffre
    daffaire).

17
Résultats
18
Plan
  • État de lart
  • Approche
  • Mise en oeuvre
  • Conclusion et perspectives

19
Conclusion et perspectives
  • Conclusion
  • Définition dun opérateur dévolution de schéma
    en utilisant les k-means
  • Combinaison OLAP et classification automatique
  • Intégration des k-means dans le SGBD Oracle
  • Perspectives
  • Exploitation des règles dassociation
  • Intégration de connaissances utilisateurs
  • Détection dindividus atypiques
  • Opérateurs de suppression et de modification
Write a Comment
User Comments (0)
About PowerShow.com