Ecole Doctorale Informatique et Information pour la Socit DEA ECD 2002 2003 Riadh BEN MESSAOUD - PowerPoint PPT Presentation

1 / 11
About This Presentation
Title:

Ecole Doctorale Informatique et Information pour la Socit DEA ECD 2002 2003 Riadh BEN MESSAOUD

Description:

Construction d'un Op rateur d'Analyse en Ligne des Donn es Complexes Bas sur une ... La strat gie ascendante est plus rapide que la strat gie descendante ... – PowerPoint PPT presentation

Number of Views:72
Avg rating:3.0/5.0
Slides: 12
Provided by: ericUni
Category:

less

Transcript and Presenter's Notes

Title: Ecole Doctorale Informatique et Information pour la Socit DEA ECD 2002 2003 Riadh BEN MESSAOUD


1
Ecole Doctorale Informatique et Information pour
la SociétéDEA ECD 2002 - 2003Riadh BEN MESSAOUD
Riadh.BenMessaoud_at_etu.univ-lyon2.fr
Mémoire de DEA ECD
  • Construction dun Opérateur dAnalyse en Ligne
    des Données Complexes Basé sur une Technique de
    Fouille de Données

Dirigé par Mme Sabine RABASEDA et M. Omar
BOUSSAID
Sabine.Rabaseda, Boussaid_at_univ-lyon2.fr
26 juin 2003
2
Problématique et objectifs
  • La fouille des données a réussi à extraire des
    connaissances à partir des données complexes
    Text Mining, Images Mining, Multimedia Mining

Données complexes
  • Les opérateurs de lanalyse en ligne classiques
    sont inadaptés pour lanalyse des données
    complexes
  • Des recherches dans lentreposage des données
    complexes sont en cours de réalisation
  • Création dun nouvel opérateur danalyse en ligne
    des données complexes
  • Utilisation dune technique de classification
    automatique pour lagrégation en ligne des
    données complexes
  • Tirer profit de la validité de la fouille des
    données complexes
  • Analyse en ligne des données complexes ?
  • Association entre fouille de données et analyse
    OLAP ?

3
Plan
  • Etat de lart du couplage entre fouille de
    données et analyse en ligne
  • Objectifs de lopérateur dagrégation
  • Choix de la technique de classification
    automatique
  • Formalisation théorique de lopérateur
  • Evaluation des résultats de lopérateur
  • Implémentation dun prototype
  • Démonstration
  • Conclusion

4
Etat de lart
  • Première approche
  • Etendre le langage de requête des opérateurs OLAP
    pour simuler des techniques de fouille de données
  • Han en al. (DBMiner)
  • Dayal en al. (Association rule cubes)
  • Goil et Choudhary (Règles dassociation)
  • Deuxième approche
  • Adaptation des SGBDM
  • Laurent en al. (Arbre de décision flous)
  • Adaptation de la structure cubique des données
  • Han et Dayal (Motifs fréquents UniSeq, Dim-Seq,
    Seq-Dim)
  • Goil et Choudhary (arbre de décision)
  • Chen en al. (IIMiner)
  • Troisième approche
  • Application de la fouille au cur des données
    cubiques
  • Palpanas visions théoriques
  • Sarawagi en al. (Discovery-driven) approche
    statistique
  • Favero et Robin approche statistique

Aucune approche naborde la problématique de
lanalyse en ligne des données complexes
5
Objectifs de lopérateur dagrégation
  • Production dagrégats qui traduisent des
    relations avec les mesures dun cube de données
  • Agrégation des modalités dune dimension
  • Utilisation dune technique de classification
    pour construire un opérateur dagrégation des
    données complexes

Niveaux des ventes des Parfums
Temps
Juin Mai Trim 2 Avril Mars Février
Trim 1 Janvier
  • Mai
  • Mars
  • Juin
  • Janvier
  • Février
  • Avril

détergents Parfums Conserves Laits
Niveaux des ventes à Paris
Villes
Produits
6
Choix de la technique de classification
Classification ascendante hiérarchique (Lance et
William 1967)
  • CAH vs CDH
  • La CAH inclut la partition la plus fine dans
    léventail de ses résultats
  • La stratégie ascendante est plus rapide que la
    stratégie descendante
  • Aspect hiérarchique Analogie pertinente entre
    la CAH, la structuration dune dimension et les
    résultats prévus pour lopérateur
  • Compatibilité avec lesprit de lanalyse en
    ligne navigation entre les niveaux de la
    classification par division ou par agrégation

Agrégation
Division
7
Formalisation théorique
W
Ensemble des individus Modalités dune
dimension
Variables
Temps
Juin Mai Avril Mars Février Janvier
Juin
Temps
Juin Mai Avril Mars Février Janvier
Mai
Avril
  • Une variable ne doit pas être dune modalité
    appartenante à la dimension retenue pour les
    individus

Individus
Mars
? Validité logique des variables de la
classification
Février
  • Par dimension, on ne peut choisir que des mesures
    référentes à un seul niveau hiérarchique

détergents Parfums Conserves Laits Produits
? Indépendance des variables
Villes
Janvier
Roll-up
Roll-up
8
Evaluation des résultats
  • La CAH fournit un ensemble de partitions
    hiérarchiques
  • Choix de la meilleure partition qui répond aux
    objectifs de lanalyse
  • Choix de la meilleure partition qui répond aux
    objectifs de lanalyse

? Outil dévaluation des partitions basé sur
linertie intra et inter-classes
9
Implémentation dun prototype
Trois composantes
  • Interface de paramétrage
  • Assistance pour la sélection des individus et des
    variables à partir dun cube de données
  • Choix des paramètres de la CAH
  • Chargeur des données
  • Connexion à un cube de données via un serveur
    OLAP externe (MS SQL Server OLAP Services)
  • Importation des informations du structure du cube
  • Chargement et mise en forme des données de la
    classification
  • Constructeur de lopérateur
  • Construction du modèle de classification
  • Evaluation des partitions de la classification

10
Démonstration
  • Jeux de données multidimensionnelles
  • 200 images de paysages et de villes
  • Dimensions
  • Contraste de limage X RGB
  • Entropie de limage X RGB
  • Homogénéité de limage X RGB
  • Taille de limage
  • Type de limage
  • Mesures
  • Somme des pixels X RGB
  • Radical de la somme carrée des pixels X RGB

11
Conclusion
  • Une première réponse à lanalyse en ligne des
    données complexes
  • La démarche a permis de profiter de la validité
    de la fouille dans les données complexes et la
    flexibilité de la structuration
    multidimensionnelle
  • Le choix de la CAH nexclut pas lutilisation
    dautres techniques de classification
  • Utilisation dautres techniques de fouille pour
    établir de nouveaux modèles dapprentissage en
    ligne sur les données complexes
  • Un article de ce travail est en cours de
    rédaction
Write a Comment
User Comments (0)
About PowerShow.com