Title: Ecole Doctorale Informatique et Information pour la Socit DEA ECD 2002 2003 Riadh BEN MESSAOUD
1Ecole Doctorale Informatique et Information pour
la SociétéDEA ECD 2002 - 2003Riadh BEN MESSAOUD
Riadh.BenMessaoud_at_etu.univ-lyon2.fr
Mémoire de DEA ECD
- Construction dun Opérateur dAnalyse en Ligne
des Données Complexes Basé sur une Technique de
Fouille de Données
Dirigé par Mme Sabine RABASEDA et M. Omar
BOUSSAID
Sabine.Rabaseda, Boussaid_at_univ-lyon2.fr
26 juin 2003
2Problématique et objectifs
- La fouille des données a réussi à extraire des
connaissances à partir des données complexes
Text Mining, Images Mining, Multimedia Mining
Données complexes
- Les opérateurs de lanalyse en ligne classiques
sont inadaptés pour lanalyse des données
complexes
- Des recherches dans lentreposage des données
complexes sont en cours de réalisation
- Création dun nouvel opérateur danalyse en ligne
des données complexes
- Utilisation dune technique de classification
automatique pour lagrégation en ligne des
données complexes
- Tirer profit de la validité de la fouille des
données complexes
- Analyse en ligne des données complexes ?
- Association entre fouille de données et analyse
OLAP ?
3Plan
- Etat de lart du couplage entre fouille de
données et analyse en ligne
- Objectifs de lopérateur dagrégation
- Choix de la technique de classification
automatique
- Formalisation théorique de lopérateur
- Evaluation des résultats de lopérateur
- Implémentation dun prototype
4Etat de lart
- Première approche
- Etendre le langage de requête des opérateurs OLAP
pour simuler des techniques de fouille de données - Han en al. (DBMiner)
- Dayal en al. (Association rule cubes)
- Goil et Choudhary (Règles dassociation)
- Deuxième approche
- Adaptation des SGBDM
- Laurent en al. (Arbre de décision flous)
- Adaptation de la structure cubique des données
- Han et Dayal (Motifs fréquents UniSeq, Dim-Seq,
Seq-Dim) - Goil et Choudhary (arbre de décision)
- Chen en al. (IIMiner)
- Troisième approche
- Application de la fouille au cur des données
cubiques - Palpanas visions théoriques
- Sarawagi en al. (Discovery-driven) approche
statistique - Favero et Robin approche statistique
Aucune approche naborde la problématique de
lanalyse en ligne des données complexes
5Objectifs de lopérateur dagrégation
- Production dagrégats qui traduisent des
relations avec les mesures dun cube de données
- Agrégation des modalités dune dimension
- Utilisation dune technique de classification
pour construire un opérateur dagrégation des
données complexes
Niveaux des ventes des Parfums
Temps
Juin Mai Trim 2 Avril Mars Février
Trim 1 Janvier
détergents Parfums Conserves Laits
Niveaux des ventes à Paris
Villes
Produits
6Choix de la technique de classification
Classification ascendante hiérarchique (Lance et
William 1967)
- CAH vs CDH
- La CAH inclut la partition la plus fine dans
léventail de ses résultats - La stratégie ascendante est plus rapide que la
stratégie descendante
- Aspect hiérarchique Analogie pertinente entre
la CAH, la structuration dune dimension et les
résultats prévus pour lopérateur
- Compatibilité avec lesprit de lanalyse en
ligne navigation entre les niveaux de la
classification par division ou par agrégation
Agrégation
Division
7Formalisation théorique
W
Ensemble des individus Modalités dune
dimension
Variables
Temps
Juin Mai Avril Mars Février Janvier
Juin
Temps
Juin Mai Avril Mars Février Janvier
Mai
Avril
- Une variable ne doit pas être dune modalité
appartenante à la dimension retenue pour les
individus
Individus
Mars
? Validité logique des variables de la
classification
Février
- Par dimension, on ne peut choisir que des mesures
référentes à un seul niveau hiérarchique
détergents Parfums Conserves Laits Produits
? Indépendance des variables
Villes
Janvier
Roll-up
Roll-up
8Evaluation des résultats
- La CAH fournit un ensemble de partitions
hiérarchiques
- Choix de la meilleure partition qui répond aux
objectifs de lanalyse
- Choix de la meilleure partition qui répond aux
objectifs de lanalyse
? Outil dévaluation des partitions basé sur
linertie intra et inter-classes
9Implémentation dun prototype
Trois composantes
- Assistance pour la sélection des individus et des
variables à partir dun cube de données
- Choix des paramètres de la CAH
- Connexion à un cube de données via un serveur
OLAP externe (MS SQL Server OLAP Services)
- Importation des informations du structure du cube
- Chargement et mise en forme des données de la
classification
- Constructeur de lopérateur
- Construction du modèle de classification
- Evaluation des partitions de la classification
10Démonstration
- Jeux de données multidimensionnelles
- 200 images de paysages et de villes
- Contraste de limage X RGB
- Homogénéité de limage X RGB
- Radical de la somme carrée des pixels X RGB
11Conclusion
- Une première réponse à lanalyse en ligne des
données complexes
- La démarche a permis de profiter de la validité
de la fouille dans les données complexes et la
flexibilité de la structuration
multidimensionnelle
- Le choix de la CAH nexclut pas lutilisation
dautres techniques de classification
- Utilisation dautres techniques de fouille pour
établir de nouveaux modèles dapprentissage en
ligne sur les données complexes
- Un article de ce travail est en cours de
rédaction