Title: DATA WAREHOUSE - DATA MINING
1DATA WAREHOUSE - DATA MINING
- Motivations et architecture
- Le multidimensionnel
- Le data mining
- La recherche de règles associatives
- Conclusion
21. OLTP versus OLAP
3Explosion de l OLAP
- Facteurs économiques technologiques
Milliards de
Années
4Motivations des entreprises
- Besoin des entreprises
- accéder à toutes les données de lentreprise
- regrouper les informations disséminées dans les
bases - analyser et prendre des décisions rapidement
(OLAP) - Exemples d'applications concernées
- Bancaire suivi des clients, gestion de
portefeuilles - mailing ciblés pour le marketing
- Grande distribution marketing, maintenance, ...
- produits à succès, modes, habitudes dachat
- préférences par secteurs géographiques
- Télécommunications pannes, fraudes, mobiles,
... - classification des clients, détection fraudes,
fuites de clients, etc. - Médecine, Pharmacie, Bourse, Production,
5L'approche entrepôt de données
- Datawarehouse
- Ensemble de données historisées variant dans le
temps, organisé par sujets, consolidé dans une
base de données unique, géré dans un
environnement de stockage particulier, aidant à
la prise de décision dans lentreprise. - Trois fonctions essentiels
- collecte de données de bases existantes et
chargement - gestion des données dans lentrepôt
- analyse de données pour la prise de décision
6Architecture type
Présentation
Datawarehouse
Analyse
Exploration
Client décisionnel
Client décisionnel
BD Entrepôt
Médiateur
Transformation, Fusion
Extraction, Filtrage
Moniteur/Adapteur
Moniteur/Adapteur
Moniteur/Adapteur
Source
BD Source
Données opérationnelles
BD source
Données externes
BD légataires
7Datamart (Magasin de données)
- sous-ensemble de données extrait du datawarehouse
et ciblé sur un sujet unique
Bases multidimensionnelles
Data Warehouse
Bases de production
Data Marts
SGBD relationnel
Outils d extraction
Outils dalimentation
Bases relationnelles
Bases externes
8Bilan Entrepôt
- Le datawarehouse regroupe, historise, résume les
données de l entreprise - Le concepteur définit schéma exportés et intégrés
- des choix fondamentaux !
- Ciblage essentiel !
- Le datamart cest plus ciblé et plus petit.
- Questions ?
- Peut-on ajouter des données au niveau de
l entrepôt ?
92. Modélisation multidimensionnelle
- Dimensions
- Temps
- Géographie
- Produits
- Clients
- Canaux de ventes.....
- Indicateurs
- Nombre dunités vendues
- CA
- Coût
- Marge.....
10Le data cube et les dimensions
Axe d'analyse La géographie (Pays - région
- ville)
Variables analysées Nb unités, CA, marge...
Axe d'analyse Les produits (classe,
produit)
Axes d'analyse dimensions Variables analysées
indicateurs
Axe d'analyse Le temps (Année, trimestre, mois,
semaine)
11La granularité des dimensions
Années
Jours
Trimestres
Mois
Temps
Pays
Régions
Villes
Géographie
Gammes
Types
Numéros
Produits
Marques
12La navigation multidimensionnelle
Projection en 2 dimensions
Coupe d un cube
Produits
Produits
pour une région donnée
CA
CA
Région
Temps en semaines
Réduction selon 1 dimension
Zoom selon une dimension
Produits
CA
Temps en mois
13Les vues d'un cube
- Partant d'un cube 3D, il est possible d'agréger
selon une dimension tournante - On obtient un treillis de vues (calculable en SQL)
14ROLAP versus MROLAP
SQLCube
SQLCube
Opérateurs décisionnels
Cache Cube
Analyseur Optimiseur
SQL
Analyseur Optimiseur
Opérateurs décisionnels
Opérateurs relationnels
Opérateurs relationnels
Cache SGBD
Cache SGBD
SGBD ROLAP
SGBD MROLAP
15Bilan OLAP
- La modélisation multidimensionnelle est adaptée à
l analyse de données - Le datacube est au centre du processus
décisionnel - transformation et visualisation 3D
- une algèbre du cube
- Slice, Dice, Rollup, Drilldown
- Questions ?
- Combien de datacubes à partir de N variables ?
163. Qu est-ce-que le data mining ?
- Data mining
- ensembles de techniques d'exploration de données
afin d'en tirer des connaissances (la
substantifique moelle) sous forme de modèles
présentées à l utilisateur averti pour examen - Connaissances
- analyses (distribution du trafic en fonction de
l heure) - scores (fidélité d un client), classes (mauvais
payeurs) - règles (si facture gt 10000 alors départ à 70)
Données entrepôt
Connaissances
Data mining
Découverte de modèles
Compréhension Prédiction
17Domaines d'utilisation
- De plus en plus de domaines
- explosion des données historisées
- puissance des machines support
- Quelques domaines réputés
- Analyse de risque (Assurance)
- Marketing
- Grande distribution
- Médecine, Pharmacie
- Analyse financière
- Gestion de stocks
- Maintenance
- Contrôle de qualité
18Mécanismes de base
- Déduction base des systèmes experts
- schéma logique permettant de déduire un théorème
à partir d'axiomes - le résultat est sûr, mais la méthode nécessite la
connaissance de règles - Induction base du data mining
- méthode permettant de tirer des conclusions à
partir d'une série de faits - généralisation un peu abusive
- indicateurs de confiance permettant la pondération
19Découverte de modèles
- Description ou prédiction
- Apprentissage sur la base
- Utilisation pour prédire le futur
- Exemple régression linéaire Y a X B
Confiance
Entrées
Sortie
20Méthode SEMMA (SAS)
- Sampling Échantillonner
- tirer un échantillon significatif pour extraire
les modèles - Exploration Explorer
- devenir familier avec les données (patterns)
- Manipulation Manipuler
- ajouter des informations, coder, grouper des
attributs - Modelling Modéliser
- construire des modèles (statistiques, réseaux de
neuronnes, arbres de décisions, règles
associatives, ) - Assessment Valider
- comprendre, valider, expliquer, répondre aux
questions
21Principales Techniques
- Analyse statistique
- régression linéaire
- régression logistique
- réseaux baysiens
- Découverte de modèles fonctionnels
- fonctions probabilistes
- réseaux de neurones
- Segmentation
- K-moyennes
- Raisonnement à base de cas
- Classification
- arbres de décision
- réseaux d'agents
22Règles associatives
- La découverte de règles
- découverte de relations plus fines entre données
- du style si X alors Y
- si Achat(Vin) alors Achat(Boursin) (10, 15)
- su Achat(Pain) Achat(Fromage) alors Achat(Vin)
(70, 80) - Support probabilité absolue P(XY)
- XY/ BD de transactions vérifiant la règle
- Confiance probabilité conditionnelle P(Y/X)
- XY/X de transactions vérifiant
l'implication sup(XY) / sup(X) - Comment extraire les règles intéressantes ?
- exemple Supp.gt 0.1 et Conf.gt 0.7
- comment optimiser les calculs d'indicateurs sur
des VLDB?
23Recherche des règles intéressantes
- Nécessité de calculer les supports
- de tous les produits gt 1-ensemble fréquent
- de tous les ensembles suceptibles d être
fréquents - La confiance se déduit du support
- conf (X--gtY) suup(X) / sup(XY)
- Un ensemble de taille k est appelé un k-ensemble.
- Un ensemble de support plus grand que minsup est
fréquent. - Tout k-ensemble fréquent est composé de
(k-1)-ensembles fréquents - en effet, un ensemble ne peut être fréquent si
ses sous-ensembles ne le sont pas
24Comment évaluer efficacement ?
- Réduire le nombre de passes (I/O)
- Réduire le temps CPU
- Nombreux algorithmes
- Apriori Agrawal Imielinski Swami
- Apriori-tid Agrawal Srikant
- PartitionSavasete Omseinski Navatgr
- Dynamic Counting Brin Ullman Tsur
- Bitmap Gardarin Pucheral Fei
- ...
25Des règles plus générales
- Les règles multi-attributs
- associent des valeurs d'attributs distincts
- telephone Source "New-York" gt Cible "Paris"
(5,30) - Les règles à attributs numériques
- règles de la forme A???x,y gt C ou A est un
attribut numérique et C une condition il faut
trouver x et y. - exemple Age ??x,y gt Salaire gt 300 KF (5,30)
x? y? - Les règles négatives et/ou disjonctives
- Expr(Ci) gt Expr(Cj) avec ET, OU, NOT
- Les règles avec généralisation
- associée à une taxonomie
26Les règles cycliques
- Les règles cycliques
- règles vérifiées périodiquement
- ex tout les matins, café gt sucre, gâteaux
- XgtYcycle (l,o) signifie que XgtY tous les l
unités de temps en commençant au temps o. - Les patterns séquentiels
- séquence ditems
- similaire aux règles associatives mais lordre
est important - exemple achat de chaussures, puis de pantalons,
puis de chemises
275. Conclusion
- De nombreuses techniques d'exploration
- La plupart ne passe pas à l'échelle
- limitées à quelques milliers d objets
- échantillonner puis valider
- Un bon outil doit proposer plusieurs techniques !
- Les problèmes
- Comment explorer de volumineuses bases de données
? - Lindex bitmap est intéressant pour les règles
associatives - Trouver d autres structures d indexation
- Maintenance incrémental des règles ?
- Exploration de types de données complexes ?
- Parallélisation des algorithmes ?
28Quelques produits
- DataMind de Datamind SA
- classification, modèles fonctionnels (agents),
statistiques - Knowledge Seeker d'Angoss
- statistiques, classification, arbres de décision
- SPSS Chaid et Neural Connection de SPSS
- statistiques, classification, réseaux de
neurones - MineSet de Silicon Graphics
- classification, visualisation de règles
- SAS de SAS
- Statistiques, arbres de décision, réseaux de
neurones - Intelligent Miner d'IBM, Clementine de Integral
Solutions...
29Les Data Trucs
- Database
- Datawarehouse
- entrepôt des données historisées de l'entreprise
- Datamart
- magasin de données ciblé sur un ou plusieurs
sujets - Data mining
- exploration des données afin de découvrir des
connaissances - Datacube
- cube de présentation d'unités selon 3 dimensions
- Datawebhouse
- entrepôt des données collectées sur le web
30Génération des règles
- Il suffit de retrouver les plus grands ensembles
de support gt MinSup - puis d'en extraire les règles de confiance gt
MinConf ayant une condition maximale - S'il n'y en a pas on descend le semi-treillis des
ensembles fréquents et on itère. - Possibilité de s'intéresser à un item particulier
et d'explorer ses ancètres sur demande - ex AgtAB,ACgtABC
0,3
ABC AB AC BC BD A B
C D ??????????????????
0,6
0,4
0,7
0,5
1
2
2
1
Le semi-treillis des ensembles fréquents