DATA WAREHOUSE - DATA MINING - PowerPoint PPT Presentation

1 / 28

About This Presentation

Title:

DATA WAREHOUSE - DATA MINING

Description:

similaire aux r gles associatives mais l'ordre est important. exemple : achat de ... L'index bitmap est int ressant pour les r gles associatives ... – PowerPoint PPT presentation

Number of Views:297

Avg rating:3.0/5.0

Slides: 29

Provided by: burea9

Category:

more less

Transcript and Presenter's Notes

Title: DATA WAREHOUSE - DATA MINING

1
DATA WAREHOUSE - DATA MINING

Motivations et architecture
Le multidimensionnel
Le data mining
La recherche de règles associatives
Conclusion

2
1. OLTP versus OLAP
3
Explosion de l OLAP

Facteurs économiques technologiques

Milliards de

Années
4
Motivations des entreprises

Besoin des entreprises
accéder à toutes les données de lentreprise
regrouper les informations disséminées dans les
bases
analyser et prendre des décisions rapidement
(OLAP)
Exemples d'applications concernées
Bancaire suivi des clients, gestion de
portefeuilles
mailing ciblés pour le marketing
Grande distribution marketing, maintenance, ...
produits à succès, modes, habitudes dachat
préférences par secteurs géographiques
Télécommunications pannes, fraudes, mobiles,
...
classification des clients, détection fraudes,
fuites de clients, etc.
Médecine, Pharmacie, Bourse, Production,

5
L'approche entrepôt de données

Datawarehouse
Ensemble de données historisées variant dans le
temps, organisé par sujets, consolidé dans une
base de données unique, géré dans un
environnement de stockage particulier, aidant à
la prise de décision dans lentreprise.
Trois fonctions essentiels
collecte de données de bases existantes et
chargement
gestion des données dans lentrepôt
analyse de données pour la prise de décision

6
Architecture type
Présentation
Datawarehouse
Analyse
Exploration
Client décisionnel
Client décisionnel
BD Entrepôt
Médiateur
Transformation, Fusion
Extraction, Filtrage
Moniteur/Adapteur
Moniteur/Adapteur
Moniteur/Adapteur
Source
BD Source
Données opérationnelles
BD source
Données externes
BD légataires
7
Datamart (Magasin de données)

sous-ensemble de données extrait du datawarehouse
et ciblé sur un sujet unique

Bases multidimensionnelles
Data Warehouse
Bases de production
Data Marts
SGBD relationnel
Outils d extraction
Outils dalimentation
Bases relationnelles
Bases externes
8
Bilan Entrepôt

Le datawarehouse regroupe, historise, résume les
données de l entreprise
Le concepteur définit schéma exportés et intégrés
des choix fondamentaux !
Ciblage essentiel !
Le datamart cest plus ciblé et plus petit.
Questions ?
Peut-on ajouter des données au niveau de
l entrepôt ?

9
2. Modélisation multidimensionnelle

Dimensions
Temps
Géographie
Produits
Clients
Canaux de ventes.....
Indicateurs
Nombre dunités vendues
CA
Coût
Marge.....

10
Le data cube et les dimensions
Axe d'analyse La géographie (Pays - région
- ville)
Variables analysées Nb unités, CA, marge...
Axe d'analyse Les produits (classe,
produit)
Axes d'analyse dimensions Variables analysées
indicateurs
Axe d'analyse Le temps (Année, trimestre, mois,
semaine)
11
La granularité des dimensions
Années
Jours
Trimestres
Mois
Temps
Pays
Régions
Villes
Géographie
Gammes
Types
Numéros
Produits
Marques
12
La navigation multidimensionnelle
Projection en 2 dimensions
Coupe d un cube
Produits
Produits
pour une région donnée
CA
CA
Région
Temps en semaines
Réduction selon 1 dimension
Zoom selon une dimension
Produits
CA
Temps en mois
13
Les vues d'un cube

Partant d'un cube 3D, il est possible d'agréger
selon une dimension tournante
On obtient un treillis de vues (calculable en SQL)

14
ROLAP versus MROLAP
SQLCube
SQLCube
Opérateurs décisionnels
Cache Cube
Analyseur Optimiseur
SQL
Analyseur Optimiseur
Opérateurs décisionnels
Opérateurs relationnels
Opérateurs relationnels
Cache SGBD
Cache SGBD
SGBD ROLAP
SGBD MROLAP
15
Bilan OLAP

La modélisation multidimensionnelle est adaptée à
l analyse de données
Le datacube est au centre du processus
décisionnel
transformation et visualisation 3D
une algèbre du cube
Slice, Dice, Rollup, Drilldown
Questions ?
Combien de datacubes à partir de N variables ?

16
3. Qu est-ce-que le data mining ?

Data mining
ensembles de techniques d'exploration de données
afin d'en tirer des connaissances (la
substantifique moelle) sous forme de modèles
présentées à l utilisateur averti pour examen
Connaissances
analyses (distribution du trafic en fonction de
l heure)
scores (fidélité d un client), classes (mauvais
payeurs)
règles (si facture gt 10000 alors départ à 70)

Données entrepôt
Connaissances
Data mining
Découverte de modèles
Compréhension Prédiction
17
Domaines d'utilisation

De plus en plus de domaines
explosion des données historisées
puissance des machines support
Quelques domaines réputés
Analyse de risque (Assurance)
Marketing
Grande distribution
Médecine, Pharmacie
Analyse financière
Gestion de stocks
Maintenance
Contrôle de qualité

18
Mécanismes de base

Déduction base des systèmes experts
schéma logique permettant de déduire un théorème
à partir d'axiomes
le résultat est sûr, mais la méthode nécessite la
connaissance de règles
Induction base du data mining
méthode permettant de tirer des conclusions à
partir d'une série de faits
généralisation un peu abusive
indicateurs de confiance permettant la pondération

19
Découverte de modèles

Description ou prédiction
Apprentissage sur la base
Utilisation pour prédire le futur
Exemple régression linéaire Y a X B

Confiance
Entrées
Sortie
20
Méthode SEMMA (SAS)

Sampling Échantillonner
tirer un échantillon significatif pour extraire
les modèles
Exploration Explorer
devenir familier avec les données (patterns)
Manipulation Manipuler
ajouter des informations, coder, grouper des
attributs
Modelling Modéliser
construire des modèles (statistiques, réseaux de
neuronnes, arbres de décisions, règles
associatives, )
Assessment Valider
comprendre, valider, expliquer, répondre aux
questions

21
Principales Techniques

Analyse statistique
régression linéaire
régression logistique
réseaux baysiens
Découverte de modèles fonctionnels
fonctions probabilistes
réseaux de neurones
Segmentation
K-moyennes
Raisonnement à base de cas
Classification
arbres de décision
réseaux d'agents

22
Règles associatives

La découverte de règles
découverte de relations plus fines entre données
du style si X alors Y
si Achat(Vin) alors Achat(Boursin) (10, 15)
su Achat(Pain) Achat(Fromage) alors Achat(Vin)
(70, 80)
Support probabilité absolue P(XY)
XY/ BD de transactions vérifiant la règle
Confiance probabilité conditionnelle P(Y/X)
XY/X de transactions vérifiant
l'implication sup(XY) / sup(X)
Comment extraire les règles intéressantes ?
exemple Supp.gt 0.1 et Conf.gt 0.7
comment optimiser les calculs d'indicateurs sur
des VLDB?

23
Recherche des règles intéressantes

Nécessité de calculer les supports
de tous les produits gt 1-ensemble fréquent
de tous les ensembles suceptibles d être
fréquents
La confiance se déduit du support
conf (X--gtY) suup(X) / sup(XY)
Un ensemble de taille k est appelé un k-ensemble.
Un ensemble de support plus grand que minsup est
fréquent.
Tout k-ensemble fréquent est composé de
(k-1)-ensembles fréquents
en effet, un ensemble ne peut être fréquent si
ses sous-ensembles ne le sont pas

24
Comment évaluer efficacement ?

Réduire le nombre de passes (I/O)
Réduire le temps CPU
Nombreux algorithmes
Apriori Agrawal Imielinski Swami
Apriori-tid Agrawal Srikant
PartitionSavasete Omseinski Navatgr
Dynamic Counting Brin Ullman Tsur
Bitmap Gardarin Pucheral Fei
...

25
Des règles plus générales

Les règles multi-attributs
associent des valeurs d'attributs distincts
telephone Source "New-York" gt Cible "Paris"
(5,30)
Les règles à attributs numériques
règles de la forme A???x,y gt C ou A est un
attribut numérique et C une condition il faut
trouver x et y.
exemple Age ??x,y gt Salaire gt 300 KF (5,30)
x? y?
Les règles négatives et/ou disjonctives
Expr(Ci) gt Expr(Cj) avec ET, OU, NOT
Les règles avec généralisation
associée à une taxonomie

26
Les règles cycliques

Les règles cycliques
règles vérifiées périodiquement
ex tout les matins, café gt sucre, gâteaux
XgtYcycle (l,o) signifie que XgtY tous les l
unités de temps en commençant au temps o.
Les patterns séquentiels
séquence ditems
similaire aux règles associatives mais lordre
est important
exemple achat de chaussures, puis de pantalons,
puis de chemises

27
5. Conclusion

De nombreuses techniques d'exploration
La plupart ne passe pas à l'échelle
limitées à quelques milliers d objets
échantillonner puis valider
Un bon outil doit proposer plusieurs techniques !
Les problèmes
Comment explorer de volumineuses bases de données
?
Lindex bitmap est intéressant pour les règles
associatives
Trouver d autres structures d indexation
Maintenance incrémental des règles ?
Exploration de types de données complexes ?
Parallélisation des algorithmes ?

28
Quelques produits

DataMind de Datamind SA
classification, modèles fonctionnels (agents),
statistiques
Knowledge Seeker d'Angoss
statistiques, classification, arbres de décision
SPSS Chaid et Neural Connection de SPSS
statistiques, classification, réseaux de
neurones
MineSet de Silicon Graphics
classification, visualisation de règles
SAS de SAS
Statistiques, arbres de décision, réseaux de
neurones
Intelligent Miner d'IBM, Clementine de Integral
Solutions...

29
Les Data Trucs

Database
Datawarehouse
entrepôt des données historisées de l'entreprise
Datamart
magasin de données ciblé sur un ou plusieurs
sujets
Data mining
exploration des données afin de découvrir des
connaissances
Datacube
cube de présentation d'unités selon 3 dimensions
Datawebhouse
entrepôt des données collectées sur le web

30
Génération des règles

Il suffit de retrouver les plus grands ensembles
de support gt MinSup
puis d'en extraire les règles de confiance gt
MinConf ayant une condition maximale
S'il n'y en a pas on descend le semi-treillis des
ensembles fréquents et on itère.
Possibilité de s'intéresser à un item particulier
et d'explorer ses ancètres sur demande
ex AgtAB,ACgtABC