Title: R
1Règles dassociation
- Christelle Scharff
- IFI
- Juin 2004
2Motivations et généralités
- Approche automatique pour découvrir des relations
/ corrélations intéressantes entre des objets - Règles de la forme X ? Y support, confidence
- X et Y peuvent être composés de conjonctions
- Support P(X ? Y) P(X et Y)
- Confidence P(X ? Y) P( Y X) P(X et Y)/P(X)
- Applications
- Utilisé pour analyser le panier de la ménagère
- Design des rayons dans les supermarchés, ventes
croisées, segmentation du marché, design des
catalogues de ventes - Détection des fraudes
- Gestion des stocks
3Exemples de règles
- Règle booléenne
- achète(x, SQLServer) achète(x, DMBook) ?
achète(x, DBMiner) 0.2, 60 - Règle quantitative
- age(x, 30..39) salaire(x, 42..48K) ?
achète(x, PC) 1, 75
4Méthode Naïve
- Traiter toutes les combinaisons possibles des
attributs et de leurs valeurs pour créer toutes
les règles dassociation possibles - Exemple 5 attributs prenant une seule valeur
- Combien de règles?
- Complexité computationnelle
- Nombre de règles gigantesque
- Amélioration Garder les règles avec un support
et une confidence minimum - Pas satisfaisant
5Lalgorithme A Priori nom, année
- Un item est une paire (attribut, valeur)
- Un ensemble ditems regroupe des items (sans
duplication) - Principe de lalgorithme A Priori
- Génération densembles ditems
- Calcul des fréquences des ensembles ditems
- On garde les ensembles ditems avec un support
minimum les ensembles ditems fréquents - On ne génère et on ne garde que les règles avec
une confidence minimum
6ExempleMétéo et match de foot
7Exemple Ensembles ditems
Supports
12 ensembles dun item, 47 ensembles de deux
items, 39 ensembles de trois items, 6 ensembles
de quatre items, 0 ensemble de cinq items 104
ensembles ditems avec un support gt 2
8La propriété de fréquence des ensembles ditems
- On utilise certaines propriétés pour construire
les ensembles ditems - Les sous-ensembles dun ensemble ditems fréquent
sont aussi des ensembles ditems fréquents - Par exemple, si A,B est un ensemble ditems
fréquents, alors A et B sont aussi des
ensembles ditems fréquents - Plus généralement, les sous-ensembles de k-1
items dun ensemble de k items fréquent sont
fréquents
9Construction des ensembles ditems
- En utilisant la propriété de fréquence des
ensembles ditems, on voit quon peut construire
les ensembles ditems incrémentalement - On commence avec les ensembles à un item
- Un ensemble de k items peut être construit par
jointure dun ensemble densembles de k-1 items
avec lui-même, et en vérifiant la propriété de
fréquence
10Exemple
- On suppose que les ensembles ditems sont
composés ditems ordonnés (par exemple
léxicographiquement) - Considérons les ensembles de 3 items suivants
- S (A,B,C), (A,B,D), (A,C,D), (A,C,E), (B,C,D)
- S est joint avec lui-même
- (A,C,D,E) nest pas un ensemble de 4 items
fréquent (car (C,D,E) nest pas dans S) - (A,B,C,D) est un ensemble de 4 items fréquent
11Ensembles ditems et règles
- Un ensemble ditems peut représenter plusieurs
règles - Exemple
- A partir de A,B,C, on peut construire 7 règles
avec le même support - A ? B, C
- B ? A, C
- C ? A, B
- A, B ? C
- A, C ? B
- B, C ? A
- True ? A, B, C
- mais pas la même confidence
12Générer les règles
- Transformer les ensemble ditems en règles de
manière efficace - Dun ensemble de n items, on peut générer 2n 1
règles potentielles - On ne garde que les règles avec une confidence
minimum
13Exemple Ensembles ditems ? Règles
Support gt 2 (ou 2/14) et Confidence 100 58
règles 3 règles avec un support de 4 5 règles
avec un support de 3 50 règles avec un support de
2
14Exemple complet
BD D
L1
C1
Parcours D
C2
C2
L2
Parcours D
C3
L3
Parcours D
15Améliorer lalgorithme
- 104 ensembles de 1 items peuvent générer 107
ensemble de 2 items - Le calcul des supports est coûteux
- Générer les règles est coûteux
- Le calcul des confidences est coûteux
- Le parcours des données initiales est récurrent
16Calcul de la confidence dune règle Optimisation
naïve
- Calcul de 2n 1 confidences (une pour chaque
règle) - Pour calculer la confidence dune règle on peut
utiliser le support densembles ditems calculé
auparavant (en utilisant une table de hachage) - Exemple
- Pour calculer la confidence de
- Température cool, windy false ? humidity
normal, play yes - On peut utiliser le support calculé pour
- Température cool, windy false
17La méthode
- Les règles sont faciles à interpréter
- La méthode réalise de lapprentissage non
supervisé - Elle est basée sur des calculs élémentaires
- Elle est très coûteuse
- Elle marche pour des découvertes de faits
fréquents - Elle peut produire des règles triviales et
inutiles - Exemple Camembert ?? Vin rouge
18Autre algorithme
- Lalgorithme darbre de modèles fréquents
(Frequent-pattern tree) name, année
19References
- I. H. Witten, and E. Frank. Data Mining
Practical Machine Learning Tools and Techniques
with Java Implementations. Morgan Kaufmann. - J. Han, and M. Kamber. Data Mining Concepts