Title: Rgles dassociation
1Règles d association
2Règles d'association
- Méthode de fouille non supervisée
- Consiste à déterminer les valeurs associées parmi
les données - Analyse du panier de la ménagère déterminer les
articles associés dans les tickets de caisse - Si un client achète du poisson et du citron, il
achète aussi du vin blanc - Si un client achète une télévision, il achètera
un magnétoscope dans un an
3Règles d'association applications
- Distribution comportements d'achats
- Services bancaires, services de
télécommunicationsMais aussi - Domaine médical complications induites par des
associations de médicaments,
4Règles d association
- Les données du problème
- Un ensemble d'attributs (produits) A1, A2, An
- Un ensemble d'enregistrements décrits suivant ces
attributs - on se limite ici à des attributs booléens
- Règle du type X ?Yoù X et Y sont des
ensembles d attributs - la règle signifie si les attributs de X sont
présents dans un enregistrement alors les
attributs de Y sont présents dans
l enregistrement
5exemple
- Humiditénormale et ventfaible ? jouerOUI
- Humiditénormale et jouerOUI ? ventfaible
- Humiditénormale ? jouerOUI et ventfaible
-
6Règles d'association
Enregistrements(achats)
Attributs(produits)
A,C ? B une règle statistique (pas vraie sur
toute la base)
7Support et confiance d une règle
- Support d une règle ou d'un ensemble d'attributs
(d'items) - indique le pourcentage d enregistrements qui
vérifient la règleon note X le nombre
d enregistrements contenant les attributs X et
BD le nombre total d enregistrements -
- Rem Supp(X ? Y) Supp(Y ? X) Supp(XY)
8Support et confiance d une règle
- Confiance d une règlemesure la validité de la
règle pourcentage d enr. qui vérifient la
conclusion parmi ceux qui vérifient la prémisse - Conf(X ? Y) X Y/X Conf(X ? Y)
Supp(XY) / Supp(X)
9Support et confiance d une règle
- Supmin et Confmin étant fixés,
- comment extraire les règles ayant un support ?
Supmin et une - confiance ? Confmin
10Algorithme apriori de recherche de règles
intéressantes
- Un ensemble d attributs (ou items) ayant un
support gt Supmin est dit fréquent - Prop tout k-ensemble fréquent est composé de
sous-ensembles fréquents
11Algorithme apriori
- 1. Détermination des ensembles fréquents avec
leur support ?nécessite k examens de la BD si
le plus grand ensemble fréquent contient k items - 2. Détermination des règles ayant une confiance
suffisante à partir de ?
12Exemple
Supmin0.5 Supp(A)3/4 Supp(B)1 Supp(C) 3/4
Supp(AB)3/4
13Exemple
Ensembles d items fréquents ?
a,b,c,a,b,a,c,b,c,a,b,c
14Calcul des règles d'association
- Pour tout X ?? déterminer les règles (X-A ? A)
qui ont une confiance ?? Confmin - Si (X-A ? A) éliminée (confiance trop faible),
toutes les règles (X-B ? B), avec A ?B , sont
éliminées
15Exemple
- Confmin0.75
- a,b a ? b 1 b ? a 0.75
- a,b,c a, c ? b 1
16Output from the APRIORI association rule learner.
17Améliorations cherchées
- Elimination des règles redondantes
- R1 A ? BCR2 AB ? CR2 redondante par rapport Ã
R1 - pour un k-ensemble fréquent, présenter les règles
de condition minimale - R1 A ? BCDR2 AB ? C R2 redondante par rapport
à R1 - chercher les règles issues du plus grand
k-ensemble fréquent si on trouve une règle ayant
une condition minimale, on évite de chercher les
règles dont la prémisse contient cette condition
minimale.
18Améliorations cherchées
- Meilleures mesures?La confiance est basée sur
la probabilité conditionnelle Conf(X ? Y)
P(XY)/P(X) P(Y/X )cette mesure ignore P(Y) - améliration
- conviction
- intensité d implication
19Exemple
- Dans une station service, 10000 transactions dont
6000 avec carte, 6500 avec achat de viennoiserie
et 3800 avec carte et viennoiserie - Carte ?viennoiserie a pour confiance 3800/6000
58 - Mais en fait la fréquence de viennoiserie est
6500/10000 - Donc en réalité le fait d'utiliser la carte joue
négativement sur l'achat de viennoiseries - Amélioration d'une règle
- A(X ? Y) confiance (X ? Y)/ fréquence(Y)
- La règle est intéressante si l'amélioration est
supérieure à 1
20En pratique
- Introduction d'articles virtuels comme le jour,
la période, pour étudier des comportements en
fonction du temps - Peut être utilisé pour chercher des règles
concernant certains produits, avec certains
produits en conclusion,
21Avantages
- Formalisme très général, non supervisé
- Méthode simple, facile à comprendre
- Résultats clairs, faciles à interpréter
- Applicable à de nombreux domaines
22Inconvénients
- Coût de calcul (nécessité d'alogorithmes plus
performants pour traiter de grands volumes de
données) - Beaucoup de règles générées
- Choix des articles ou des regroupements
d'articles à considérer
23Regroupements d'articles
- Regrouper les attricuts en fonction de la
taxonomie du domaine - Ex Surgelés regroupe Plats surgelés, desserts
surgelés, légumes surgelés - Permet de limiter le nombre d'attributs
- Permet de mieux gérer les articles rares