Rgles dassociation - PowerPoint PPT Presentation

1 / 23
About This Presentation
Title:

Rgles dassociation

Description:

Un ensemble d'enregistrements d crits suivant ces attributs ... si les attributs de X sont pr sents dans un enregistrement alors les attributs de Y sont ... – PowerPoint PPT presentation

Number of Views:88
Avg rating:3.0/5.0
Slides: 24
Provided by: leriadpart
Category:

less

Transcript and Presenter's Notes

Title: Rgles dassociation


1
Règles d association
  • Béatrice DUVAL

2
Règles d'association
  • Méthode de fouille non supervisée
  • Consiste à déterminer les valeurs associées parmi
    les données
  • Analyse du panier de la ménagère déterminer les
    articles associés dans les tickets de caisse
  • Si un client achète du poisson et du citron, il
    achète aussi du vin blanc
  • Si un client achète une télévision, il achètera
    un magnétoscope dans un an

3
Règles d'association applications
  • Distribution comportements d'achats
  • Services bancaires, services de
    télécommunicationsMais aussi
  • Domaine médical complications induites par des
    associations de médicaments,

4
Règles d association
  • Les données du problème
  • Un ensemble d'attributs (produits) A1, A2, An
  • Un ensemble d'enregistrements décrits suivant ces
    attributs
  • on se limite ici à des attributs booléens
  • Règle du type X ?Yoù X et Y sont des
    ensembles d attributs
  • la règle signifie si les attributs de X sont
    présents dans un enregistrement alors les
    attributs de Y sont présents dans
    l enregistrement

5
exemple
  • Humiditénormale et ventfaible ? jouerOUI
  • Humiditénormale et jouerOUI ? ventfaible
  • Humiditénormale ? jouerOUI et ventfaible

6
Règles d'association
Enregistrements(achats)
Attributs(produits)
A,C ? B une règle statistique (pas vraie sur
toute la base)
7
Support et confiance d une règle
  • Support d une règle ou d'un ensemble d'attributs
    (d'items)
  • indique le pourcentage d enregistrements qui
    vérifient la règleon note X le nombre
    d enregistrements contenant les attributs X et
    BD le nombre total d enregistrements
  • Rem Supp(X ? Y) Supp(Y ? X) Supp(XY)

8
Support et confiance d une règle
  • Confiance d une règlemesure la validité de la
    règle pourcentage d enr. qui vérifient la
    conclusion parmi ceux qui vérifient la prémisse
  • Conf(X ? Y) X Y/X Conf(X ? Y)
    Supp(XY) / Supp(X)

9
Support et confiance d une règle
  • Supmin et Confmin étant fixés,
  • comment extraire les règles ayant un support ?
    Supmin et une
  • confiance ? Confmin

10
Algorithme apriori de recherche de règles
intéressantes
  • Un ensemble d attributs (ou items) ayant un
    support gt Supmin est dit fréquent
  • Prop tout k-ensemble fréquent est composé de
    sous-ensembles fréquents

11
Algorithme apriori
  • 1. Détermination des ensembles fréquents avec
    leur support ?nécessite k examens de la BD si
    le plus grand ensemble fréquent contient k items
  • 2. Détermination des règles ayant une confiance
    suffisante à partir de ?

12
Exemple
Supmin0.5 Supp(A)3/4 Supp(B)1 Supp(C) 3/4
Supp(AB)3/4
13
Exemple
Ensembles d items fréquents ?
a,b,c,a,b,a,c,b,c,a,b,c
14
Calcul des règles d'association
  • Pour tout X ?? déterminer les règles (X-A ? A)
    qui ont une confiance ?? Confmin
  • Si (X-A ? A) éliminée (confiance trop faible),
    toutes les règles (X-B ? B), avec A ?B , sont
    éliminées

15
Exemple
  • Confmin0.75
  • a,b a ? b 1 b ? a 0.75
  • a,b,c a, c ? b 1

16
Output from the APRIORI association rule learner.
17
Améliorations cherchées
  • Elimination des règles redondantes
  • R1 A ? BCR2 AB ? CR2 redondante par rapport à
    R1
  • pour un k-ensemble fréquent, présenter les règles
    de condition minimale
  • R1 A ? BCDR2 AB ? C R2 redondante par rapport
    à R1
  • chercher les règles issues du plus grand
    k-ensemble fréquent si on trouve une règle ayant
    une condition minimale, on évite de chercher les
    règles dont la prémisse contient cette condition
    minimale.

18
Améliorations cherchées
  • Meilleures mesures?La confiance est basée sur
    la probabilité conditionnelle Conf(X ? Y)
    P(XY)/P(X) P(Y/X )cette mesure ignore P(Y)
  • améliration
  • conviction
  • intensité d implication

19
Exemple
  • Dans une station service, 10000 transactions dont
    6000 avec carte, 6500 avec achat de viennoiserie
    et 3800 avec carte et viennoiserie
  • Carte ?viennoiserie a pour confiance 3800/6000
    58
  • Mais en fait la fréquence de viennoiserie est
    6500/10000
  • Donc en réalité le fait d'utiliser la carte joue
    négativement sur l'achat de viennoiseries
  • Amélioration d'une règle
  • A(X ? Y) confiance (X ? Y)/ fréquence(Y)
  • La règle est intéressante si l'amélioration est
    supérieure à 1

20
En pratique
  • Introduction d'articles virtuels comme le jour,
    la période, pour étudier des comportements en
    fonction du temps
  • Peut être utilisé pour chercher des règles
    concernant certains produits, avec certains
    produits en conclusion,

21
Avantages
  • Formalisme très général, non supervisé
  • Méthode simple, facile à comprendre
  • Résultats clairs, faciles à interpréter
  • Applicable à de nombreux domaines

22
Inconvénients
  • Coût de calcul (nécessité d'alogorithmes plus
    performants pour traiter de grands volumes de
    données)
  • Beaucoup de règles générées
  • Choix des articles ou des regroupements
    d'articles à considérer

23
Regroupements d'articles
  • Regrouper les attricuts en fonction de la
    taxonomie du domaine
  • Ex Surgelés regroupe Plats surgelés, desserts
    surgelés, légumes surgelés
  • Permet de limiter le nombre d'attributs
  • Permet de mieux gérer les articles rares
Write a Comment
User Comments (0)
About PowerShow.com