PPT – PowerPoint presentation | free to download

About This Presentation

Title:

Description:

Title: Presentazione di PowerPoint Author: SALVATORE ORLANDO Last modified by: SALVA Created Date: 2/16/2003 6:34:17 PM Document presentation format – PowerPoint PPT presentation

Number of Views:49

Avg rating:3.0/5.0

Slides: 108

Provided by: SALVA85

Category:

more less

Transcript and Presenter's Notes

Title:

1
Association mining

Salvatore Orlando

2
Cosè lassociation mining

Identifica frequenze/collegamenti/correlazioni/cau
salità tra insiemi di item (articoli) in database
transazionali
Ogni transazione contiene una lista di item
Es. gli acquisti fatti dai vari clienti sono
memorizzati come transazione nel database di un
negozio
Esempi
Forma della regola Body Head support,
confidence.
compra(x, pannolini) compra(x, birra)
0.5, 60
laurea(x, Informatica) esame(x, DB)
voto(x, 100?110) 1, 75
Applicazioni
Basket data analysis, cross-marketing, catalog
design, clustering, classification, etc.

3
Regole associative concetti base

Dati
(1) database di transazioni
(2) ogni transazioni è una lista di articoli
(acquistati da un cliente in una visita al
supermercato)
I i1 , i2 , ,in è un insieme di item
distinti
Una transazione T è un sottoinsieme di I, T ?
I.
D, il database, è un insieme di transazioni
Trova tutte le regole che correlano la presenza
di un insieme di articoli con quello di un altro
insieme di articoli
Una regola associativa ha la forma A-gtB,
dove A ? I, B ? I, e AnB ?
Es. il 98 della gente che acquista pneumatici e
accessori per auto richiede anche di effettuare
manutenzioni periodiche dellauto

4
Esempio di dataset transazionale e MBA
Market-Basket transactions
Market Basket Analysis (MBA)
Esempio di regola associativa
5
Misure di interesse delle regole
Clienti che comprano entrambi
Clienti che comprano pannolini

Esempio pannolini ? birra
Trova tutte le regole X ? Z con confidenza e
supporto minimo
Supporto, s, è la probabilità che una transazione
contenga X ? Z
Sup (X ? Z ) Probabilità(X ? Z )
Confidenza, c, è la probabilità condizionale che
una transazione che include X contenga anche Z
Conf (X ? Z ) Probabilità(Z X )

Clienti che comprano birra
D

Per
50 supporto minimo
50 confidenza minima
abbiamo che
A ? C (50, 66.6)
C ? A (50, 100)

6
Calcolo di regole frequenti e confidenti

Sia X un itemset, e sia ?(X) ? D il numero di
transazioni in D che contengono X

Esempio Pannolini,Latte ?s,c Birra s
?(Pannolini,Latte,Birra) / Tot_trans
2/5 0.4 40 c ?(Pannolini,Latte,Birra) /
?(Pannolini,Latte) 2/3 0.66
66 Il supporto è la probabilità che un certo
itemset appaia nelle transazioni del dataset.
sP(Pannolini,Latte, Birra) La confidenza è
una probabilità condizionata
cP(Pannolini,Latte, Birra
Pannolini,Latte)
TID
Items
1
Pane, Latte
2
Birra, Pane, Pannolini, Uova
3
Birra, Coca, Pannolini, Latte
4
Birra, Pane, Pannolini, Latte
5
Coca, Pane, Pannolini, Latte
Association rule X?s,c y Support s ?(X?y)
/ D Confidence c ?(X?y) / ?(X)
7
Estrazione di Regole Associative Applicazione 1

Marketing e Promozione delle Vendite
Supporre che sia stata scoperta la regola
Coca, --gt Patatine
Patatine come conseguenza gt Regola può essere
impiegata per capire cosa può essere usato per
promuovere le vendite di patatine. Coca
nellantecedente gt Regola può essere usata per
vedere le vendite di quali prodotti sarebbero
interessati se il negozio smettesse di vendere
Coca.

8
Estrazione di Regole Associative Applicazione 2

Gestione degli scaffali nel supermercato
Scopo Identificare gli articoli che sono
comprati assieme da un numero sufficientemente
grande di clienti
Approccio Processare i dati collezionati con gli
scanner di codici a barre per trovare dipendenze
tra gli articoli.
Una regola classica
Se un cliente acquista pannolini e latte, allora
con alta probabilità acquisterà birra
Quindi, non bisogna essere sorpresi se troviamo
pacchi da 6 birre disposti negli scaffali a
fianco dei pannolini! ?

9
Estrazione di Regole Associative Applicazione 3

Gestione dellinventario
Scopo Unazienda di riparazione di piccoli
elettrodomestici ha necessità di
anticipare la natura delle riparazioni dei
prodotti richiesti dai clienti
mantenere i veicoli (usati dai riparatori)
equipaggiati con i pezzi di ricambio giusti,
questo per ridurre i numeri delle visite alle
abitazioni dei clienti
Approccio Processa i dati sugli strumenti e
parti richieste nelle precedenti riparazioni
presso le varie visite presso i clienti, e scopri
le co-occorrenze dei pattern

10
Tipi di analisi associative

Boolean vs. quantitative associations (Dipende
dal tipo di valori analizzati)
buys(x, SQLServer) buys(x, DMBook)
buys(x, DBMiner) 0.2, 60
age(x, 30..39) income(x, 42..48K)
buys(x, PC) 1, 75
Single dimension vs. multiple dimensional
associations (vedi il secondo esempio di sopra)
Single level vs. multiple-level analysis
Che tipo di birra è associata con che marca di
pannolini?
Varie estensioni
Correlazione, analisi di causalità
Associazioni non necessariamente implica
correlazione o causalità
Maxpatterns e closed itemsets
Vincoli
Es piccole svendite (sum lt 100) danno luogo a
grandi acquisti (sum gt 1,000)?

11
Mining di regole booleane a singola-dimensione
Min. support 50 Min. confidence 50

Per la regola A ? C
support support(A ? C) 50
confidence support(A ? C) / support(A)
66.6
Il principio Apriori
Ogni sottoinsieme di un itemset frequente DEVE
essere frequente

12
Generazione delle regole dagli itemset frequenti

Esempio di regole
Milk,Diaper ? Beer (s0.4, c0.67)Milk,Beer
? Diaper (s0.4, c1.0)
Diaper,Beer ? Milk (s0.4, c0.67)
Beer ? Milk,Diaper (s0.4, c0.67) Diaper
? Milk,Beer (s0.4, c0.5)
Milk ? Diaper,Beer (s0.4, c0.5)
Osservazione
Tutte le regole di sopra fanno riferimento allo
stesso itemset frequente (s40) Milk,
Diaper, Beer
Le regole così ottenute hanno supporto identico
ma possono avere confidenza differente

13
Mining frequent itemset il passo chiave dell
association mining

Trova i frequent itemsets gli insiemi di item
che hanno supporto minimo
Un sottoinsieme di un frequent itemset è
anchesso frequente (proprietà anti-monotonica)
Se AB è un frequent itemset, sia A e sia
B sono frequenti
?(A) ? ?(AB) e ?(B) ? ?(AB)
Sia I un itemset. Se un sottoinsieme di I non è
frequente, allora I non è frequente
Se A NON è un frequente, allora anche A,B
NON è frequente
I frequent itemsets possono essere individuati
iterativamente
Prima quelli di cardinalità 1 (1-itemset)
Poi quelli di cardinalità 2 (2-itemset)
.
Infine quelli di cardinalità k (k-itemset)
Usa i frequent itemsets per generare le regole
associative

14
Il reticolo degli itemsets
Power Set di un insieme di d items (d5 in questo
caso) Ci sono 2d itemset possibili
15
Come calcolare gli itemset frequenti

Approccio naive
Ogni itemset nel reticolo è un candidato itemset
frequente
Conta il supporto di ogni candidato con la
scansione di tutte le transazioni del database
Complessità O(NM) gt costosa poiché M 2d !!!

16
Approcci per il mining degli Itemset Frequenti

Ridurre il numero di candidati (M)
Ricerca completa M2d
Usa invece leuristica Apriori per ridurre M
Redurre il numero di transazioni (N)
Ridurre la dimensione N via via che la dimensione
k degli itemset aumenta
Dataset pruning
Ridurre il numero di confronti necessari (NM)
Usa strutture dati efficienti/compresse per
memorizzare candidati/frequenti/transazioni
Lo scopo è evitare di effettuare il matching di
ogni candidato contro ciascuna transazione

17
Usare il principio di Apriori per il pruning dei
candidati
Se un itemset è NON frequente, allora tutti i
suoi superset devono anche essere NON frequenti
Abbiamo scoperto che è NON frequente
Super-itemset eliminati (pruned), e non
controllati
18
Lalgoritmo Apriori

Ck è linsieme dei candidati (k-itemset)
alliterazione k
Il supporto dei candidati deve essere calcolato
per generare Lk
Lk è linsieme dei frequent itemset (k-itemset)
alliterazione k
Si tratta di un sottoinsieme di Ck
Assieme ad ogni itemset in Lk, viene restituito
anche il supporto relativo
Nota L sta per large. Nellarticolo originale di
Apriori, gli itemset frequenti erano chiamati
large itemset
Gen Step Ck1 è generato facendo il join di
Lk con sé stesso, e prendendo solo, tra gli
itemset otenuti, quelli di lunghezza k1 che
contengono item distinti
Prune Step Un k-itemset non può essere
frequente, e quindi non sarà un candidato, se
qualcuno dei suoi sottoinsiemi non è frequente

19
Lalgoritmo Apriori

Pseudo-code
Ck Candidate itemset of size k
Lk frequent itemset of size k
L1 frequent items
for (k 1 Lk !? k) do begin
Ck1 candidates generated from Lk
for each transaction t in database D do
increment the count of all candidates in
Ck1
that are contained in t
Lk1 candidates in Ck1 with min_support
end
return ?k Lk

20
Lalgoritmo Apriori un esempio (minsup 2)
Database D
L1
C1
Scan D
C2
C2
L2
Scan D
L3
C3
Scan D
21
Apriori visita Breadth first del reticolo
a b c d e
ab ac ad ae bc bd be cd ce de
abc abd abe acd ace ade bcd bce bde cde
abcd abce abde acde bcde
abcde
22
Genera i Candidati di dimensione 1
a b c d e
ab ac ad ae bc bd be cd ce de
abc abd abe acd ace ade bcd bce bde cde
abcd abce abde acde bcde
abcde
23
Conta i supporti dei Candidati di dim. 1
a b c d e
ab ac ad ae bc bd be cd ce de
abc abd abe acd ace ade bcd bce bde cde
abcd abce abde acde bcde
abcde
24
Genera i Candidati di dimensione 2
a b c d e
ab ac ad ae bc bd be cd ce de
abc abd abe acd ace ade bcd bce bde cde
abcd abce abde acde bcde
abcde
25
Conta i supporti dei Candidati di dim. 2
a b c d e
ab ac ad ae bc bd be cd ce de
abc abd abe acd ace ade bcd bce bde cde
abcd abce abde acde bcde
abcde
26
Pruna gli itemset infrequenti
a b c d e
ac ad ae bc bd be cd ce de
acd ace ade bcd bce bde cde
acde bcde
27
Genera i Candidati di dimensione 3
a b c d e
ac ad ae bc bd be cd ce de
acd ace ade bcd bce bde cde
acde bcde
28
Conta i supporti dei Candidati di dim. 3
a b c d e
ac ad ae bc bd be cd ce de
acd ace ade bcd bce bde cde
acde bcde
29
Pruna gli itemset infrequenti
a b c d e
ac ad ae bc bd be cd ce de
acd ace ade bce bde cde
acde
30
Genera i Candidati di dimensione 4
a b c d e
ac ad ae bc bd be cd ce de
acd ace ade bce bde cde
acde
31
Conta i supporti dei Candidati di dim. 3
a b c d e
ac ad ae bc bd be cd ce de
acd ace ade bce bde cde
acde
32
Passo di generazione dei candidati

Supponi che
gli item allinterno degli itemset siano
ordinati,
gli itemset in Lk-1 siano ordinati secondo
lordine lessicografico indotto
Step 1 self-joining Lk-1
insert into Ck
all pairs (p, q) ?Lk-1
where p.item1q.item1, , p.itemk-2q.itemk-2,
p.itemk-1 lt q.itemk-1
(p e q condividono un prefisso comune di
lunghezza k-2)
(la condizione p.itemk-1 lt q.itemk-1 assicura
che non vengano prodotti duplicati)
Step 2 pruning
forall itemsets c in Ck do
forall (k-1)-subsets s of c do
if (s is not in Lk-1) then delete c from Ck

33
Esempio di generazione dei candidati

L3abc, abd, acd, ace, bcd
Self-joining L3L3
abcd da abc e abd
acde da acd e ace
Pruning
acde è rimosso perché ade non è in L3
C4abcd

34
Conteggio del supporto dei candidati

Perchè contare il supporto dei candidati potrebbe
essere problematico?
Il numero di candidati potrebbe essere enorme
Una transazione potrebbe contenere molti
candidati
Metodo
Itemsets Candidati memorizzati in un hash-tree
La profondità massima dellhash-tree dipende
dalla lunghezza k dei candidati memorizzati
Nodi foglia dellhash-tree contengono una lista
di itemset candidati, con i contatori associati
Nodi interni contengono un hash table
Funzione di subsetting trova tutti i candidati
contenuti in una transazione visitando lhash tree

35
Metodi per migliorare lefficienza di Apriori

Hash-tree per memorizzare i candidati
Albero ternario, con funzione hash di modulo sul
valore degli item
Foglie memorizzano lista di candidati (ordered
sets)
Subsetting check sulla radice dellalbero, data
la transazione 1,2,3,5,6

36
Hash-tree per memorizzare i candidati
Hash Function
Candidate Hash Tree
Nota che 4 e 7 appaionoanche in questi bin
1,4,7
3,6,9
2,5,8
Hash on 1, 4 or 7
37
Hash-tree per memorizzare i candidati
Hash Function
Candidate Hash Tree
1,4,7
3,6,9
2,5,8
Hash on 2, 5 or 8
38
Hash-tree per memorizzare i candidati
Hash Function
Candidate Hash Tree
1,4,7
3,6,9
2,5,8
Hash on 3, 6 or 9
39
Operazione di Subsetting su una transazione
Data una transazione t, quali sono i possibili
sottoinsiemi di size 3?
40
Operazione di Subsetting su una transazione

Controllo di subsetting ricorsivo

Hash Function
1 2 3 5 6
transaction
1,4,7
3,6,9
2,5,8
Per evitare duplicati,cerco sempre
insiemiordinati di 3 elementi 1 combinato con
2, o 3, o 5, ma non con 6non esiste 1,6,x,
xgt6, nella transazione !!!
1 3 6
3 4 5
1 5 9
41
Operazione di Subsetting su una transazione
Hash Function
transaction
1,4,7
3,6,9
2,5,8
1 3 6
3 4 5
1 5 9
42
Operazione di Subsetting su una transazione
Hash Function
transaction
1,4,7
3,6,9
2,5,8
1 3 6
3 4 5
1 5 9
La transazione contiene ben 11 di tutti i 15
candidati
43
Metodi per migliorare lefficienza di Apriori

Hash-based itemset counting
Alliterazione k-1 provo a prevedere gli itemset
che finiranno in Ck
Scopo aumentare la capacità di pruning per
ridurre la dimensione di Ck
I k-itemset presenti in una transazione sono
mappati, tramite una funzione hash, in una
tabella hash relativamente piccola ? meno
contatori di Ck
Tutti gli k-itemset la cui locazione hash
corrispondente è al di sotto del supporto minimo
Non possono essere frequenti
Possono essere prunati da Ck
Esempio Alliterazione k1, crea la tabella hash
H2
hash function h(x y) (x 10 y) mod 7
min_supp 3

44
Metodi per migliorare lefficienza di Apriori

Transaction pruning Una transazione che non
contiene nessun k-itemset frequente, è inutile
nelle successione scansione del database
Sampling mining su un sottoinsieme dei dati.
Perdiamo in accuratezza ma miglioriamo in
efficienza
Partitioning Un itemset che è frequente nel
database D deve essere frequente in almeno una
delle partizioni di D (relativamente al size
della partizione).Purtroppo un itemset frequente
in una partizione di D potrebbe essere NON
frequente nel database completo D.

D1, D2, D3
Se X è frequent, allora supp(X)
suppD1(X) suppD2(X) suppD3(X) gt s
(D1 D2 D3)
?i, suppDi(X) lt s Di ? X è infrequente
globalmente
A ? B (per def. è equivalente a A ?
B)
A ? B è equivalente a
B ? A (che per def. è equiv. a B ? A)
X è frequente globalmente ? ?i, suppDi(X) gt
s Di

46
Generazione delle regole

Algoritmo non ottimizzato
for each frequent itemset l do
for each subset c of l do
if (support(l) / support(l-c) ? minconf)
then
output rule (l-c) ? c, with
confidence support(l) / support(l-c)
support support(l)

c è frequente per definizione
47
Generazione delle regole (2)

Considera la regola (l-c) ? c
Se c1 ? c, allora
l c ? l - c1
support(l - c) ? support(l c1)
support(l)/support(l - c1) ?
support(l)/support(l - c)
conf((l - c1) ? c1) ? conf((l - c) ? c)
Quindi, se una conseguenza c genera una regola
valida, usando tutti i sottoinsiemi c1 di c
generiamo regole valide (con confidenza maggiore)
? proprietà di antimonotonia
Possiamo quindi usare questa proprietà per
effettuare il pruning delle regole candidate,
generando prima le regole con le conseguenze più
corte (a livelli)
Considera un itemset ABCDE.
se ACDE ? B e ABCE ? D sono le sole regole valide
con singola conseguenza (cioè con confidenza
minima), allora ACE ? BD è la sola altra regola
che deve essere testata.
se ACD ? BE fosse valida, dovrebbe essere valida
anche se ABCD ? E

l
c
c1
48
Colli di bottiglia di Apriori

I concetti base di Apriori
Visita a livelli dello spazio di ricerca
Usa i (k 1)-itemset per generare i k-itemset
candidati
Ad ogni livello, scandisci il database, usa
pattern matching per aggiornare i contatori dei
k-itemsets candidati
Approccio Counting-based
Colli di bottiglia
I candidati possono essere tantissimi
104 1-itemset frequenti genereranno 107
2-itemset candidati
Per scoprire un pattern frequente di dimensione
100, es. a1, a2, , a100, è necessario contare
2100 ? 1030 candidati.
Scansioni multiple del database
Necessari (n 1 ) scansioni, dove n è la
lunghezza del pattern più lungo

49
Mining dei pattern frequenti senza generazione
dei candidati

Comprimi il database in una strutura dati
compatta Frequent-Pattern tree (FP-tree)
Struttura dati TRIE, solitamente utile per
memorizzare stringhe ed effettuare ricerche
FP-tree è compresso, ma completo per lestrazione
dei pattern frequenti con i relativi supporti
Si riducono le scansioni del database
Metodo efficiente basato sull FP-tree per
effettuare il mining dei pattern frequenti
Metodo divide-and-conquer decomponiamo il task
completo in altri più piccoli
Si evita la generazione dei candidati

50
Costruzione dellFP-tree a partire dal DB
TID Items bought (ordered) frequent
items 100 f, a, c, d, g, i, m, p f, c, a, m,
p 200 a, b, c, f, l, m, o f, c, a, b,
m 300 b, f, h, j, o f, b 400 b, c, k,
s, p c, b, p 500 a, f, c, e, l, p, m,
n f, c, a, m, p
min_support 0.5

Passi
Scandisci il database per trovare gli 1-itemset
frequenti
Ordina gli items frequenti in ordine decrescente
Scandisci il DB nuovamente, e costruisci l
FP-tree

51
Costruzione FP-tree
null
Letura TID1
Transaction Database
A1
B1
Lettura TID2
null
B1
A1
B1
C1
D1
52
Costruzione FP-tree
Transaction Database
null
B3
A7
B5
C3
C1
D1
D1
Header table
C3
D1
E1
D1
E1
D1
Puntatori utili per estrarre gli itemset frequenti
53
Proprietà dellFP-tree

Preserva linformazione completa per estrarre i
pattern frequenti
Riduzione delle informazioni irrilevanti gli
item non frequenti sono eliminati
Ordinati in ordine decrescente di frequenza item
più frequenti hanno più probabilità di essere
condivisi
LFP-tree è solitamente più piccolo del database
originale (senza contare link e contatori)
Esempio per connect-4 DB, rapporto di
compressione maggiore di 100

54
Mining i pattern frequenti tramite lFP-tree

Idea generale
In maniera ricorsiva, fai crescere i pattern
frequenti usando lFP-tree
Visita Depth-First del reticolo

55
FIM attraverso una visita depth first

Supponi di avere un dataset che contenga gli item
a, b, c, d, e
Conta il supporto degli item singoli
Rimuovi gli item non frequenti
Trova tutti gli itemset frequenti che contengono
a
possiamo rimuovere proiettare il dataset
rimuovendo le trans. che non contengono a
Trova tutti gli itemset frequenti che contengono
b ma non a
possiamo rimuovere proiettare il dataset
rimuovendo le trans. che non contengono b
rimuovendo anche a da ogni trans. restante
Trova tutti gli itemset frequenti che contengono
c ma non a e b
possiamo rimuovere proiettare il dataset
rimuovendo le trans. che non contengono b
rimuovendo anche a e b da ogni trans. restante
NOTA anche se nellesempio usiamo lordine
lessicale tra gli item per determinare lordine
della visita, qualsiasi ordine potrebbe essere
usato.Un ordine spesso utilizzato è quello
indotto dalla frequenze degli item, considerando
per primi gli item meno/più frequenti

56
FIM attraverso una visita depth first
a b c d e
ab ac ad ae bc bd be cd ce de
abc abd abe acd ace ade bcd bce bde cde
abcd abce abde acde bcde
abcde
57
Trova itemset frequenti contenenti a
a b c d e
ab ac ad ae bc bd be cd ce de
abc abd abe acd ace ade bcd bce bde cde
abcd abce abde acde bcde
abcde
58
Trova itemset frequenti contenenti a ma non b
a b c d e
ab ac ad ae bc bd be cd ce de
abc abd abe acd ace ade bcd bce bde cde
abcd abce abde acde bcde
abcde
59
contenenti c ma non a e non b
a b c d e
ab ac ad ae bc bd be cd ce de
abc abd abe acd ace ade bcd bce bde cde
abcd abce abde acde bcde
abcde
60
contenenti d ma non a, non b, e non c
a b c d e
ab ac ad ae bc bd be cd ce de
abc abd abe acd ace ade bcd bce bde cde
abcd abce abde acde bcde
abcde
61
contenenti d ma non a, b, c, d
a b c d e
ab ac ad ae bc bd be cd ce de
abc abd abe acd ace ade bcd bce bde cde
abcd abce abde acde bcde
abcde
62
Ricorsione es. per gli itemset contenenti a
a b c d e
ab ac ad ae bc bd be cd ce de
abc abd abe acd ace ade bcd bce bde cde
abcd abce abde acde bcde
abcde
63
Passi di FP-growth

Costruisci il conditional pattern base per
ciascun item nelFP-tree
proiezione del database per prepararsi alla
visita depth-first
quando visito per estrarre gli itemset che
iniziano per c, ma non contengono né a e né b, mi
è sufficiente un database ridotto (proiettato),
da cui ho rimosso a e b
Costruisci il conditional FP-tree da ciascun
conditional pattern-base
ogni conditional FP-tree corrisponde alla
compressione del database proiettato (rimuovo gli
itemset localmente infrequenti)
Passo ricorsivo sui conditional FP-trees
rispetto al mining degli itemset che iniziano per
a, calcolo prima gli itemset che iniziano per ab,
poi quelli che iniziano per ac e non ab, poi
quelli che iniziano per ad

64
Passo 1 dall FP-tree al Conditional Pattern Base

A partire dal frequent header table dell FP-tree
Attraversa nellFP-tree la lista di ciascun item
frequente
Accumula i prefix path di quellitem in modo da
formare la conditional pattern base

Conditional pattern bases item cond. pattern
base c f3 a fc3 b fca1, f1, c1 m fca2,
fcab1 p fcam2, cb1
65
Proprietà importanti per la creazione delle basi
condizionali

Proprietà dei Node-link
Per ogni frequent item ai, tutti i possibili
frequent pattern che contengono ai possono essere
ottenuti seguendo i link del nodo ai, iniziando
dalla testa della lista di ai nellFP-tree header
Proprietà dei prefix path
Per calcolare i frequent pattern per un nodo ai
nel path P dellalbero (P va dalla radice ad una
foglia dellalbero), solo il prefix sub-path di
ai in P deve essere accumulato nella base, e il
suo conteggio di frequenza deve portare lo stesso
conteggio del nodo ai.

66
Passo 2 costruzione dei conditional FP-tree

Per ciascuna pattern-base
Accumula i conteggi per ciascun item nella base
Costruisci lFP-tree condizionale includendo solo
gli item frequenti presenti nella pattern-base
Litem b viene eliminato dall m-base perché non
frequente

m-conditional pattern base fca2, fcab1

Header Table Item frequency head
f 4 c 4 a 3 b 3 m 3 p 3
f4
c1
All frequent patterns concerning m m, fm, cm,
am, fcm, fam, cam, fcam
b1
b1
c3
?
?
p1
a3
b1
m2
p2
m1
67
Basi e FP-tree condizionali
68
Passo 3 ricorsione

In modo ricorsivo, riapplica FP-growth agli
FP-tree condizionali

Cond. pattern base di am (fc3)

Cond. pattern base of cm (f3)
f3
cm-conditional FP-tree

Cond. pattern base of cam (f3)
f3
cam-conditional FP-tree
69
Generazione a partire da un FP-tree a singolo path

Supponi che un FP-tree T ha un singolo path P
Linsieme completo dei frequent pattern di T può
essere generato enumerando tutte le combinazioni
dei sub-paths di P

Tutti i frequent patterns relativi a m m, fm,
cm, am, fcm, fam, cam, fcam
f3
?
c3
a3
m-conditional FP-tree
70
Prestazioni

Performance
FP-growth è un ordine di grandezza più veloce di
Apriori
Ragioni
Non abbiamo candidate generation, e nemmeno
candidate test
Strutture dati compatte
Solo per alcuni tipi di database, purtroppo
Si evitano ripetuti scan del database
Loperazione base diventa il conteggio e la
costruzione dellFP-tree

71
FP-growth tempo di esecuzione rispetto al
supporto minimo
Data set T25I20D10K
72
FIM algorithms formato database

Database Orizzontale vs. Verticale
Record orizzontale (transazione) Tid Item0,
, Itemk
Record verticale (tidlist) Item Tid0, ,
Tidh

Verticale
Orizzontale
73
FIM algorithms metodo per calcolare i supporti

Metodo per calcolare il supporto
Count-based
E il metodo usato da Apriori
Sfrutta un database orizzontale, confrontando le
transazioni con i candidati, incrementando i
contatori associati
Intersection-based
Sfrutta un database verticale
Per ogni itemset candidato, interseca
(set-intersection) le tidlist degli item che
appaiono nel candidato
la cardinalità del tidlist risultante dopo le
intersezioni corrisponde al supporto del
candidato

74
Count-based vs Intersection-based

Come possiamo determinare il supporto dei
candidati?
Apriori è count-based, e usa un dataset
orizzontale
Partition/Eclat è intersection-based, e usa un
dataset verticale

Transaction
TID-list
75
Intersection-based

k-way intersection
Determina il supporto di un k-itemset attraverso
il set intersection di k tid-list atomiche,
contando alla fine la cardinalità della lista
ottenuta
Vantaggio bassa occupazione di memoria
Svantaggio lentezza nel conteggio

?
?
?

2-way intersection
Determina il supporto di un k-itemset attraverso
il set intersection di 2 tid-list associate a due
dei suoi (k-1)-sottoinsiemi frequenti
Vantaggio velocissimo conteggio del supporto
Svantaggio la dimensione di tutte le liste
intermedie può diventare grandissima

?
?
76
Frequent Set Counting algorithms

Spazio di ricerca P(I), power set di I, P(I)
2I
Spazio di ricerca molto grande, ma la proprietà
di Apriori introduce molto pruning

DFS
Depth-First Search
in profondità
non si riesce a sfruttare pienamente la proprietà
di antimonotonia per il pruning
BFS
Breadth-First Search
Per livelli, come lalgoritmo di Apriori

77
Classificazione dei vari algoritmi per FSC
Search space visiting method
BFS
DFS
Support computing method
Support computing method
Counting
Intersecting
Counting
Intersecting
Apriori
Partition
FP-growth
Eclat
Horizontal DB
Vertical DB
Vertical DB
Horizontal DB
Level-wise, strictly iterative
Divide conquer, recursive
78
DCI Direct Counting Intersecting

Algorithm Level-wise (BFS)
Metodo ibrido per determinare il supporto dei
frequent itemsets
Count-based durante the prime iterazioni
Metodo innovative per memorizzare e accedere i
candidati per countare il loro supporto
Pruning del database orizzontale (disk-stored)
Intersection-based quando il database è piccolo
abbastanza da stare in memoria principale ?
resource-aware
Trasformazione Orizzontale-a-Verticale
Intersezione k-way ottimizzata

79
DCI fase intersection-based

Quando il database prunato entra in memoria, DCI
costruisce al volo un bit-vector database
verticale
Grazie alla rappresentazione bit-vector e al
pruning, questo accade molto presto (2o o 3o
iterazione)

nk trans
1
0
mk items
80
DCI intersezione delle tidlist (bitvector)

Intersectioni a k-vie
Intersezione di tidlists associate con singoli
item (atomi)
Poca memoria, ma troppe intersezioni!
Intersectioni a 2-vie
a partire da tidlist associate con frequent
(k-1)-itemset
tantissima memoria, ma poche intersezioni!
DCI ? compromesso tra 2-vie e k-vie
Basato su intersezioni a k-vie di bitvector,
MA usa cache per memorizzare le intersezioni
parziali corrispondenti ai vari prefissi del
candidato corrente

k-2 bitvector di nk bit
Cache size
81
DCI intersezione delle tidlist (bitvector)
i0
i1
i2
i3
i4
i5
C6
Buffer di (k-2) vettori di nk bit usati per il
caching delle intersezioni intermedie
3
5
11
17
24
31
Candidato corrente
5
11
17
24
47
3
5
11
17
31
47
3
3 5
3 5 11
3 5 11 17
3 5 11 17 24
82
DCI numero delle operazioni AND
83
DCI database sparsi vs. densi

Sparsi
I bit-vector sono sparsi
contengono pochi 1, e lunghe sequenze di 0
è possibile identificare grandi sezioni di word
uguali a zero
possiamo skip-are queste sezioni durante le
intersezioni
Densi
Forte correlazione tra gli item più frequenti, i
cui bit-vectors sono densi e molto simili
contengono pochi 0, e lunghe sequenze di 1
DCI
Adotta automaticamente strategie di
ottimizzazione differenti per database densi e
sparsi

84
DCI migliore di FP-growth

Database denso
Pattern lunghissimi
Apriori è troppo costoso
tempo diApriori non commensurabile

85
DCI migliore di FP-growth

Database reale e sparso
Dati di click-stream da un sito web di
e-commerce
Pattern di lunghezza media per supporti piccoli

86
Visualizzazione di regole associative (Forma
tabellare)
87
Visualizzazione grafico tridimensionale
88
Visualizzazione associazioni come link
89
Regole associative multi-livello

Gli item spesso associati ad una gerarchia
Item e relative regole ai livelli più bassi hanno
supporti più bassi
Regole riguardanti itemset agli appropriati
livelli possono risultare utili e significative
Possiamo esplorare regole a livelli multipli
Dato un supporto assoluto, la regola "Outwear ?
Shoes" può essere valida anche se "Jackets ?
Shoes" e SkiPants ? Shoes" non lo sono

90
Regole associative multi-livello

Un approccio top_down, che progressivamente
scende di livello
Prima trova regole più forti ad alto-livello
milk bread
20, 60
Poi trova regole più deboli al loro livello più
basso
2 milk wheat
bread 6, 50

91
Regole associative multi-livello Uniform
Support vs. Reduced Support

Supporto uniforme stesso supporto minimo per
tutti i livelli della gerarchia
Un solo valore soglia per il supporto minimo
Non abbiamo necessità di esaminare itemset che
contengono item i cui antenati non godono del
supporto minimo
I livelli più bassi non sono sicuramente
frequenti
Se il valore soglia del supporto è
Troppo alto ? perdiamo regole a livello basso
Troppo basso ? generiamo troppe regole di alto
livello
Riduzione progressiva del supporto
supporto minimo viene via via ridotto ai livelli
più bassi della gerarchia

92
Regole associative multi-livello Uniform Support
vs. Reduced Support

Supporto uniforme

Milk support 10
Level 1 min_sup 5
2 Milk support 6
Skim Milk support 4
Level 2 min_sup 5
93
Regole associative multi-livello Uniform Support
vs. Reduced Support

Supporto ridotto

Level 1 min_sup 5
Milk support 10
2 Milk support 6
Skim Milk support 4
Level 2 min_sup 3
94
Regole associative multi-dimensionali

Regole a singola dimensione
Regole intra-dimension (singolo predicato)
buys(X, milk) ? buys(X, bread)
Regole multi-dimensionali e quantitative
Regole inter-dimension (senza predicati ripetuti)
age(X,19-25) ? occupation(X,student) ?
buys(X,coke)
Regole hybrid-dimension (predicati ripetuti)
age(X,19-25) ? buys(X, popcorn) ? buys(X,
coke)
Problemi con dimensioni contenenti attributi
quantitativi
Attr. numerici, ordinati implicitamente
Da discretizzare staticamente o dinamicamente

95
Critiche alle misure di supporto/confidenza

Esempio 1
Tra 5000 studenti
3000 giocano a calcio
3750 mangiano cereali
2000 sia giocano a calcio e sia mangiano
cereali
La regola gioca a calcio ? mangia cereali 40,
66.7 è fuorviante, poiché la percentuale
totale di studenti che mangiano cereali è del
75, che è più grande del 66.7La misura di
conf. ignora la prob. ass. della parte destra
della regola
La regola gioca a calcio ? non mangia cereali
20, 33.3 è più significativa, anche se ha un
supporto e una confidenza minore

96
Critiche alle misure di supporto/confidenza

Esempio 2
X e Y correlati positivamente,
X e Z correlati negativamente
Supporto e confidenza di
X ?Z domina

97
Unaltra misura Interesse

Interesse (lift)
Si considerano sia P(A) e sia P(B)
P(AB)P(B)P(A), se A e B sono eventi
indipendenti
A e B sono correlati negativamente se il valore
è minore di 1
A e B sono correlati positivamente se il valore
è maggiore di 1

98
Atri tipi di patterns

Maximal and Closed Itemsets
Negative Associations
Indirect Associations
Frequent Subgraphs
Cyclic Association Rules
Sequential Patterns

99
Maximal frequent itemsets
Maximal Itemsets
Infrequent Itemsets
Border
100
Closed frequent itemsets

Un itemset X è closed se NON esistono itemset X
tali che
X è un superset di X
Tutte le transazioni che contengono X contengono
pure X
supp(X) supp(X)

A1 A10 B1 B10 C1 C10
Numero degli itemset frequenti Numero Closed
Itemset 3 A1,,A10, B1,,B10,
C1,,C10 Numero Itemset massimali 3
111111111100000000000000000000 1111111111000000000
00000000000 111111111100000000000000000000 1111111
11100000000000000000000 00000000001111111111000000
0000 000000000011111111110000000000 00000000001111
1111110000000000 000000000011111111110000000000 00
0000000000000000001111111111 000000000000000000001
111111111 000000000000000000001111111111 000000000
000000000001111111111
101
Maximal vs Closed Itemsets
Transaction Ids
Non supportati da alcuna transazione
102
Maximal vs Closed Itemsets
Closed but not maximal
Minimum support 2
Closed and maximal
CD
Closed 10 Maximal 5
A ? D (s2, c 2/3 0,66) AC ? D (s2, c
2/3 0,66)
regola non generata se partiamo dai closed
103
Classificatori basati su regole associative

Dati su cui costruire il classificatore
Insieme di record in D classificati, ovvero
contenenti un attributo categorico y?Y, che
determina la classe di appartenenza
Trasformiamo il dataset per poter applicare un
algoritmo Apriori-like
Ogni record deve diventare una transazione che
contiene un insieme di item ? I
Gli attributi categorici vengono mappati su
insiemi di interi consecutivi
Gli attributi continui sono discretizzati e
trasformati come quelli categorici
Ogni record diventa una ennupla di item distinti
appartenenti a I, dove ogni item è una coppia
(Attribute, Integer-value)
Le regole estratte (CARClass Association Rule)
con supporto/confidenza minimi hanno quindi forma
condset ? y
Dove condset è un insieme di item (Attribute,
Integer-value)

104
Classificatori basati su regole associative

Una CAR ha confidenza c
se il c dei campioni in D che contengono condset
contengono anche y (ovvero appartengono alla
classe y)
Una CAR ha supporto s
se l s dei campioni in D contengono sia
condset e sia y (ovvero contengono condset ed
appartengono anche alla classe y )

105
Classificatori basati su CAR in dettaglio

1 passo (generazione delle CAR)
Algoritmo iterativo (come Apriori) che ricerca
k-ruleitems frequenti (CAR frequenti il cui
condset contiene K item)
Scansione multipla del database
Cerca ad ogni iterazione k 1, 2, 3, i
k-ruleitems frequenti
La conoscenza dei k-ruleitems frequenti viene
usata per generare i (k1)-ruleitems candidati

106
Classificatori basati su CAR in dettaglio

2 passo (generazione del Classificatore)
Ricerca delle CAR più accurate
Metodo euristico, basato su un ordinamento tra
CAR
Una regola ri precede una regola rj (ri lt rj)
se
La confidenza di ri è più grande di rj
La confidenza è la stessa, ma ri ha un supporto
più grande
La confidenza e il supporto delle due regole sono
uguali, ma ri è stata generata prima di rj
Al termine lalgoritmo seleziona un insieme di
CAR ordinate che coprono tutti i campioni in D
Uso del classificatore
Nel classificare un nuovo campione, si usa
lordine tra le CAR
Si sceglie la prima regola il cui condset
soddisfa il campione.
E necessaria una regola di default, a precedenza
minima, che specifica una classe di default
Serve per classificare nel caso in cui nessuna
regola soddisfa il nuovo campione da classificare
Buoni risultati sia in velocità e sia in
accuratezza rispetto a C4.5

107
Conclusioni

Association rule mining
Probabilmente costituisce il contributo più
notevole al KDD da parte di ricercatori su DB e
algoritmi
Moltissimi algoritmi sono stati pubblicati
Usato anche come analisi di base per alg. di
clustering e classificazione
Direzioni di ricerca interessanti
Analisi delle associazioni in altri tipi di dati
spaziali, multimedia, serie temporali, grafi,
etc.