Title: L
1Lanalisi dei gruppi(cluster analysis)
2Storia brevissima
- Storia brevissima
- La cluster analysis nasce nel 1939 per opera di
Tyron, che per primo la presentò come una
variante dellanalisi fattoriale. - Grazie al lavoro di due biologi Sokal e Sneath
la cluster analysis riceve un forte impulso
negli anni sessanta. - Nello stesso periodo, Ward (1963) elabora la sua
tecnica di clustering a partire da un problema di
classificazione di posizioni occupazionali. - Ancora negli anni sessanta, Johnson lavora alla
cluster, concependola coma una procedura utile
per rappresentare la struttura della matrice di
similarità fra i casi.
3Concetti chiave
- Similarità e distanza
- Sotto il profilo tecnico, i concetti di
similarità e di distanza sono centrali per
l'analisi della composizione dei gruppi. - Questi due concetti si trovano in relazione
inversa ad una maggiore similarità corrisponde
una minore distanza. - A rigore, il concetto di distanza può essere
impiegato soltanto nel caso di variabili
cardinali. Esso viene riferito alla distanza
euclidea. - d ? (X1 X2)2 (Y1 Y2)2
- Generalizzando, per uno spazio N-dimensionale,
essa diventa -
v - dij ? S (Xik - Xjk)2
-
k1 - Questa distanza è nota anche come distanza di
Manhattan. - La distanza tra casi può essere calcolata anche
attraverso altre misure, come la distanza di
Mahalanobis e la distanza di Minkovski.
4- Occorre distinguere le diverse misure di
similarità/distanza in ragione del tipo di
variabili impiegate nellanalisi. - Per variabili ad intervalli, le distanze sono
- la distanza euclidea
- la distanza euclidea al quadrato
- la similarità calcolata col coseno
- la similarità calcolata col coefficiente di
correlazione di Pearson - la distanza di Chebycev
- la distanza assoluta (city-Block o Manhattan)
- la distanza di Minkowski
- la distanza di Minkowski generalizzata
(customized) - Per variabili categoriali non ordinate, le
distanze sono - la distanza del chi-quadrato
- la distanza del phi-quadrato
- Per variabili dicotomiche, le distanze sono
- la distanza euclidea
- la distanza euclidea al quadrato
- la distanza di dimensione (size)
- la distanza di pattern
- la varianza
5Figura 1 - Calcolo della distanza tra due casi
rispetto a variabili aventi metrica diversa
valori non standardizzati
6Figura 2 - Calcolo della distanza tra due casi
rispetto a variabili aventi metrica diversa
valori standardizzati
Quando diverge la metrica delle variabili che si
adottano per la cluster, è necessario
standardizzare le variabili, in modo da non
introdurre effetti distorsivi indotti dalla
stessa differenza di metrica (Figura 1 e Figura
2). Il discorso cambia se si fa invece
riferimento a variabili categoriali. In questo
caso, non si parlerà più di distanza, ma di
dissimilarità. Anche per la dissimilarità
esistono vari indici per poter calcolare la
somiglianza dei profili relativi a due individui.
7Partizioni e ricoprimenti
- Una partizione è una suddivisione dellinsieme
originario in K sottoinsiemi a due a due
disgiunti e tali da esaurire linsieme originario
(ogni oggetto appartiene ad uno ed un solo
sottoinsieme) (Ricolfi, 1992, p.31) - Un ricoprimento, invece, è una suddivisione
dellinsieme originario in K sottoinsiemi che
esauriscono linsieme originario ma possono anche
essere più o meno sovrapposti fra loro (Ricolfi,
1992, p.31)
8Le tecniche di clustering
- Le tecniche di Cluster Analysis sono
riconducibili a tre grandi famiglie - Cluster analysis
Tecniche di Classificazione gerarchica
Tecniche basate sulle partizioni ripetute
Tecniche di overlapping clustering
9Le tecniche di classificazione gerarchica
- La famiglia delle tecniche di classificazione
gerarchica si suddivide, a sua volta, in due
generi - Quelle basate sugli algoritmi aggregativi
- Quelle basate sugli algoritmi scissori
10Le tecniche basate sugli algoritmi aggregativi
- Queste tecniche procedono raggruppando i casi ad
uno ad uno, fino ad arrivare ad n-1 aggregazioni.
11(No Transcript)
12(No Transcript)
13Le tecniche di aggregazione possono essere
diverse e cioè
La tecnica del legame singolo (nearest
neighbor) consiste nel raggruppare i casi che
presentano la minore distanza e successivamente
nell'utilizzare come referente della distanza il
caso più vicino a quello del nuovo caso da
aggregare
14La tecnica del legame completo (furthest
neighbor) riunisce invece i casi che sono più
vicini rispetto ai casi più lontani di ciascuno
dei gruppi che si sono formati
La tecnica del legame completo (furthest
neighbor) riunisce invece i casi che sono più
vicini rispetto ai casi più lontani di ciascuno
dei gruppi che si sono formati
15La tecnica del legame medio (waverage linkage)
richiede che la distanza tra due gruppi si
computi sulla base della media aritmetica delle
distanze tra il caso da aggregare e i gruppi che
sono già stati formati
16La tecnica del centroide (centroid clustering)
fa riferimento al baricentro del gruppo. La
distanza non è più calcolata in base alla media
(o alla mediana) del caso da tutti i casi del
gruppo, bensì in base al baricentro (centroide)
del gruppo.
17- La tecnica di Ward (Wards method) non fa altro
che aggregare casi in modo tale da ottenere, ad
ogni passaggio, il minimo incremento possibile
della varianza all'interno di ciascun gruppo.
18La trasformazione dei valori
- Per la trasformazione dei valori sono disponibili
le seguenti alternative - Punteggi Z è la normale procedura di
standardizzazione, che genera punteggi standard
z, ovvero z (x-Media)/Deviazione Standard - Ampiezza massima di 1 la procedura divide il
valore della variabile per il valore massimo, in
modo tale che il valore massimo ottenibile sia i
ovvero y x/Max - Media di 1 la procedura standardizza i valori in
modo che la loro media sia uguale a 1. I valori
di una variabile sono divisi per la media della
variabile, ovvero y x/Media - Deviazione standard di 1 i valori di una
variabile sono divisi per la deviazione standard,
ovvero y x/Deviazione Standard - Intervallo da 1 a 1 la procedura trasforma i
valori in modo che lintervallo di variazione sia
compreso tra i e i. I valori di una variabile
sono divisi per lintervallo di variazione della
variabile, ovvero y x/(Max Mm) - Intervallo da 0 a 1 sottrae dal valore di una
variabile il valore minimo e divide il risultato
per lintervallo, ovvero y (x Min)/(Max
Mm).
19Cosa accade in matrice
X1 X2
a 1 1
b 1 2
c 6 3
d 8 2
e 8 0
20a b c d e
a 0 1 29 50 50
b 0 26 49 53
c 0 5 13
d 0 4
e 0
21ad esempio, infatti, la distanza tra a ed e è(1
- 8)2 (1 - 0)2 50da cui deriva
X1 X2
(a, b) 1 1,5
c 6 3
d 8 2
e 8 0
22e, da questa, la nuova matrice delle distanze
(a, b) c d e
(a, b) 0 27,25 49,25 51,25
c 0 5 13
d 0 4
e 0
23Le tecniche del legame singolo e del legame
completo possono fare riferimento sia a misure di
similarità che di distanza. Le tecniche di Ward e
del legame medio possono invece fare riferimento
alle sole misure di distanza.
24Il confronto tra le diverse tecniche, su un
vecchio data-base elettorale, produce queste
visibili differenze(legame singolo)
25(legame completo)
26(legame medio)
27(Ward)
28Le tecniche basate sugli algoritmi scissori
- Queste tecniche, pur essendo più ricche di
proprietà matematiche, hanno un carattere meno
empirico dei metodi aggregativi, basandosi su
note proprietà statistiche della suddivisione
della matrice delle devianze e codevianze
(Rizzi, 1985, p. 89). Tuttavia, esse a causa
della complessità dei calcoli richiesti trovano
scarso impiego allinterno della ricerca. - Le tecniche basate sugli algoritmi scissori si
distinguono in due classi - I metodi monotetici, che realizzano la
suddivisione dei gruppi basandosi sui valori
assunti da una sola variabile. - I metodi politetici, che prendono in
considerazione i valori assunti da tutte le
variabili prescelte per la classificazione. - Il metodo divisivo più noto è quello di Edwards -
Cavalli Sforza. - Il criterio seguito è quello di esaminare ad ogni
stadio tutte le possibili suddivisioni in due
parti di tutti i gruppi. Verrà operata la
divisione che fa diminuire maggiormente la
varianza entro i gruppi.
29Lapplicazione di questo metodo divisivo porta a
risultati come il seguente
30(legame singolo)
31Le tecniche a partizioni ripetute
- Rispetto alle precedenti, le tecniche di
clustering basate sulle partizioni ripetute
presentano il vantaggio di poter lavorare su
numeri assai elevati di casi. Questo vantaggio
viene controbilanciato dalla necessità di dovere
stabilire a priori il numero di gruppi da
formare. - Questo svantaggio può essere parzialmente
superato attraverso lo spostamento effettuato
in ragione di differenti criteri dei casi da un
gruppo all'altro. - I criteri per lo spostamento dei casi sono tre
- Le k-medie
- Le nubi dinamiche
- l'ottimizzazione di una funzione obiettivo
32Le k-medie
- Le k-medie fanno riferimento, per la
classificazione, alle coordinate dei centroidi
dei diversi gruppi.
33Le nubi dinamiche
- Le nubi dinamiche prendono invece come
riferimento un nucleo iniziale, o "seme", attorno
al quale vanno poi raccogliendosi i casi con una
somiglianza maggiore.
34Le funzioni-obiettivo
- Le funzioni obiettivo cercano infine di
realizzare gli spostamenti fra un gruppo e
l'altro dei singoli casi senza uno specifico
riferimento a considerazioni geometriche relative
ad una funzione di distanza. Esse tengono
piuttosto conto delle modifiche che si ottengono
nei valori di tale funzione. A partire dalla
funzione iniziale, vengono effettuati solo gli
spostamenti di oggetti da un gruppo all'altro che
migliorano (nel senso previsto) la funzione
obiettivo. Il processo termina quando non si
ottengono più miglioramenti significativi
attraverso un intero ciclo di riclassificazione.
35Esempi
- Classificazione gerarchica matrice delle
distanze
36Processo di agglomerazione
37Cluster di appartenenza
38Grafico a stalattite
39Dendogramma (metodo di Ward)
40(No Transcript)
41Appartenenza dei casi ai gruppi
42Centri finali dei cluster
43Numero di casi in ciascun cluster