PPT – L PowerPoint presentation | free to view

About This Presentation

Title:

L

Description:

L analisi dei gruppi (cluster analysis) Stefano Nobile Storia brevissima Storia brevissima La cluster analysis nasce nel 1939 per opera di Tyron, che per primo la ... – PowerPoint PPT presentation

Number of Views:70

Avg rating:3.0/5.0

Slides: 44

Provided by: Stefano115

Category:

Tags:

more less

Transcript and Presenter's Notes

Title: L

1
Lanalisi dei gruppi(cluster analysis)

Stefano Nobile

2
Storia brevissima

Storia brevissima
La cluster analysis nasce nel 1939 per opera di
Tyron, che per primo la presentò come una
variante dellanalisi fattoriale.
Grazie al lavoro di due biologi Sokal e Sneath
la cluster analysis riceve un forte impulso
negli anni sessanta.
Nello stesso periodo, Ward (1963) elabora la sua
tecnica di clustering a partire da un problema di
classificazione di posizioni occupazionali.
Ancora negli anni sessanta, Johnson lavora alla
cluster, concependola coma una procedura utile
per rappresentare la struttura della matrice di
similarità fra i casi.

3
Concetti chiave

Similarità e distanza
Sotto il profilo tecnico, i concetti di
similarità e di distanza sono centrali per
l'analisi della composizione dei gruppi.
Questi due concetti si trovano in relazione
inversa ad una maggiore similarità corrisponde
una minore distanza.
A rigore, il concetto di distanza può essere
impiegato soltanto nel caso di variabili
cardinali. Esso viene riferito alla distanza
euclidea.
d ? (X1 X2)2 (Y1 Y2)2
Generalizzando, per uno spazio N-dimensionale,
essa diventa
v
dij ? S (Xik - Xjk)2
k1
Questa distanza è nota anche come distanza di
Manhattan.
La distanza tra casi può essere calcolata anche
attraverso altre misure, come la distanza di
Mahalanobis e la distanza di Minkovski.

Occorre distinguere le diverse misure di
similarità/distanza in ragione del tipo di
variabili impiegate nellanalisi.
Per variabili ad intervalli, le distanze sono
la distanza euclidea
la distanza euclidea al quadrato
la similarità calcolata col coseno
la similarità calcolata col coefficiente di
correlazione di Pearson
la distanza di Chebycev
la distanza assoluta (city-Block o Manhattan)
la distanza di Minkowski
la distanza di Minkowski generalizzata
(customized)
Per variabili categoriali non ordinate, le
distanze sono
la distanza del chi-quadrato
la distanza del phi-quadrato
Per variabili dicotomiche, le distanze sono
la distanza euclidea
la distanza euclidea al quadrato
la distanza di dimensione (size)
la distanza di pattern
la varianza

5
Figura 1 - Calcolo della distanza tra due casi
rispetto a variabili aventi metrica diversa
valori non standardizzati
6
Figura 2 - Calcolo della distanza tra due casi
rispetto a variabili aventi metrica diversa
valori standardizzati
Quando diverge la metrica delle variabili che si
adottano per la cluster, è necessario
standardizzare le variabili, in modo da non
introdurre effetti distorsivi indotti dalla
stessa differenza di metrica (Figura 1 e Figura
2). Il discorso cambia se si fa invece
riferimento a variabili categoriali. In questo
caso, non si parlerà più di distanza, ma di
dissimilarità. Anche per la dissimilarità
esistono vari indici per poter calcolare la
somiglianza dei profili relativi a due individui.
7
Partizioni e ricoprimenti

Una partizione è una suddivisione dellinsieme
originario in K sottoinsiemi a due a due
disgiunti e tali da esaurire linsieme originario
(ogni oggetto appartiene ad uno ed un solo
sottoinsieme) (Ricolfi, 1992, p.31)
Un ricoprimento, invece, è una suddivisione
dellinsieme originario in K sottoinsiemi che
esauriscono linsieme originario ma possono anche
essere più o meno sovrapposti fra loro (Ricolfi,
1992, p.31)

8
Le tecniche di clustering

Le tecniche di Cluster Analysis sono
riconducibili a tre grandi famiglie
Cluster analysis

Tecniche di Classificazione gerarchica
Tecniche basate sulle partizioni ripetute
Tecniche di overlapping clustering
9
Le tecniche di classificazione gerarchica

La famiglia delle tecniche di classificazione
gerarchica si suddivide, a sua volta, in due
generi
Quelle basate sugli algoritmi aggregativi
Quelle basate sugli algoritmi scissori

10
Le tecniche basate sugli algoritmi aggregativi

Queste tecniche procedono raggruppando i casi ad
uno ad uno, fino ad arrivare ad n-1 aggregazioni.

11
(No Transcript)
12
(No Transcript)
13
Le tecniche di aggregazione possono essere
diverse e cioè
La tecnica del legame singolo (nearest
neighbor) consiste nel raggruppare i casi che
presentano la minore distanza e successivamente
nell'utilizzare come referente della distanza il
caso più vicino a quello del nuovo caso da
aggregare
14
La tecnica del legame completo (furthest
neighbor) riunisce invece i casi che sono più
vicini rispetto ai casi più lontani di ciascuno
dei gruppi che si sono formati
La tecnica del legame completo (furthest
neighbor) riunisce invece i casi che sono più
vicini rispetto ai casi più lontani di ciascuno
dei gruppi che si sono formati
15
La tecnica del legame medio (waverage linkage)
richiede che la distanza tra due gruppi si
computi sulla base della media aritmetica delle
distanze tra il caso da aggregare e i gruppi che
sono già stati formati
16
La tecnica del centroide (centroid clustering)
fa riferimento al baricentro del gruppo. La
distanza non è più calcolata in base alla media
(o alla mediana) del caso da tutti i casi del
gruppo, bensì in base al baricentro (centroide)
del gruppo.
17

La tecnica di Ward (Wards method) non fa altro
che aggregare casi in modo tale da ottenere, ad
ogni passaggio, il minimo incremento possibile
della varianza all'interno di ciascun gruppo.

18
La trasformazione dei valori

Per la trasformazione dei valori sono disponibili
le seguenti alternative
Punteggi Z è la normale procedura di
standardizzazione, che genera punteggi standard
z, ovvero z (x-Media)/Deviazione Standard
Ampiezza massima di 1 la procedura divide il
valore della variabile per il valore massimo, in
modo tale che il valore massimo ottenibile sia i
ovvero y x/Max
Media di 1 la procedura standardizza i valori in
modo che la loro media sia uguale a 1. I valori
di una variabile sono divisi per la media della
variabile, ovvero y x/Media
Deviazione standard di 1 i valori di una
variabile sono divisi per la deviazione standard,
ovvero y x/Deviazione Standard
Intervallo da 1 a 1 la procedura trasforma i
valori in modo che lintervallo di variazione sia
compreso tra i e i. I valori di una variabile
sono divisi per lintervallo di variazione della
variabile, ovvero y x/(Max Mm)
Intervallo da 0 a 1 sottrae dal valore di una
variabile il valore minimo e divide il risultato
per lintervallo, ovvero y (x Min)/(Max
Mm).

19
Cosa accade in matrice
X1 X2
a 1 1
b 1 2
c 6 3
d 8 2
e 8 0
20
a b c d e
a 0 1 29 50 50
b 0 26 49 53
c 0 5 13
d 0 4
e 0
21
ad esempio, infatti, la distanza tra a ed e è(1
- 8)2 (1 - 0)2 50da cui deriva
X1 X2
(a, b) 1 1,5
c 6 3
d 8 2
e 8 0
22
e, da questa, la nuova matrice delle distanze
(a, b) c d e
(a, b) 0 27,25 49,25 51,25
c 0 5 13
d 0 4
e 0
23
Le tecniche del legame singolo e del legame
completo possono fare riferimento sia a misure di
similarità che di distanza. Le tecniche di Ward e
del legame medio possono invece fare riferimento
alle sole misure di distanza.
24
Il confronto tra le diverse tecniche, su un
vecchio data-base elettorale, produce queste
visibili differenze(legame singolo)
25
(legame completo)
26
(legame medio)
27
(Ward)
28
Le tecniche basate sugli algoritmi scissori

Queste tecniche, pur essendo più ricche di
proprietà matematiche, hanno un carattere meno
empirico dei metodi aggregativi, basandosi su
note proprietà statistiche della suddivisione
della matrice delle devianze e codevianze
(Rizzi, 1985, p. 89). Tuttavia, esse a causa
della complessità dei calcoli richiesti trovano
scarso impiego allinterno della ricerca.
Le tecniche basate sugli algoritmi scissori si
distinguono in due classi
I metodi monotetici, che realizzano la
suddivisione dei gruppi basandosi sui valori
assunti da una sola variabile.
I metodi politetici, che prendono in
considerazione i valori assunti da tutte le
variabili prescelte per la classificazione.
Il metodo divisivo più noto è quello di Edwards -
Cavalli Sforza.
Il criterio seguito è quello di esaminare ad ogni
stadio tutte le possibili suddivisioni in due
parti di tutti i gruppi. Verrà operata la
divisione che fa diminuire maggiormente la
varianza entro i gruppi.

29
Lapplicazione di questo metodo divisivo porta a
risultati come il seguente
30
(legame singolo)
31
Le tecniche a partizioni ripetute

Rispetto alle precedenti, le tecniche di
clustering basate sulle partizioni ripetute
presentano il vantaggio di poter lavorare su
numeri assai elevati di casi. Questo vantaggio
viene controbilanciato dalla necessità di dovere
stabilire a priori il numero di gruppi da
formare.
Questo svantaggio può essere parzialmente
superato attraverso lo spostamento effettuato
in ragione di differenti criteri dei casi da un
gruppo all'altro.
I criteri per lo spostamento dei casi sono tre
Le k-medie
Le nubi dinamiche
l'ottimizzazione di una funzione obiettivo

32
Le k-medie

Le k-medie fanno riferimento, per la
classificazione, alle coordinate dei centroidi
dei diversi gruppi.

33
Le nubi dinamiche

Le nubi dinamiche prendono invece come
riferimento un nucleo iniziale, o "seme", attorno
al quale vanno poi raccogliendosi i casi con una
somiglianza maggiore.

34
Le funzioni-obiettivo

Le funzioni obiettivo cercano infine di
realizzare gli spostamenti fra un gruppo e
l'altro dei singoli casi senza uno specifico
riferimento a considerazioni geometriche relative
ad una funzione di distanza. Esse tengono
piuttosto conto delle modifiche che si ottengono
nei valori di tale funzione. A partire dalla
funzione iniziale, vengono effettuati solo gli
spostamenti di oggetti da un gruppo all'altro che
migliorano (nel senso previsto) la funzione
obiettivo. Il processo termina quando non si
ottengono più miglioramenti significativi
attraverso un intero ciclo di riclassificazione.

35
Esempi

Classificazione gerarchica matrice delle
distanze

36
Processo di agglomerazione
37
Cluster di appartenenza
38
Grafico a stalattite
39
Dendogramma (metodo di Ward)
40
(No Transcript)
41
Appartenenza dei casi ai gruppi
42
Centri finali dei cluster
43
Numero di casi in ciascun cluster

Write a Comment

User Comments (0)