Title: Slajd 1
1Analiza skupien
Analiza skupien sluzy do podzialu danego zbioru
na rozlaczne podzbiory wedlug okreslonej miary
podobienstwa identyfikowanej z odlegloscia
pomiedzy obiektami.
2(No Transcript)
3Klasyfikacja algorytmów analizy
skupien Sekwencyjne Równolegle Aglomeratywne Pod
zialowe Hierarchiczne Niehierarchiczne Monotetyczn
e Politetytyczne (fuzzy) Deterministyczne Probab
ilistyczne
4Klasyfikacja monotetyczna kazdy obiekt danej
klasy miec wszystkie cechy charakterystyczne dla
tej klasy obiektów. Klasyfikacja politetyczna
obiekt danej klasy musi miec minimalna liczbe
cech charakterystycznych dla tej klasy.
cechy
obiekty
Ilustracja róznicy pomiedzy klasyfikacja
monotetyczna a politetyczna. Obiekty 1-4 tworza
jedna klase politetyczna a obiekty 5-6 oraz 7-8
moga byc zaklasyfikowane do dwóch róznych klas
monotetycznych. Przyklad klasyfikacji
politetycznej amnestia maturalna Giertycha.
5Miary odleglosci/podobienstwa uzywane przy
klasyfikacji obiektów
y
x
y
x
6Przyklad wyniku hierarchicznej analizy skupien
(dendrogram)
obiekty
podobienstwo (odleglosc)
7Hierarchiczna aglomeratywna analiza skupien
- Algorytm minimalnego drzewa (single linkage
clustering minimal spanning tree clustering) - Algorytm pelnych polaczen (complete linkage
clustering) - Algorytm polaczen posrednich (intermediate
linkage) - Algorytm sredniej niewazonej (unweighted
arithmetic average clustering UPGMA) - Algorytm sredniej wazonej (weighted arithmetic
average clustering WPGMA) - Algorytm centroidów niewazonych (unweighted
centroid clustering UPGMC) - Algorytm centroidów wazonych (weighted centroid
clustering WPGMC) - Metoda najmniejszej wariancji Warda (Wards
minimum variance method) - Ogólny model aglomeratywnej analizy skupien
(general agglomerative clustering model) - Przystosowaczy algorytm analizy skupien (flexible
clustering) - Analiza informacji (information analysis)
8Algorytm minimalnego drzewa (najkrótszego
polaczenia) Dwa skupienia (klastry) lacza sie w
jedno, jezeli najkrótsza odleglosc pomiedzy
elementem x nalezacym do skupienia A i elementem
y nalezacym do skupienia B jest mniejsza niz
zadana odleglosc progowa. Wada jezeli dwa
srednio odlegle skupienia sa polaczone sciezka
punktów zostana zaklasyfikowane jako pojedyncze
skupienie.
9Najprostszy algorytm podzialu metoda najkrótszego
polaczenia przy starcie z niezgrupowanych
obiektów i kryterium odleglosci dltd0
Znajdz dwa najmniej odlegle od siebie obiekty
dltd0 ?
koniec
N
T
Znajdz obiekt najmniej odlegly od któregokolwiek
z obiektów skupienia
Skupienie jest kompletne dalsza analiza dla
obiektów poza skupieniami
dltd0 ?
N
T
Dodaj obiekt do skupienia
10Po znalezieniu skupien dla najmniejszej wartosci
d0 zwiekszamy d0 i w podobny sposób prowadzimy
laczenie juz znalezionych skupien w
wieksze. Algorytm kompletnych polaczen dwa
skupienia lacza sie w jedno, jezeli najwieksza
odleglosc miedzy ich elementami jest mniejsza od
zadanego kryterium. Algorytm srednich polaczen
dwa skupienia lacza sie w jedno, jezeli srednia
odleglosc pomiedzy ich elementami jest mniejsza
od zadanego kryterium. Algorytmy centroidów
liczy sie odleglosc obiektu od srodka
dotychczasowego skupienia.
11Zestawienie wystepowania gatunków karalucha w
zaleznosci od miejsca
Miejsce wystepowania
Gatunek
12Porównanie dzialania algorytmu najkrótszego i
najdluzszego polaczenia
Najmniejsza odleglosc
Najwieksza odleglosc
Wspólczynnik korelacji
13Metoda najmniejszej wariancji Dzielimy zbiór
obiektów na k rodzin tak, aby zminimalizowac
wariancje w obrebie kazdej rodziny.