Prezentacja programu PowerPoint - PowerPoint PPT Presentation

About This Presentation
Title:

Prezentacja programu PowerPoint

Description:

Title: Prezentacja programu PowerPoint Author: Szymon Grabowski Last modified by: Szymon Grabowski Created Date: 6/4/2002 6:05:40 PM Document presentation format – PowerPoint PPT presentation

Number of Views:130
Avg rating:3.0/5.0
Slides: 36
Provided by: SzymonGr2
Category:

less

Transcript and Presenter's Notes

Title: Prezentacja programu PowerPoint


1
Konstrukcja klasyfikatorów minimalnoodleglosciowyc
h o strukturze sieciowej Szymon Grabowski
Katedra Informatyki Stosowanej PL Kraków,
pazdziernik 2003
promotor prof. dr hab. inz. Dominik Sankowski
2
  • Klasyfikacja ustalanie etykiet klas
    rozpoznawanych obiektów.
  • Cele pracy
  • szybkie klasyfikatory (redukcja informacji
    wejsciowej, efektywne struktury danych)
  • klasyfikatory dokladne
  • moze pewien korzystny kompromis miedzy
    szybkoscia a jakoscia?
  • Zakres pracy
  • Klasyfikacja nadzorowana jesli dany jest zbiór
    uczacy (baza wiedzy).
  • Klasyfikacja nieparametryczna brak
    apriorycznego modelu probabilistycznego.
  • Symetryczna funkcja strat kazda pomylka
    jednakowo kosztowna.

Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
3
Klasyfikatory minimalnoodleglosciowe regula
k-NN, jej warianty i klasyfikatory pokrewne.
  • Inne typy klasyfikatorów
  • sieci neuronowe
  • drzewa decyzyjne.
  • Zalety k-NN
  • asymptotyczna optymalnosc
  • zazwyczaj dobra jakosc w praktyce
  • prostota, podatnosc na modyfikacje.
  • Wady k-NN
  • wolna klasyfikacja
  • wrazliwosc na zbedne cechy
  • mala przestrzen rozpatrywanych modeli.

Klasyfikacja próbki q regula 3-NN
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
4
  • Glówne kierunki modyfikacji reguly k-NN
  • modyfikacja metody glosowania, np. wazona k-NN
    (Dudani, 1976)
  • modyfikacja etykiet zbioru uczacego, np.
    rozmyta k-NN z uczeniem (Józwik, 1983)
  • odrzucanie niepewnych predykcji (Tomek, 1976
    Józwik i in., 1996)
  • szybkie szukanie najblizszych sasiadów
    (problem postawiony w Minsky i Papert, 1969)
  • redukcja zbioru uczacego (Hart, 1968, i ok. 30
    dalszych prac)
  • schematy równolegle (Skalak, 1997 Alpaydin,
    1997)
  • koncepcja symetrycznego sasiedztwa (Chaudhuri,
    1996 Sánchez i in., 1997).

Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
5
  • Tezy rozprawy doktorskiej
  • W niskich wymiarach (d ? 5) mozliwe jest
    znajdowanie najblizszego sasiada w
    deterministycznym subliniowym czasie w metryce
    miejskiej.
  • Lokalny wybór zredukowanego zbioru odniesienia
    prowadzi do osiagniecia wyzszej jakosci
    klasyfikacji niz oferowana przez pojedynczy
    zbiór zredukowany, zwlaszcza przy bardzo
    wysokich wymaganiach szybkosciowych nalozonych
    na klasyfikacje.
  • Mozliwe jest stworzenie równoleglej sieci
    klasyfikatorów typu k sasiadów, osiagajacej
    wyzsza jakosc predykcji niz klasyfikator bazowy
    przy umiarkowanym spowolnieniu klasyfikacji,
    umozliwiajacej ponadto, w polaczeniu z koncepcja
    tzw. symetrycznego sasiedztwa, projektowanie
    klasyfikatorów kaskadowych o korzystnych
    relacjach szybkosci do jakosci klasyfikacji.

Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
6
Teza I
Szukanie najblizszego sasiada (NNS Nearest
Neighbor Search) (Minsky i Papert, 1969)
Wejscie zbiór P p1, ..., pn (dany
off-line) w przestrzeni X z funkcja odleglosci
dfpróbka testowa q ? X (prezentowana
on-line).Zadanie dokonac takiej wstepnej
obróbki zbioru P, aby mozliwe bylo szybkie
znajdowanie najblizszego sasiada q w P. Przeglad
zupelny (brute force) wymaga czasu O(nd), d
wymiar przestrzeni X.
Fakty niewiele alg. z subliniowym w n
czasem szukania w najgorszym przypadku w
wysokich wymiarach nadal brak dobrych
algorytmów!
Potrzeby ograniczenie z góry czasu
szukania (mozliwe w niskich wymiarach)
prostota!
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
7
Algorytmy NNS z czasem szukania subliniowym w n
Teza I
  • Dobkin i Lipton (1976), Yao i Yao (1985)
  • Agarwal i Matoušek (1992), Matoušek (1992)
  • Clarkson (1988) wstepna obróbka
  • szukanie NN
  • Meiser (1993) wstepna obróbka
  • szukanie NN
  • Algorytm proponowany wstepna obróbka
  • szukanie NN
  • k wspólczynnik kompromisu

Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
8
Teza I
metryka miejska (Manhattan)
Kluczowa wlasnosc metryki miejskiej dla
dowolnych punktów A, B i C
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
9
Teza I
Przyklad dwuwymiarowy
Jedna z próbek NN(v1)..NN(v4) jest najblizszym
sasiadem q. Wierzcholek v2 jest (przypadkowo)
miejscem polozenia pewnej próbki (która jest
oczywiscie NN tego wierzcholka).
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
10
Teza I
Wersja kompromisowa algorytmuZamiast pelnego
rozciecia przestrzeni, przeprowadzamy
hiperplaszczyzny tylko co k-ty punkt z P na
kazdej wspólrzednej (wymaga to policzenia
odleglosci do k1 dodatkowych punktów dla kazdej
wspólrzednej).
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
11
Teza I
Wyniki testów
 
ImplementacjaC (g 2.95.3) TestyCeleron
533 MHz384 MBLinux 2.4
3 wymiary, 1000 próbek w zbiorze odniesienia
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
12
Teza I
Wyniki testów, c.d.
5 wymiarów, 1000 próbek w zbiorze odniesienia
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
13
Teza I
Wlasnosci proponowanego algorytmu (podsumowanie)
  • Wady
  • bardzo wysokie (wykladnicze w d) koszta wstepnej
    obróbki praktyczne ograniczenie zastosowan
    do wymiarów 35
  • ograniczenie do szukania tylko jednego
    najblizszego sasiada
  • ograniczenie do metryki miejskiej.
  • Zalety
  • subliniowosc w n w najgorszym przypadku
  • elastycznosc (parametr kompromisu k)
  • prostota.

Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
14
Teza II
1-NN najprostsza i najszybsza wersja reguly
k-NNDalsze przyspieszenie klasyfikacji typu
1-NN osiagamy przy pomocy redukcji zbioru
odniesienia.
  • Najbardziej znane algorytmyredukcji zbioru
    odniesienia
  • alg. Harta (1968)
  • alg. GowdayKrishnay (1979)
  • alg. Gatesa (1972)
  • alg. Changa (1974)
  • alg. Tomeka (1977).

Przykladowa redukcja
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
15
Teza II
  • Cechy algorytmu redukcji Skalaka (1994)
  • probabilistyczny (w klasie algorytmów typu
    random mutation hill climbing)
  • redukcja do zadanej liczby próbek
  • nie gwarantuje zgodnosci zbioru zredukowanego.
  • Procedura Skalak1(h, m1)
  • wylosuj h próbek ze zbioru odniesienia S do
    zbioru zredukowanego R i estymuj jakosc
    otrzymanego zbioru
  • wykonaj w petli m1 mutacji mutacja polega na
    wylosowaniu jednej próbki z R i jednej z S\R
    jesli zamiana tych próbek zmniejsza estymowany
    blad klasyfikacji, to ja zaakceptuj.

Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
16
Teza II
  • Procedura Skalak2(h, m1, m2)
  • wykonaj Skalak1(h, m1)
  • wykonaj w petli m2 mutacji polegajacych teraz na
    zmianie losowej wspólrzednej (tj. cechy)
    losowej próbki z R o 0.5 lub 0.5 jesli
    mutacja zmniejsza estymowany blad klasyfikacji,
    to ja zaakceptuj.

Wszystkie opisane algorytmy generuja pojedynczy
(globalny) zbiór zredukowany. ! Alternatywne
podejscie w niniejszej pracy zbiór
zredukowany wybierany kontekstowo (lokalnie)
dla danej próbki.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
17
Teza II
Laczenie klasyfikatorów (combining classifiers)
przedmiot intensywnych badan od poczatku lat 90.
XX w.
  • Trzy zasadniczo odmienne podejscia
  • glosowanie (np. wiekszosciowe) zespolu
    klasyfikatorów (Hansen i Salamon, 1990) wada
    czas klasyfikacji proporcjonalny do liczby
    klasyfikatorów skladowych
  • lokalny wybór klasyfikatora (Woods i in., 1997)
    wada trudnosc okreslenia (szybkiego)
    kryterium wyboru klasyfikatora
  • klasyfikator kaskadowy (Alpaydin i Kaynak,
    1998) próbki latwe oceniane sa przez szybki
    klasyfikator, próbki trudniejsze przechodza
    do nastepnych etapów (z wolniejszymi, lecz
    dokladniejszymi klasyfikatorami).

Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
18
Teza II
Proponujemy dwa schematy lokalnego wyboru zbioru
zredukowanego dla reguly 1-NN a) schemat z
partycjonowaniem przestrzeni plaszczyznami b)
schemat z klasteryzacja zbioru odniesienia.
Podzial zbioru na (a) regiony przy pomocy
plaszczyzn(b) klastry, np. metoda k srednich
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
19
  • Procedura uczenia w schemacie klasteryzacjaSkala
    k(L, k)
  • podziel zbiór odniesienia na k skupisk
    (klastrów) przy pomocy metody k srednich
    (k-means)
  • wygeneruj globalnie L zbiorów zredukowanych
    (procedura Skalak1 lub Skalak2)
  • dla kazdego klastra estymuj jakosc klasyfikacji
    regula 1-NN przy uzyciu poszczególnych zb.
    zredukowanych. Skojarz z kazdym klastrem
    najlepszy dla niego klasyfikator (tj. zbiór
    zredukowany).

Teza II
  • Procedura klasyfikacji próbki x
  • policz odleglosci od x do srodków ciezkosci
    wszystkich klastrów i wybierz klaster
    najblizszy zgodnie z tym kryterium
  • przypisz x do klasy zwracanej przez klasyfikator
    skojarzony z najblizszym klastrem.

Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
20
Teza II
Klasyfikator 1-NN 1 brak redukcji2
Hart3 Gowda-Krishna4 Skalak15
Skalak26 klasteryzacja Skalak2.
Wyniki testów Zbiór danych rdzenie ferrytowe
(kontrola jakosci w zakladach Polfer w
W-wie) Zbiory uczace po 1400 próbek,metryka
miejska.

Wielkosc zbioru zredukowanego
Blad klasyfikacji
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
21
Teza III
  • Koncepcja symetrycznego sasiedztwa
  • bliskosc sasiadów
  • uklad geometryczny sasiadów w przestrzeni
    (wokól próbki testowej).

Regula k-NN ignoruje aspekt polozenia sasiadów w
przestrzeni.
Praktyczne definicje symetrycznego sasiedztwa
Chaudhuri, 1996 Zhang i in., 1997.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
22
Teza III
Regula k scentrowanych sasiadów (k Nearest
Centroid Neighbors, k-NCN) Sánchez i in.,
1997 koncepcja NCN Chaudhuri, 1996
Regula k-NCN, k3
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
23
Teza III
Proponujemy stochastyczna regule k Near
Surrounding Neighbors (k-NSN), która
optymalizuje oba kryteria uzywane przez k-NCN.
  • Algorytm
  • k-NSN(q, k)
  • znajdz k scentrowanych sasiadów (NCN) ni,
    i1..k, próbki q
  • w petli próbuj zastepowac losowego sasiada ni
    losowa próbka s ze zbioru odniesienia, o ile jest
    ona polozona blizej próbki q niz ni i jesli
    srodek ciezkosci nowego ukladu sasiadów lezy
    blizej q niz przed zamiana.

Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
24
Teza III
Wyniki testów
  • zbiory danych
  • rdzenie ferrytowe (kontrola jakosci w zakladach
    Polfer w W-wie)
  • 5903 próbki, 30 cech, 8 klas
  • 10 losowych partycji na zb. uczacy (1400 próbek)
    i testowy (4503 próbki)
  • piec zbiorów danych z University of California,
    Irvine (UCI) (Bupa, Glass, Iris, Pima, Wine)
  • 5-krotna walidacja skrosna
  • Wszystkie dane postandaryzowane,
  • metryka miejska.

Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
25
Zbiór Iris w rzucie dwuwymiarowym (cechy 3 i 4)
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
26
Teza III
Wyniki testów, c.d.
Bledy na zbiorzeFerrites
Bledy na zbiorach UCI
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
27
Teza III
To, iz slyszeliscie jakas rzecz nie powinno byc
jeszcze prawidlem waszego wierzenia tak dalece,
iz nie powinniscie w nic uwierzyc nie wprawiwszy
sie wprzód w taki stan, jak gdybyscie nigdy tego
nie uslyszeli. / Pascal /
Argumentowano w szeroko cytowanej pracy (Breiman,
1996), iz klasyfikatorów minimalnoodleglosciowych
(NN) nie mozna pomyslnie wykorzystac w
schematach sieciowych z uwagi na ich
stabilnosc. Doprawdy..?
Klasyfikator voting k-NN
  • Oryginalna regula k-NN korzysta z jednej wartosci
    k wybieranej zwykle przy pomocy metody minus
    jednego elementu. Wady estymowana optymalna
    wartosc parametru k nie musi gwarantowac
    najlepszej jakosci w zadaniu mala przestrzen
    mozliwych modeli.
  • Proponowany klasyfikator zwieksza przestrzen
    rozpatrywanych modeli i wygladza granice
    decyzyjne.

Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
28
Teza III
Klasyfikator voting k-NN, c.d.
Glosowanie 3 klasyfikatorów typu k-NN
Analogiczne schematy z glosowaniem
zaproponowalismy dla regul k-NCN i k-NSN. W
przeciwienstwie do wiekszosci klasyfikatorów
równoleglych, strata predkosci klasyfikacji w
stosunku do pojedynczego klasyfikatora jest
umiarkowana (w przypadku voting k-NN
zaniedbywalna).
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
29
Teza III
Proponowana rodzina klasyfikatorów
kaskadowych Cel Dobry kompromis miedzy jakoscia
a czasem klasyfikacji. Idea Dwie
fazy klasyfikacji. W pierwszej fazie
klasyfikator szybszy, oparty na
glosowaniu (równolegly) jako kryterium
wskazujace latwa próbke przyjeto jednoglosna
decyzje zespolu komponentów z pierwszej fazy. W
drugiej fazie wolny, lecz dokladny klasyfikator
(np. k-NCN, k-NSN lub ich wersje voting).
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
30
Teza III
Sumy rang klasyfikatorów na pieciu zbiorach UCI
Mniejsze wartosci sa korzystniejsze.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
31
  • Podsumowanie i wnioski
  • W niskich wymiarach mozliwe jest szukanie
    najblizszego sasiada w czasie subliniowym w
    licznosci zbioru w najgorszym przypadku
    prezentowany algorytm dopuszcza uzycie
    wspólczynnika kompromisu miedzy szybkoscia
    szukania a kosztem wstepnej obróbki.
  • Lokalny wybór zredukowanego zbioru odniesienia
    oferuje wyzsza jakosc klasyfikacji niz
    klasyfikatory oparte na pojedynczym zbiorze
    zredukowanym (podejscie klasyczne).
  • Symetryczne sasiedztwo to nowy sposób poprawy
    jakosci w rodzinie klasyfikatorów
    minimalnoodleglosciowych. Zaprezentowana regula
    k-NSN optymalizuje oba kryteria uzywane w
    klasyfikatorze k-NCN.
  • Mozliwa jest wersja reguly k-NN z wieloma
    wartosciami k (wyzsza jakosc klasyfikacji za
    cene minimalnego spowolnienia).
  • Koncepcje z p. 3 i 4 pozwalaja na projektowanie
    klasyfikatorów kaskadowych o korzystnych
    relacjach szybkosci do jakosci klasyfikacji.

Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
32
  • Plany na przyszlosc (m. in.)
  • eksperymenty z doborem parametrów dla schematu
    z lokalnym wyborem zbioru odniesienia (metoda
    klasteryzacji, liczba klastrów, wielkosc
    kazdego zbioru zredukowanego)
  • rozwazenie zmiany strategii uczenia w algorytmie
    Skalaka
  • pomiar jakosci poszczególnych klasyfikatorów
    skladowych w klasyfikatorach k-NN, k-NCN i
    k-NSN (postrzeganych jako klasyfikatory
    równolegle), a takze korelacji miedzy nimi
  • poszerzenie zaproponowanej rodziny
    klasyfikatorów kaskadowych (np. wprowadzenie
    algorytmów trójetapowych).

Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
33
Literatura Sz. Grabowski, Fast deterministic
exact nearest neighbor search in the Manhattan
metric, II Konferencja Komputerowe
SystemyRozpoznawania (KOSYR 2001), Milków
k/Karpacza, maj 2001, str. 375379.
Sz. Grabowski, Experiments with the k-NCN
decision rule, IX Konferencja Sieci i Systemy
Informatyczne, Lódz, pazdziernik 2001, str.
307317. Sz. Grabowski, Voting over multiple
k-NN classifiers, International IEEE Conference
TCSET2002, Lviv-Slavske, Ukraina, luty 2002,
str. 223225. Sz. Grabowski, Lokalny wybór
zredukowanego zbioru odniesienia, Seminarium nt.
Przetwarzanie i analiza sygnalów w systemach
wizji i sterowania, Slok k/Belchatowa, czerwiec
2002, mat. sem., str. 142147. Sz. Grabowski, M.
Baranowski, Implementacja algorytmu szybkiego
deterministycznego szukania najblizszego sasiada
w metryce miejskiej, X Konferencja Sieci i
Systemy Informatyczne, Lódz, pazdziernik 2002,
str. 499514.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
34
Literatura, c.d. Sz. Grabowski, A family
of cascade NN-like classifiers, 7th International
IEEE Conference on Experience of Designing and
Application of CAD Systems in Microelectronics
(CADSM), LvivSlavske, Ukraina, luty 2003, str.
503506. Sz. Grabowski, A. Józwik, Sample set
reduction for nearest neighbor classifiers under
different speed requirements, 7th International
IEEE Conference on Experience of Designing and
Application of CAD Systems in Microelectronics
(CADSM), LvivSlavske, Ukraina, luty 2003, str.
465468. Sz. Grabowski, B. Sokolowska, Voting
over multiple k-NN and k-NCN classifiers for
detection of respiration pathology, III
Konferencja Komputerowe Systemy Rozpoznawania
(KOSYR 2003), Milków k/Karpacza, maj 2003, str.
363368. Sz. Grabowski, Towards decision rule
based on closer symmetric neighborhood,
Biocybernetics and Biomedical Engineering, Vol.
23, No. 3, lipiec 2003, str. 3946. Sz. Grabowski,
A. Józwik, C.-H. Chen, Nearest neighbor decision
rule for pixel classification in remote sensing,
rozdzial monografii Frontiers of Remote Sensing
Info Processing, ed. S. Patt, World Scientific
Publishing Co. Pte. Ltd., Singapur, lipiec 2003.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
35
Czesc prac wykonywanych bylo w ramach grantu
NATOdotyczacego analizy zdjec lotniczych (remote
sensing). Kierownik prof. C.-H. Chen z
N.Dartmouth Coll., MA, USA,wspólwykonawcy dr A.
Józwik, Sz. Grabowski.
Fairhaven, czerwiec 2001
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
36
(No Transcript)
37
Teza II
Zgodnosc (consistency) zbioru zredukowanego z
oryginalnym zbiorem odniesienia (def.) poprawna
klasyfikacja wszystkich próbek z oryginalnego
zbioru.
Wiekszosc algorytmów redukcji gwarantuje zgodnosc
zbioru zredukowanego ze zbiorem oryginalnym. Czy
zgodnosc jest dobrym kryterium?
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
38
Teza I
Kilka faktów dotyczacych NNS
  • ponad 30 lat badan (sformulowanie problemu
    Minsky i Papert, 1969)
  • nadal daleko do satysfakcjonujacych algorytmów
  • niewiele algorytmów z subliniowym (w n) czasem
    szukania w najgorszym przypadku
  • przeklenstwo wymiarowosci (curse of
    dimensionality).

Przyblizone szukanie najblizszego
sasiada(Approximate Nearest Neighbor Search
(A-NNS))
pi jest ?-ANN dla q, jezeli
pj prawdziwy najblizszy sasiad q
?1 ? wersja oryginalna problemu (exact NNS)
Obiecujace wyniki Indyk i Motwani, 1998
Kushilevitz i in., 1998.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
39
Teza I
Wyniki testów, c.d.
Zbiór IRIS 4 wymiary, 150 próbek
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
40
Teza II
Prawdziwa inteligencja polega na tym, aby
wiedziec kiedy przestac myslec.
Zjawisko przeuczenia (overfitting)
Mozliwe hipotezy dla tego samego zbioru
Która plaszczyzne rozdzielajaca klasy zbioru
uczacego nalezy wybrac? Pojedyncza odstajaca od
pozostalych (ang. outlying) próbka ma znaczacy
wplyw na wyuczone granice decyzyjne. Plaszczyzna
(b) prawdopodobnie lepiej odpowiada rozkladowi
prawdopodobienstwa.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
41
Teza II
  • Spostrzezenia
  • najlepsza jakosc przy braku redukcji
  • slabe wyniki Harta i G-K (kryterium zgodnosci
    watpliwe)
  • modyfikacja Skalaka przydatna przy agresywnej
    redukcji
  • lokalny wybór zb. zred. poprawia jakosc
    zwlaszcza przy bardzo ostrych wymaganiach
    szybkosciowych
  • w schematach lokalnych mniejszy blad przy
    silniejszej redukcji (!).

Rdzenie ferrytowe licznosci zbiorówzredukowanych
i bledy klasyfikacji
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
42
Teza III
  • Schematy dekompozycji zadania wielodecyzyjnego
  • Józwik-Vernazza, 1988
  • Moreira-Mayoraz, 1998.

Zadanie c-decyzyjne, decyzja w wyniku glosowania
sieci dychotomizerów
Schemat Moreiry-Mayoraza (Correcting Classifiers)
w glosowaniu uczestnicza tylko
(przypuszczalnie) adekwatne klasyfikatory
skladowe.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
43
Teza III
Bledy () metod k-NN, k-NCN i k-NSN (100, 500
i 2500 iteracji) na zbiorach UCI
Odch. stand. () metod k-NN, k-NCN i k-NSN (100,
500 i 2500 iteracji) na zbiorach UCI
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
44
Teza III
sasiedzi k-NN
sasiedzi k-NCN
Dane ferrytowe. Srednia liczba najblizszych
sasiadów w obrebie promienia k-tego sasiada NCN,
k3..10.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
45
Teza III
  • Wnioski
  • k-NCN i k-NSN oferuja wyzsza jakosc klasyfikacji
    niz k-NN k-NSN srednio lepsza
  • dekompozycja zadania wielodecyzyjnego atrakcyjna
    technika poprawy jakosci (schemat M-M przewaznie
    lepszy)
  • warto uwzgledniac nie tylko bliskosc sasiadów,
    ale i ksztalt ich ukladu (koncepcja
    symetrycznego sasiedztwa).

Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
46
Teza III
  • Algorytm voting k-NN
  • Faza uczenia
  • podziel L-krotnie zbiór uczacy na losowe polowy
    w kazdym przypadku jedna polowa zbioru bedzie
    zbiorem konstrukcyjnym, zas druga
    walidacyjnym
  • znajdz optymalne wartosci ki, i1..L, dla
    kazdego zbioru konstrukcyjnego z estymacja
    bledu na odpowiednim zbiorze walidacyjnym.
  • Faza klasyfikacji
  • sklasyfikuj L-krotnie próbke testowa przy uzyciu
    reguly ki-NN, i1..L, i otrzymaj finalna
    decyzje w wyniku prostego glosowania.

Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
47
Teza III
  • Konkretne algorytmy
  • (5 Skalak) k-NCN
  • voting k-NN k-NCN
  • voting k-NN k-NSN
  • voting k-NN voting k-NCN
  • voting k-NN voting k-NSN.

Zaleta uzycia metody voting k-NN w pierwszej
fazie klasyfikatora kaskadowego
Próbka testowa q moze byc poprawnie przypisana do
klasy krzyzyków przez wszystkie klasyfikatory
skladowe ki-NN, o ile ki 3, i 1..L
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
48
Teza III
  • Konkretne algorytmy
  • (5 Skalak) k-NCN
  • voting k-NN k-NCN
  • voting k-NN k-NSN
  • voting k-NN voting k-NCN
  • voting k-NN voting k-NSN.

Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
49
  • Plany na przyszlosc (m. in.)
  • eksperymentowac z doborem parametrów dla
    schematu z lokalnym wyborem zbioru odniesienia
    (metoda klasteryzacji, liczba klastrów,
    wielkosc kazdego zbioru zredukowanego)
  • rozwazyc zmiane strategii uczenia w algorytmie
    Skalaka. Oryginalny algorytm genetyczny, z
    racji stosowania tylko jednego operatora
    genetycznego (mutacja), moze miec trudnosci z
    wyjsciem z lokalnego minimum
  • zmierzyc jakosc poszczególnych klasyfikatorów
    skladowych w klasyfikatorach k-NN, k-NCN i
    k-NSN (postrzeganych jako klasyfikatory
    równolegle), a takze korelacje miedzy nimi
  • zaimplementowac brakujace polaczenia
    opisywanych schematów z algorytmami
    dekompozycyjnymi dla zadan wielodecyzyjnych.
    Rozwazyc uzycie selekcji cech dla podzadan
  • przeanalizowac skutecznosc techniki voting k-NN
    przy róznych liczebnosciach zespolu
    komponentów i róznych metodach podzialu zbioru
    uczacego na czesc konstrukcyjna i walidacyjna.
    Wziac pod uwage mozliwy schemat z wazonym
    glosowaniem, np. w duchu idei Grossmana i
    Williamsa (1999) dla schematu bagging.

Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
50
Zbiory UCI Zbiory naleza do repozytorium
Uniwersytetu Kalifornijskiego w Irvine (Machine
Learning Repository, University of California,
Irvine) (Merz i Murphy, 1996) i sa powszechnie
wykorzystywane w literaturze przedmiotu.   Bupa
zbiór dotyczacy wykrywania schorzen watroby w
populacji meskiej zwiazanych z naduzywaniem
alkoholu. Piec pierwszych cech to wyniki testów
krwi, natomiast ostatnia cecha to liczba
jednostek alkoholu przyjmowanych srednio w ciagu
doby przez badanego mezczyzne.   Glass zbiór
próbek róznych rodzajów szkla (okienne,
samochodowe etc.), identyfikowanych na podstawie
zawartosci okreslonych pierwiastków chemicznych
(m. in. krzemu, sodu i wapnia). Zbiór
zgromadzony przez kryminologów z Home Office
Forensic Science Service w Reading w Wielkiej
Brytanii.   Iris zbiór próbek trzech
podgatunków kosacca, klasyfikowanych na podstawie
czterech geometrycznych cech (dlugosc i szerokosc
liscia oraz dlugosc i szerokosc platka rosliny).
Zbiór zostal spopularyzowany przez Fishera
(1936).
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
51
Zbiory UCI, c.d. Pima zbiór odnoszacy sie do
zadania rozpoznania symptomów cukrzycy w oparciu
o kryteria przyjete przez Swiatowa Organizacje
Zdrowia (WHO). Dane zostaly zgromadzone na
podstawie badan populacji Indianek z plemienia
Pima (okolice Phoenix w Arizonie, USA).   Wine
zbiór dotyczacy rozpoznania jednego z trzech
gatunków win wloskich na podstawie cech
wyekstrahowanych w wyniku analizy chemicznej.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
52
Inne zbiory Ferrites zbiór dotyczacy kontroli
jakosci rdzeni ferrytowych, które byly
produkowane w zakladach Polfer w Warszawie.
Obraz danego rdzenia analizowany byl piksel po
pikslu, a zatem obiektami tworzacymi zbiór sa
pojedyncze piksle obrazu powierzchni rdzenia.
Wyróznione klasy stwierdzaja, czy dany piksel
nalezy do dobrej (nieuszkodzonej) czesci rdzenia,
do tla, czy tez do jednego z szesciu rodzajów
defektów. Cechy opisujace kazdy
piksel wyekstrahowane sa z jego sasiedztwa
(histogram jasnosci i momenty róznych
stopni). Cechy zostaly dobrane w taki sposób, aby
ich wartosci w niewielkim tylko stopniu zmienialy
sie przy obrotach danego rdzenia ferrytowego.
Dokladny opis zbioru zawiera praca (Nieniewski i
in., 1999).
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
53
Inne zbiory, c.d. Remotes zbiór dotyczacy
detekcji obiektów (pól upraw) na zdjeciach
lotniczych wykonanych w rejonie Feltwell w
Wielkiej Brytanii. Rozrózniane klasy to pole
uprawne marchwi, ziemniaka, buraka cukrowego,
pszenicy oraz sciern. Cechy opisujace obiekty
pozyskiwane byly z dwóch sensorów optycznego i
radarowego. Zbiór ten opisany zostal bardziej
szczególowo w pracach (Roli, 1996) i (Grabowski
i in., 2003). Dane niniejsze wykorzystywane byly
w grancie NATO nr PST.CLG.977258 (20012002)
dotyczacym zastosowan nieparametrycznych metod
rozpoznawania obrazów w aplikacjach remote
sensing, którego kierownikiem byl prof. C.-H.
Chen z N. Dartmouth Coll., MA, USA, zas
wspólwykonawcami dr Adam Józwik i autor
niniejszej rozprawy.
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
54
Charakterystyka uzytych zbiorów danych
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
55
Realizacja funkcji XOR przy pomocy sieci
klasyfikatorów z prostym glosowaniem
Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
56
  • Podsumowanie i wnioski
  • W niskich wymiarach mozliwe jest szukanie
    najblizszego sasiada w czasie subliniowym w
    licznosci zbioru w najgorszym przypadku
    prezentowany algorytm dopuszcza uzycie
    wspólczynnika kompromisu miedzy szybkoscia
    szukania a kosztem wstepnej obróbki.
  • Lokalny wybór zredukowanego zbioru odniesienia
    oferuje wyzsza jakosc klasyfikacji niz
    klasyfikatory oparte na pojedynczym zbiorze
    zredukowanym (podejscie klasyczne).
  • Symetryczne sasiedztwo to nowy sposób poprawy
    jakosci w rodzinie klasyfikatorów
    minimalnoodleglosciowych. Zaprezentowana regula
    k-NSN optymalizuje oba kryteria uzywane w
    klasyfikatorze k-NCN.
  • Mozliwa jest wersja reguly k-NN z wieloma
    wartosciami k (wyzsza jakosc klasyfikacji za
    cene minimalnego spowolnienia).
  • Koncepcje z p. 3 i 4 pozwalaja na projektowanie
    klasyfikatorów kaskadowych o korzystnych
    relacjach szybkosci do jakosci klasyfikacji.

Sz. Grabowski, Konstrukcja klasyfikatorów
minimalnoodleglosciowych o strukturze sieciowej
57
a, b, c, d prawdopodobienstwa abcd 1
Wspólczynnik Yulea
Wspólczynnik korelacji
wg C.A.Shipp L.I.Kuncheva, Relationships
between combination methods and measures of
diversity in combining classifiers, Information
Fusion, Vol. 3, No. 2, str. 135148.
Write a Comment
User Comments (0)
About PowerShow.com