Wprowadzenie do budowy uslug informacyjnych - PowerPoint PPT Presentation

1 / 36
About This Presentation
Title:

Wprowadzenie do budowy uslug informacyjnych

Description:

W. Bartkiewicz Wprowadzenie do budowy us ug informacyjnych Wyk ad 5. Klasyfikacja dokument w tekstowych Filtrowanie, rekomendacja i kategoryzacja – PowerPoint PPT presentation

Number of Views:109
Avg rating:3.0/5.0
Slides: 37
Provided by: Witol1
Category:

less

Transcript and Presenter's Notes

Title: Wprowadzenie do budowy uslug informacyjnych


1
Wprowadzenie do budowy uslug informacyjnych
Uniwersytet Lódzki Katedra Informatyki
W. Bartkiewicz
Wyklad 5. Klasyfikacja dokumentów tekstowych
Filtrowanie, rekomendacja i kategoryzacja
2
Klasyfikacja dokumentów
  • Klasyfikacja dokumentów polega na przypisaniu
    kazdemu dokumentowi dj z danego zbioru
    dokumentów, jednej ze skonczonego zbioru
    ustalonych z góry kategorii (klas).
  • Tak wiec dla danego dokumentu dj reprezentowanego
    przez wektor cech (x1, ..., xn) chcemy znalezc
    odwzorowanie przypisujace mu jedna ze zbioru
    kategorii C c1, ..., cm.
  • Odwzorowanie f Rn ? (x1, ..., xn) ? cm ?C
    nazywamy klasyfikatorem, albo odwzorowaniem
    klasyfikacyjnym.
  • Do stworzenia odwzorowania klasyfikacyjnego
    niezbedne sa dodatkowe informacje. Zazwyczaj
    przyjmuja one jedna z dwu podstawowych form
  • Profil (prototyp klasy, centroid), zawierajacy
    typowe, charakterystyczne cechy odrózniajace dana
    kategorie od innych.
  • Zbiór przykladów dokumentów nalezacych do
    poszczególnych kategorii. (Moze posluzyc on
    bezposrednio do budowy odwzorowania
    klasyfikacyjnego, lub posrednio do wygenerowania
    profilu).

3
Klasyfikacja dokumentów
4
Klasyfikacja dokumentów
Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzen Obserwacja Planeta Podróz Rewolwerowiec Teleskop Kategoria
1,81 0 0 0,88 0 0 0 0,95 0 0 0,3 0 0 A
0 0 0 0,18 0 0 4,77 0 0 0 0,9 2,86 0 C
0 0 0,38 0 4,82 0 2,39 0 0,48 0 0 1,43 0 C
0 4,77 2,88 0 0 0,53 0 0 0,48 1,91 0 0 0,3 B
0,6 0,95 0 0,7 0 0,35 0 2,39 0 0 0 0 0 A
0 0 3,42 1,06 0 0,7 0 0 2,39 0 0,6 0 1,2 B
0 0,48 0,76 0 0 1,23 0 1,91 0 0 0 0 0,6 A
0 0 0 1,41 0 0,18 0 0 0,48 4,29 0,6 0 0 B
0 0 0 0 4,21 0 1,43 0 0 0,48 1,51 0,95 0 C
0 2,86 3,42 0,88 0 0,35 0 0 0 1,43 0 0 0,6 B
0 0 0 0,35 3,01 0,18 0 0 0 0 2,11 2,39 0,3 C
1,2 0 0 1,23 0 0,7 0,48 1,43 0 0 0 0 0,6 A
A - SF B Astronomia C - Western
5
Klasyfikacja dokumentówFiltrowanie i rekomendacja
  • Filtrowanie informacji jest procesem zblizonym do
    wyszukiwania.
  • W przypadku wyszukiwania mamy staly zasób
    informacyjny i wielu uzytkowników, wyrazajacych
    swoje rózne potrzeby informacyjne.
  • W przypadku filtrowania mamy do czynienia z
    jednym uzytkownikiem i stala potrzeba
    informacyjna, natomiast zmiennym zasobem
    informacji, czesto w postaci pewnego strumienia
    dokumentów.
  • Staly charakter potrzeby informacyjnej umozliwia
    zastosowanie w przypadku filtrowania metod
    personalizacji, pozwalajacej na dostosowanie
    procesu analizy dokumentu do potrzeb konkretnego
    uzytkownika.
  • Generalnie filtrowanie moze byc traktowane jako
    spersonalizowane wyszukiwanie informacji.
  • Typowe obszary zastosowan
  • Wyszukiwanie tematyczne w internecie, w którym
    system wyszukiwawczy analizuje zawartosc
    dokumentów webowych pod katem ich dostosowania
    lub nie do pewnego zadanego tematu.

6
Klasyfikacja dokumentówFiltrowanie i rekomendacja
  • Typowe obszary zastosowan
  • Filtrowanie spamu, polegajace na zaklasyfikowaniu
    dokumentu wiadomosci e-mail jako spamu lub jako
    wiadomosci uzytecznej dla uzytkownika.
  • Spersonalizowane czasopisma (filtrowanie
    wiadomosci) w których system ma za zadanie
    zaklasyfikowac dana wiadomosc jako interesujaca
    (relewantna) dla uzytkownika lub nie.
  • Rekomendacja stron webowych, w której system ma
    za zadanie przeanalizowac strony znajdujace sie w
    bazie dokumentów (np. katalogu towarów) tak, aby
    na bazie stron przejrzanych wczesniej przez
    uzytkownika zaproponowac nowe strony, które moga
    go równiez zainteresowac.
  • Priorytetowanie dokumentów e-mail, zaliczenie
    dokumentu do kategorii waznosci.
  • W przypadku filtrowania mamy zazwyczaj do
    czynienia z klasyfikacja dokumentu do jednej z
    dwu kategorii odpowiadajacy tematowi
    nieodpowiedni, uzyteczny spam, relewantny
    nierelewantny, itp.

7
Klasyfikacja dokumentówKatalogowanie
  • Kolejnym z typowych zastosowan klasyfikacji
    dokumentów sa katalogi tematyczne.
  • Klasyczna metoda porzadkowania informacji pod
    katem tematycznym.
  • Tradycyjnie proces katalogowania wykonywany jest
    przez ludzi.
  • Dobre wyniki jesli wykonuja to eksperci.
  • Model mentalny struktury katalogu eksperta nie
    zawsze musi byc zgodny z modelem uzytkownika.
  • Problemy spójnosci przy wiekszej grupie
    ekspertów.
  • Podejscie trudne i drogie w skalowaniu.
  • Obecnie coraz czesciej skalowalnosc staje sie
    problemem.
  • Katalogi elektroniczne moga przechowywac
    informacje nawet o dziesiatkach albo setkach
    tysiecy ofert produktów.
  • Koniecznosc oceny dokumentu przez czlowieka i
    zakwalifikowania go do okreslonej kategorii staje
    sie czesto waskim gardlem, opózniajacym
    dostarczenie aktualnej informacji o zawartosci
    katalogu.

8
Klasyfikacja dokumentówKatalogowanie
  • Zastosowanie systemów automatycznej klasyfikacji
    moze byc rozwiazaniem problemu skalowalnosci.
  • Klasyfikacja automatyczna pozwala równiez na
    zachowanie pewnego obiektywizmu w przydziale
    produktów do kategorii.
  • Typowe aplikacje
  • Katalogi biblioteczne, webowe (np. Yahoo),
    katalogi produktów itp.
  • Klasyfikacja tematyczna dokumentów mailowych,
    wiadomosci, itp.
  • Wizualizacja i przegladanie struktury tematycznej
    bazy dokumentów.
  • W procesie katalogowania dokument zaliczany jest
    zazwyczaj do jednej z kilku kilkudziesieciu
    kategorii tematycznych.

9
Klasyfikacja dokumentówIndeksowanie i
modyfikacja zapytan
  • Kolejny typ zastosowan zwiazany jest z
    ujednoznacznianiem slownictwa wykorzystywanego
    jednej strony do opisu dokumentu, z drugiej zas
    do specyfikacji zapytania.
  • System klasyfikujacy dokonuje klasyfikacji
    dokumentu na podstawie jego opisu w warstwie
    leksykalnej (np. slów zawartych w dokumencie) do
    zbioru jednoznacznych termów slownika
    kontrolowanego (pojec).
  • Równolegle do tej samej przestrzeni
    jednoznacznych termów klasyfikowane sa wykonywane
    w systemie wyszukiwawczym zapytania.
  • Wyszukiwanie odbywa sie poprzez wyznaczenie
    podobienstwa zapytania do dokumentów w
    przestrzeni pojec.
  • Wymiar przestrzeni kategorii C, do których
    klasyfikowane sa dokument i zapytanie, zazwyczaj
    jest w przypadku tego zadania bardzo duzy, rzedu
    kilkuset kilku tysiecy kategorii.

10
Klasyfikacja dokumentów Klasyfikacja oparta na
historii
Analiza danych historycznych powtarzana jest dla
kazdego nowo klasyfikowanego dokumentu
wartosc 11 wartosc 12 ... wartosc 1n A
wartosc 21 wartosc 22 ... wartosc 2n B
... ... ... ...
wartosc t1 wartosc t2 ... wartosc tn A
Analiza danych historycznych
Klasyfikacja (np. A)
Nowy dokument Nowy dokument Nowy dokument Nowy dokument Nowy dokument
wartosc 1 wartosc 1 ... wartosc n
11
Klasyfikacja dokumentów Klasyfikacja oparta na
modelu
wartosc 11 wartosc 12 ... wartosc 1n A
wartosc 21 wartosc 22 ... wartosc 2n B
... ... ... ...
wartosc t1 wartosc t2 ... wartosc tn A
Dane historyczne analizowane sa w trakcie uczenia
modelu. Podczas klasyfikacji przeliczany jest
tylko model
Uczenie
Model
Dane wejsciowe modelu
Klasyfikacja (np. A)
Nowy dokument Nowy dokument Nowy dokument Nowy dokument Nowy dokument
wartosc 1 wartosc 1 ... wartosc n
12
Klasyfikacja dokumentówMetoda najblizszego
sasiada
  • Klasyfikatory metoda najblizszych sasiadów sa
    typowymi przykladami klasyfikacji opartej na
    historii.
  • Nie ma fazy uczenia modelu. Klasyfikacja opiera
    sie na wykorzystaniu zbioru treningowego
    przykladów D.
  • Dla danego dokumentu d
  • Obliczamy podobienstwo d do kazdego z przykladów
    ze zbioru treningowego D.
  • Przypisujemy d kategorie do której nalezal
    najbardziej podobny przyklad ze zbioru D.
  • Wykorzystanie w procesie klasyfikacji wylacznie
    najblizszego egzemplarza przykladowego moze
    powodowac bledy
  • Powodowane przez pojedyncze nietypowe przyklady.
  • Powodowane przez szum, tj. bledy w przypisaniu
    kategorii niektórym egzemplarzom przykladowym.

13
Klasyfikacja dokumentówMetoda najblizszego
sasiada
Government
Science
Arts
14
Klasyfikacja dokumentówMetoda k najblizszych
sasiadów (kNN)
  • Dla danego dokumentu d
  • Obliczamy podobienstwo d do kazdego z przykladów
    ze zbioru treningowego D.
  • Wyszukujemy nastepnie k najbardziej podobnych
    przykladów treningowych (stad nazwa k
    najblizszych sasiadów) i analizujemy kategorie do
    których one naleza.
  • Nowemu dokumentowi d przypisujemy kategorie
    reprezentowana przez wiekszosc z tych k wybranych
    przykladów.
  • Alternatywnie mozemy przedstawic wynik
    klasyfikacji jako rozklad prawdopodobienstwa
    P(cd) i/k gdzie i jest liczba sposród k
    przykladów nalezacych co klasy c.
  • Wartosc k dobierana jest dla konkretnego
    przypadku. Najczesciej, aby uniknac remisów
    wybiera sie 3 lub 5.

15
Klasyfikacja dokumentów Metoda k najblizszych
sasiadów (kNN)
Government
Science
Arts
16
Klasyfikacja dokumentówMetoda k najblizszych
sasiadów (kNN)
  • Miary podobienstwa (lub odleglosci)
  • Dla ciaglych wielowymiarowych przestrzeni
    najprostszym wyborem jest euklidesowa miara
    odleglosci.
  • Dla wielowymiarowych przestrzeni binarnych
    najprostszym wyborem jest miara odleglosci
    Hamminga (liczba wartosci cech, które sie
    pokrywaja).
  • W przypadku tekstów najczesciej stosowana jest
    miara podobienstwa cosinusów i wagi tfidf.
  • kNN i indeksy odwrotne.
  • Okreslenie k najblizszych sasiadów polega na tum
    samym co znalezienie k dokumentów najblizszych do
    zapytania.
  • Najprosciej wiec wykorzystac do tego standardowe
    metody przetwarzania zapytania w indeksie
    odwrotnym dla modelu wektorowego.

17
Klasyfikacja dokumentów Metoda k najblizszych
sasiadów (kNN)
A - SF B Astronomia C - Western
Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzen Obserwacja Planeta Podróz Rewolwerowiec Teleskop Kategoria
1 0 0 1 0 0 0 1 0 0 1 0 0 A
0 0 0 1 0 0 1 0 0 0 1 1 0 C
0 0 1 0 1 0 1 0 1 0 0 1 0 C
0 1 1 0 0 1 0 0 1 1 0 0 1 B
1 1 0 1 0 1 0 1 0 0 0 0 0 A
0 0 1 1 0 1 0 0 1 0 1 0 1 B
0 1 1 0 0 1 0 1 0 0 0 0 1 A
0 0 0 1 0 1 0 0 1 1 1 0 0 B
0 0 0 0 1 0 1 0 0 1 1 1 0 C
0 1 1 1 0 1 0 0 0 1 0 0 1 B
0 0 0 1 1 1 0 0 0 0 1 1 1 C
1 0 0 1 0 1 1 1 0 0 0 0 1 A
3 0,61
2 0,41
1 0,18
3 0,50
4 0,73
4 0,67
4 0,73
3 0,55
1 0,18
4 0,67
3 0.50
3 0,50
0 1 1 1 0 1 0 1 0 0 1 0 0
18
Klasyfikacja dokumentówMetoda k najblizszych
sasiadów (kNN)
Ilustracja metody 3NN dla tekstu
Poniewaz 2 z 3 naleza do kategorii niebieski
wiec niebieski
19
Klasyfikacja dokumentówProfile Metoda Rocchio
  • Wykorzystywana w sprzezeniu relewancji metoda
    Rocchio jest równiez standardowa metoda
    generowania profilu kategorii na podstawie
    danych.
  • Opisy przykladowych dokumentów dla kazdej
    kategorii (dane treningowe) reprezentowane sa w
    formie standardowych wektorów tfidf.
  • Profil (prototyp) kazdej kategorii tworzony jest
    jako centroid (wektor srednich) z wektorów
    wszystkich egzemplarzy przykladowych nalezacych
    do danej kategorii.
  • Jesli w systemie uzywana jest dalej miara
    podobienstwa cosinusoidalnego (lub inna
    znormalizowana miara podobienstwa), to profil
    moze byc po prostu suma wektorów egzemplarzy z
    danej kategorii. Cosinus jest niewrazliwy na
    dlugosci wektorów.
  • Klasyfikacja nowego dokumentu odbywa sie na
    podstawie jego podobienstwa do profili kategorii.
  • Dokumentowi przypisywana jest kategoria, której
    profil jest najbardziej podobny do
    reprezentujacego go wektora.

20
Klasyfikacja dokumentów Profile Metoda Rocchio
Poniewaz najblizszy profil nalezy do kategorii
niebieski wiec niebieski
21
Klasyfikacja dokumentów Profile Metoda Rocchio
Metody oparte na profilach maja problem z
kategoriami polimorficznymi (dyzjunkcyjnymi)
22
Klasyfikacja dokumentów Profile Metoda Rocchio
Metoda kNN radzi sobie z klasami
dyzjunkcyjnymi duzo lepiej
23
Klasyfikacja dokumentów Naiwny klasyfikator
Bayesowski
  • Naiwny klasyfikator Bayesowski jest przykladem
    klasyfikacji opartej na modelu.
  • W klasyfikatorach Bayesowskich tworzymy model,
    który dla danego wzorca x, opisujacego dany
    dokument stara sie oszacowac prawdopodobienstwo
    Pr(C/x), przynaleznosci tego wzorca do okreslonej
    klasy C.
  • Bezposrednie oszacowanie Pr(C/x) jest trudne,
    poniewaz x jest wektorem o wielu wymiarach. Aby
    oszacowac rozklad prawdopodobienstwa w
    wielowymiarowej przestrzeni, niezbedne sa
    olbrzymie ilosci danych, pokrywajace cala
    rozwazana przestrzen.

24
Klasyfikacja dokumentów Naiwny klasyfikator
Bayesowski
  • W naiwnym klasyfikatorze Bayesowskim zakladamy,
    ze poszczególne cechy opisujace produkt sa
    niezalezne. Dla zdarzen niezaleznych
    prawdopodobienstwo iloczynu zdarzen równe jest
    iloczynowi ich prawdopodobienstw.
  • Jest to zalozenie upraszczajace. W praktyce np.
    rózne slowa kluczowe w opisie dokumentu w duzej
    czesci beda od siebie zalezne. Dlatego wyniki
    dzialania klasyfikatora naiwnego musza byc zawsze
    zweryfikowane empirycznie.
  • Tym niemniej w praktycznych zastosowaniach model
    ten osiaga calkiem zadowalajace wyniki. Jego
    prostota obliczeniowa i szybkosc dzialania
    powoduje, ze jest to jedno z najczesciej
    wykorzystywanych podejsc do klasyfikacji
    dokumentów.

25
Klasyfikacja dokumentów Naiwny klasyfikator
Bayesowski
  • Prawdopodobienstwa wystepujace w tym modelu moga
    byc latwo wyznaczone na podstawie arkusza danych,
    zawierajacego informacje o slowach kluczowych w
    przykladowych wzorcach dokumentów
  • Prawdopodobienstwo, ze dla danej klasy C, slowo
    kluczowe xj wystepuje w opisie dokumentu
    Pr(xj1/C) liczba_dok(xj1, C) / liczba_dok(C).
  • Prawdopodobienstwo, ze dla danej klasy C, slowo
    kluczowe xj nie wystepuje w opisie dokumentu
    Pr(xj0/C) 1 Pr(xj1/C).
  • Prawdopodobienstwo Pr(C) liczba_dok(C) / liczba
    dokumentów.
  • Poniewaz chcemy porównywac prawdopodobienstwa
    Pr(C/x) dla kolejnych klas C, wiec Pr(x) jako
    takie samo dla wszystkich klas mozemy pominac.
    Mozemy je równiez policzyc ze wzoru na
    prawdopodobienstwo calkowite

26
Klasyfikacja dokumentów Naiwny klasyfikator
Bayesowski
Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzen Obserwacja Planeta Podróz Rewolwerowiec Teleskop Kategoria
1 0 0 1 0 0 0 1 0 0 1 0 0 A
0 0 0 1 0 0 1 0 0 0 1 1 0 C
0 0 1 0 1 0 1 0 1 0 0 1 0 C
0 1 1 0 0 0 0 1 1 1 0 0 1 B
1 1 0 1 0 1 0 1 0 0 0 0 0 A
0 0 1 1 0 1 0 0 1 0 1 0 1 B
0 1 1 0 0 1 0 1 0 0 0 0 1 A
0 0 0 1 0 1 0 0 1 1 1 0 0 B
0 0 0 0 1 0 1 0 0 1 1 1 0 C
0 1 1 1 0 1 0 0 0 1 0 0 1 B
0 0 0 1 1 1 0 0 0 0 1 0 1 C
1 0 0 1 0 1 1 0 0 0 0 0 1 A
A - SF B Astronomia C - Western
3 2 1 3 0 3 1 3 0 0 1 0 2 4 A
0 2 3 3 0 3 0 1 3 3 2 0 3 4 B
0 0 1 2 3 1 3 0 1 1 3 3 1 4 C
27
Klasyfikacja dokumentów Naiwny klasyfikator
Bayesowski
Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzen Obserwacja Planeta Podróz Rewolwerowiec Teleskop Kategoria
1 0 0 1 0 0 0 1 0 0 1 0 0 A
0 0 0 1 0 0 1 0 0 0 1 1 0 C
0 0 1 0 1 0 1 0 1 0 0 1 0 C
0 1 1 0 0 0 0 1 1 1 0 0 1 B
1 1 0 1 0 1 0 1 0 0 0 0 0 A
0 0 1 1 0 1 0 0 1 0 1 0 1 B
0 1 1 0 0 1 0 1 0 0 0 0 1 A
0 0 0 1 0 1 0 0 1 1 1 0 0 B
0 0 0 0 1 0 1 0 0 1 1 1 0 C
0 1 1 1 0 1 0 0 0 1 0 0 1 B
0 0 0 1 1 1 0 0 0 0 1 0 1 C
1 0 0 1 0 1 1 0 0 0 0 0 1 A
A - SF B Astronomia C - Western
0,75 0,5 0,25 0,75 0 0,75 0,25 0,75 0 0 0,25 0 0,5 0,33 A
0 0,5 0,75 0,75 0 0,75 0 0,25 0,75 0,75 0,5 0 0,75 0,33 B
0 0 0,25 0,5 0,75 0,25 0,75 0 0,25 0,25 0,75 0,75 0,25 0,33 C
28
Klasyfikacja dokumentów Naiwny klasyfikator
Bayesowski
Blaster Czarna dziura Grawitacja Gwiazda Indianie Kosmos Kowboj Nadprzestrzen Obserwacja Planeta Podróz Rewolwerowiec Teleskop
0,75 0,5 0,25 0,75 0 0,75 0,25 0,75 0 0 0,25 0 0,5 0,33 A
0 0,5 0,75 0,75 0 0,75 0 0,25 0,75 0,75 0,5 0 0,75 0,33 B
0 0 0,25 0,5 0,75 0,25 0,75 0 0,25 0,25 0,75 0,75 0,25 0,33 C
A - SF B Astronomia C - Western
0 1 1 1 0 1 0 1 0 0 1 0 0
  • Pr(A/x)((1-0,75)0,50,250,75(1-0)0,75(1-0,25
    )0,75(1-0)(1-0)0,25(1-0)(1-0,5))0,33 /
    Pr(x) 0,00041 / Pr(x)
  • Pr(B/x)((1-0)0,50,750,75(1-0)0,75(1-0)0,25
    (1-0,75)(1-0,75)0,5(1-0)(1-0,75))0,33 /
    Pr(x) 0,00014 / Pr(x)
  • Pr(C/x)00,33 / Pr(x) 0 / Pr(x)
  • Pr(x) 0,000410,000140 0,00055
  • Pr(A/x)0,75 Pr(B/x)0,25 Pr(C/x)0

29
Klasyfikacja dokumentówNaiwny Bayes praktyczne
korekty
  • Wygladzenie prawdopodobienstw
  • Normalnie prawdopodobienstwa liczone sa jako
    czestosci
  • Pr(xj1/C) liczba_dok(xj1, C) /
    liczba_dok(C).
  • Jednakze takie oszacowanie moze byc silnie
    obciazone dla malych prób, a zwlaszcza w
    przypadku termów o niskiej czestosci dokumentu
    df.
  • Jesli rzadki term t nie wystepuje akurat w
    zbiorze dokumentów treningowych, to Pr(t1/C)
    0. Jesli wystapi on nastepnie w opisie dokumentu
    , to Pr(C/x) 0 dla kazdej klasy niezaleznie od
    innych termów (bo mnozenie przez 0 daje 0).
  • Dlatego aby uwzglednic kwestie wystepowania
    rzadkich termów, zazwyczaj stosuje sie tzw.
    wygladzanie Laplacea oszacowan
    prawdopodobienstw
  • Pr(xj1/C) (liczba_dok(xj1, C) 1) /
    (liczba_dok(C)k).
  • gdzie k jest liczba kategorii wartosci cechy xj
    (dla binarnych k2).
  • Mnozenie prawdopodobienstw, które sa malymi
    liczbami (miedzy 0 i 1) moze skutkowac bledami
    zmiennopozycyjnymi.
  • Podstawa klasyfikacji moze byc równiez
    log(Pr(C/x)), co pozwala zastapic te operacje
    sumowaniem logarytmów prawdopodobienstw
    log(Pr(xj1/C)).

30
Klasyfikacja dokumentów Inne typy modeli
klasyfikacyjnych
  • Klasyfikatory logiczne (drzewa (reguly)
    decyzyjne)
  • Wewnetrzne wezly odpowiadaja poszczególnym
    termom.
  • Galezie odpowiadaja róznym wartosciom wag termów
    (zazwyczaj binarne).
  • Liscie odpowiadaja kategoriom.
  • Uzyskiwane zazwyczaj na drodze uczenia
    indukcyjnego drzew (np. algorytm C4.5).
  • Sieci neuronowe.
  • Liniowe sieci perceptronowe.
  • Warstwowe perceptrony (MLP).
  • Sieci o bazie radialnej (RBF).
  • Support Vector Machines (SVM).

31
Klasyfikacja dokumentówKlasyfikatory liniowe i
nieliniowe
  • Klasyfikatory liniowe
  • Naiwny Bayes,
  • Rocchio,
  • Liniowe perceptrony,
  • Liniowe SVM
  • Klasyfikatory nieliniowe
  • kNN,
  • Drzewa decyzyjne,
  • Nieliniowe sieci neuronowe
  • (MLP, RBF, nieliniowe SVM).
  • Klasyfikatory liniowe tekstów radza sobie
    zaskakujaco dobrze.
  • Olbrzymi rozmiar przestrzeni wejsciowej, duzo
    wiekszy niz liczba danych treningowych oznacza
    to, ze zawsze istnieja hiperplaszczyzny
    rozdzielajace dowolne podzbiory danych dla
    kategorii.
  • Nie znaczy to jednak oczywiscie, ze
    hiperplaszczyzna jest najlepszym rozwiazaniem.

32
Klasyfikacja dokumentówKlasyfikatory liniowe
Znajdz a,b,c, takie ze ax by ? c dla
czerwonych punktów ax by ? c dla zielonych
punktów.
33
Klasyfikacja dokumentówKlasyfikatory liniowe
Generalnie wiele mozliwych rozwiazan dla a,b,c.
34
Klasyfikacja dokumentówSupport Vector Machines
(SVM)
  • SVM maksymalizuja margines wokól hiperplaszczyzny
    rozdzielajacej.
  • Dlatego naleza do grupy tzw. klasyfikatorów
    duzego marginesu (large margin classifiers).
  • Funkcja decyzyjna jest definiowana przez podzbiór
    zbioru treningowego, tzw. wektory wspierajace.
  • Wektorami wspierajacymi sa przyklady najblizsze
    hiperplaszczyzny rozdzielajacej
  • Okresla sie je z wykorzystaniem metod
    programowania kwadratowego.
  • SVM sa uwazane obecnie za najlepsza metode
    klasyfikacji tekstów.
  • Stosuje sie równiez nieliniowe wersje SVM,
    wykorzystujace róznego typu funkcje jadra.

35
Klasyfikacja dokumentówPorównanie, Reuters
(Dumais et al. 1998)
36
Klasyfikacja dokumentówPorównanie, Reuters
(Joachims 1998)
Write a Comment
User Comments (0)
About PowerShow.com