Title: Slajd%201
1(No Transcript)
2Dwie metody
- Klasyczna metoda histogramu jako narzedzie do
postawienia hipotezy, jaki rozklad
prawdopodobienstwa pasuje do danych - Indukcja drzewa decyzyjnego jako metoda wykrycia
klasyfikatora ukrytego w danych trenujacych
3Przyklad eksploracji danych o naturze
statystycznej
- Próba 1 wartosci zmiennej losowej odleglosc
- 21 5 36
54 7 14 43 7 3 24
22 41 56 2 10 39
48 2 43 14
36 29 49 8 42 35 23 35
41 28 56 30 22
9 46 15 58 28 21 56
37 40 14 55 41 36
23 55 53 52 69
35 51 62 41 15 65 15 29
26 60 29 22 70
44 42 16 48 77 44
29 22 28 41 48 3 54
55 42 68 30 29
11 46 17 69 68 4 76 28
31 32 47 56 21
55 36 52 48 83Czy mozna
prognozowac procent odleglosci powyzej 40 km? - Próba 2 wartosci zmiennej losowej odleglosc
- 51 8 47
36 28 31 51 36 26 56
3 11 74 21 56 30
67 56 60 44 55
39 42 22 14 39 3 48 23
38 48 46 77 56
26 6 42 22 48 70
15 39 30 38 51 38 19
15 43 59 55 38
52 69 26 35 37 52 66 55
27 44 21 58 55
29 15 22 16 12
36 48 37 29 67 22 35 28
54 8 3 17 43
31 28 30 36 9 65 2
7 21 4 30 83
29 14 47 36 50
4Przyklad dyskretnej zmiennej losowej
- Rzut kostka
- k X ? 1, 2, 3, 4, 5, 6
- Dla i? 1, 2, 3, 4, 5, 6
- Pr(k i) 1/6
5Drugi przyklad dyskretnej zmiennej losowej
- Dzienna sprzedaz jednostek towaru x w pewnym
sklepie. - sp X ? N0, 1, 2, . . .
6Przyklad ciaglej zmiennej losowej
- Odleglosc miejsca zamówienia taksówki od
zajezdni. - od X ? R
7Konstrukcja histogramu danych ciaglych
- Posortuj dane.
- Podziel posortowane dane na przedzialy (w
przypadku 100 danych powszechna praktyka jest
wziecie od 10 do 15 przedzialów) jeszcze
bardziej powszechna praktyka jest branie takich
przedzialów, ze przypada co najmniej od 5 do 8
danych na przedzial. W naszym przypadku po prostu
bierzemy przedzialy potencjalnie po 7 danych
0,7) 7,14) 14,21) 21,28) 28,35) 35,42)
42,49) 49,56) 56,63) 63,70) 70,77)
77,84) - oblicz, ile danych wpada do pierwszego
przedzialu - ile danych wpada do drugiego
przedzialu -
- ile danych wpada do ostatniego przedzialu
- to jest wlasnie histogram poczatkowy
- laczymy przylegajace przedzialy, do których
wpadlo mniej niz 5 danych i dostajemy wynikowy
histogram.
8Wynikowe histogramy
Nr. przedzialu lewy kraniec prawy kraniec) Liczba danych
0 0 7 6
1 7 14 7
2 14 21 8
3 21 28 11
4 28 35 13
5 35 42 15
6 42 49 14
7 49 56 11
8 56 63 7
9 63 70 5
10 70 77 2
11 77 84 2
9Wynikowy histogram po zlaczeniu przedzialów
Nr. przedzialu lewy kraniec prawy kraniec) Liczba danych
0 0 7 6
1 7 14 7
2 14 21 8
3 21 28 11
4 28 35 13
5 35 42 15
6 42 49 14
7 49 56 11
8 56 63 7
9 63 999 9
10Wykres slupkowy histogramu
- 1 - przedzial 0,7)
Pasujacy do danych rozklad - 2 - przedzial 7,14) itd. itd.
prawdopodobienstwa to prawo
ukryte w danych
11Wykres gestosci standaryzowanego rozkladu
normalnego i interpretacja powierzchni pod krzywa
- Cala powierzchnia pod krzywa 1 100
z0.1787 standaryzowana wartosc 40-stu p
prawdopodobienstwo, ze zmienna losowa przyjmie
wartosc gt 40Wyliczone z tablic statystycznych p
0.4291Prognoza procentu odleglosci gt 40 km
42.9
12Eksploracja danych o naturze kombinatorycznej
13Przyklad 1
x n k klasyfikacja
1 8 16 1
2 10 20 1
3 6 11 0
4 6 12 1
5 5 3 0
6 4 7 0
7 11 22 1
8 20 6 0
9 9 18 1
10 45 90 1
11 1 2 1
12 5 10 1
13 8 5 0
14 8 4 0
15 4 8 1
16 12 24 ?
17 10 15 ?
.
.
14Przyklad 2
x n k klasyfikacja
1 8 16 1
2 10 20 1
3 6 11 0
4 6 12 1
5 5 3 1
6 4 7 0
7 11 22 0
8 20 6 1
9 9 18 0
10 45 90 0
11 1 2 0
12 5 10 0
13 8 5 0
14 8 4 1
15 4 8 1
16 12 24 ?
15Przyklad 3
x indeks Wartosc Klasyfikacja
1 1 15 Drugi
2 2 9 Pierwszy
3 3 4 Pierwszy
4 4 20 Trzeci
5 5 11 Pierwszy
6 6 15 Drugi
7 7 21 Trzeci
8 8 18 Trzeci
9 9 13 Pierwszy
10 10 17 Trzeci
11 11 2 Pierwszy
12 12 12 Pierwszy
13 13 14 Pierwszy
14 14 32 Trzeci
15 15 28 Trzeci
16 16 1 Pierwszy
17 17 10 Pierwszy
18 18 18 ?
16Algorytm uczenia
-
- wejscie pewien zbiór treningowy
.
.
. dzialanie
.
. wyjscie
hipoteza ogólnej klasyfikacji dowolnego
przykladu do jednej z rozwazanych
kategorii
17Kolejny przyklad tabela stanów pogody
x aura temperatura wilgotnosc wiatr Klasyfikacja
1 sloneczna ciepla duza slaby 0
2 sloneczna ciepla duza silny 0
3 pochmurna ciepla duza slaby 1
4 deszczowa umiarkowana duza slaby 1
5 deszczowa zimna normalna slaby 1
6 deszczowa zimna normalna silny 0
7 pochmurna zimna normalna silny 1
8 sloneczna umiarkowana duza slaby 0
9 sloneczna zimna normalna slaby 1
10 deszczowa umiarkowana normalna slaby 1
11 sloneczna umiarkowana normalna silny 1
12 pochmurna umiarkowana duza silny 1
13 pochmurna ciepla normalna slaby 1
14 deszczowa umiarkowana duza silny 0
15 deszczowa ciepla duza slaby ?
18Testy
- ? sloneczna gdy
atrybutem aura obiektu x jest sloneczna
taura(x) ? pochmurna gdy atrybutem aura
obiektu x jest pochmurna ?
deszczowa gdy atrybutem aura obiektu x jest
deszczowa - dostepne testy taura,
ttemperatura, twilgotnosc, twiatr
19Podzial zbioru treningowego przez test
- Kazdy test generuje pewien podzial zbioru
treningowego. Kazdy zbiór tego podzialu dzieli
sie na elementy poszczególnych kategorii. - Dla testu taura otrzymujemy trzy podzialy
- podzial obiektów x zbioru treningowego z
atrybutem aura sloneczna na te zakwalifikowane
do kategorii 0 i na te zakwalifikowane do
kategorii 1 - podzial obiektów x zbioru treningowego z
atrybutem aura pochmurna na te zakwalifikowane
do kategorii 0 i na te zakwalifikowane do
kategorii 1 - podzial obiektów x zbioru treningowego z
atrybutem aura deszczowa na te zakwalifikowane
do kategorii 0 i na te zakwalifikowane do
kategorii 1
20Entropia podzialu
- E ?
-pilog(pi) -
i przebiegajace
kategorie. - pi prawdopodobienstwo
wylosowania elementu kategorii nr. i -
21Entropia podzialu rozpietego na skonczonym zbiorze
-
- X A1?A2? . . . ?An
- E ? -(Ai/X)
log(Ai/X) - 1? i ? n
- Ulamek Ai/X mozna interpretowac jako
prawdopodobienstwo wylosowania elementu kategorii
nr. i ze zbioru X.
22Entropia testu wzgledem zbioru treningowego
- Przyklad entropia testu taura ze wzgledu na
nasz zbiór treningowy stanów pogody Dla testu
taura dostajemy trzy podzialy - podzial obiektów x zbioru treningowego z
atrybutem aura sloneczna na te zakwalifikowane
do kategorii 0 i na te zakwalifikowane do
kategorii 1, - podzial obiektów x zbioru treningowego z
atrybutem aura pochmurna na te zakwalifikowane
do kategorii 0 i na te zakwalifikowane do
kategorii 1, - (c) podzial obiektów x zbioru treningowego z
atrybutem aura deszczowa na te zakwalifikowane
do kategorii 0 i na te zakwalifikowane do
kategorii 1.
23Entropia testu wzgledem zbioru treningowego
- Entropia testu taura wzgledem zbioru treningowego
stanów pogody to suma wazona - entropia podzialu (a)?stosunek licznosci
zbioru na którym rozpiety jest podzial (a) do
licznosci calego zbioru treningowego - entropia
podzialu (b)?stosunek licznosci zbioru na którym
rozpiety jest podzial (b) do licznosci calego
zbioru treningowego - entropia
podzialu (c)?stosunek licznosci zbioru na którym
rozpiety jest podzial (c) do licznosci calego
zbioru treningowego.
24 Przyklad
25Przyklad drzewa decyzyjnego dla zbioru
treningowego stanów pogody
1,2,3,4,5,6,7,8,9,10,11,12,13,14
deszczowa
sloneczna
pochmurna
1,2,8,9,11
3,7,12,13
4,5,6,10,14
twilgotnosc
1
twiatr
normalna
duza
slaby
silny
9,11
1,2,8
4,5,10
6,14
1
0
0
1
26Idea algorytmu indukcji drzew decyzyjnych
- buduj (T, S, k) jezeli T jest pusty to zwróc
lisc z wpisana kategoria domniemana k w
przeciwnym przypadku jezeli w T jest tylko
jedna kategoria to zwróc lisc z wpisana ta jedyna
w -
T kategoria w
przeciwnym przypadku jezeli S jest pusty to
zwróc lisc z wpisana ta kategoria, która jest
najliczniejsza w zbiorze T w przeciwnym
przypadku // zbiory S i T sa niepuste
zbudowanie wezla n i jego nastepników, zwrócenie
zbudowanego wezla n jako wyniku funkcji buduj
szczególy na nastepnym slajdzie
27Zbudowanie wezla n i jego nastepników, zwrócenie
zbudowanego wezla n jako wyniku funkcji buduj
- 1. utwórz kolejny wezel n
- 2. ze zbioru S wybierz, wedle przyjetego
kryterium wyboru testu, test t i wpisz go do
utworzonego wezla n - 3. jako k przyjmij najliczniejsza w T
kategorie - 4. oblicz zbiory treningowe T1, . . ., Tm na
które test t dzieli zbiór treningowy T, gdzie m
jest liczba mozliwych wartosci testu t - 5. dla wszystkich i 1, . . . ,m wykonaj
- i-ty nastepnik wezla n buduj (Ti, S -
t, k)//wolanie rekurencyjne
- 6. zwróc wezel n jako wynik funkcji buduj
-
28Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
29Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
30Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
sloneczna
T11,2,8,9,11, 0
buduj( T1, ttemperatura, twilgotnosc, twiatr, 0)
31Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
sloneczna
T11,2,8,9,11, 0
twilgotnosc
normalna
T11 9,11
buduj(T11, ttemperatura, twiatr, 1)
32Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
sloneczna
T11,2,8,9,11, 0
twilgotnosc
normalna
T11 9,11
1
33Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
sloneczna
T11,2,8,9,11, 0
twilgotnosc
normalna
duza
T11 9,11
T121,2,8
1
buduj(T12, ttemperatura, twiatr, 0)
34Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
sloneczna
T11,2,8,9,11, 0
twilgotnosc
normalna
duza
T11 9,11
T121,2,8
1
0
35Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
sloneczna
pochmurna
T11,2,8,9,11, 0
T23,7,12,13
twilgotnosc
buduj(T2,ttemperatura, twilgotnosc, twiatr,1)
normalna
duza
T11 9,11
T121,2,8
1
0
36Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
sloneczna
pochmurna
T11,2,8,9,11, 0
T23,7,12,13
twilgotnosc
1
normalna
duza
T11 9,11
T121,2,8
1
0
37Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
deszczowa
sloneczna
pochmurna
T11,2,8,9,11, 0
T23,7,12,13
T34,5,6,10,14
twilgotnosc
1
normalna
duza
T11 9,11
T121,2,8
1
0
buduj(T3,ttemperatura,twilgotnosc, twiatr, 1)
38Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
deszczowa
sloneczna
pochmurna
T11,2,8,9,11, 0
T23,7,12,13
T34,5,6,10,14
twilgotnosc
1
twiatr
normalna
duza
slaby
T11 9,11
T121,2,8
T314,5,10
1
0
buduj(T31,ttemperatura,twilgotnosc,1)
39Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
deszczowa
sloneczna
pochmurna
T11,2,8,9,11, 0
T23,7,12,13
T34,5,6,10,14
twilgotnosc
1
twiatr
normalna
duza
slaby
T11 9,11
T121,2,8
T314,5,10
1
0
1
40Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
deszczowa
sloneczna
pochmurna
T11,2,8,9,11, 0
T23,7,12,13
T34,5,6,10,14
twilgotnosc
1
twiatr
normalna
duza
slaby
silny
T11 9,11
T121,2,8
T314,5,10
T326,14
1
0
1
buduj(T32,ttemperatura, twilgotnosc,0)
41Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
deszczowa
sloneczna
pochmurna
T11,2,8,9,11, 0
T23,7,12,13
T34,5,6,10,14
twilgotnosc
1
twiatr
normalna
duza
slaby
silny
T11 9,11
T121,2,8
T314,5,10
T326,14
1
0
0
1
42Podstawowe Pojecia
- ? zbiór X przykladów zbiór wszystkich stanów
pogody, - zbiór C kategorii pojecia ocena-pogody, C 0,
1, - pojecie ocena-pogody X ? C ,
- zbiór hipotez H równy zbiorowi funkcji h X ?
C definiowalnych przez pewne drzewo decyzyjne
dla przyjetego zbioru dostepnych testów, - blad hipotezy h wzgledem pojecia ocena-pogody
- err(h, ocena-pogody) x?X h(x) ?
ocena-pogody(x) / X
43Formalne definicje
- Formalne definicje testu, zbioru treningowego,
entropii testu wzgledem zbioru treningowego
podane sa w materialach dla sluchaczy.
44Ocenianie bledu klasyfikatora walidacja krzyzowa
- T pewien zbiór treningowy dla pojecia c
T ? T - pewna czesc zbioru treningowego h
klasyfikator obliczony ze zbioru treningowego T
Szacunkowy blad klasyfikacji - zliczona liczba blednych klasyfikacji na
elementach x z T T - --------------------------------------------
--------------------------------------
licznosc zbioru T
T 1. Nalezy zalozyc, ze struktura ukryta w
zbiorze treningowym T dla pojecia c dobrze
przybliza strukture ukryta w calej przestrzeni X
i w pojeciu c. Innymi slowy, zbiór T ma byc w
stosownym sensie reprezentatywny dla przestrzeni
X i pojecia c. 2. Zbiór T wybrany do walidacji
krzyzowej powinien byc reprezentatywny dla zbioru
T struktura ukryta w T powinna dobrze
przyblizac strukture ukryta w T.
45Nadmierne dopasowanie
- Rozwazmy pojecie c N ? N ? 0, 1
- ? 1 gdy k2n
lub k2n1 c(n,k) ?
? 0 w przeciwnym przypadku.
46Zbiór treningowy T dla pojecia c dla
zilustrowania nadmiernego dopasowania
x n k klasyfikacja
1 4 8 1
2 6 12 1
3 3 15 0
4 6 13 1
5 2 4 1
6 10 20 1
7 3 15 0
8 8 16 1
9 5 7 0
10 12 24 1
11 13 1 0
12 22 44 1
13 16 32 1
14 14 28 1
15 5 9 0
16 30 60 1
17 9 7 0
18 7 13 0
19 11 15 0
47Dostepne testy
- ? Tak gdy n, k sa
parzyste t1(n,k) ?
? Nie w przeciwnym przypadku.
? Tak gdy n jest parzysta i k2n lub
n jest nieparzysta t2(n,k) ?
? Nie w przeciwnym
przypadku. ? Tak gdy n
jest nieparzysta i k2n1 lub n jest parzysta
t3(n,k) ? ? Nie
w przeciwnym przypadku.Zbiór Tak, Nie to
zbiór mozliwych wartosci testów t1, t2, t3.
48Dwa klasyfikatory
t1
D1
Tak
Nie
1
0
t2
D2
Tak
Nie
t1
0
Nie
Tak
t3
1
Tak
Nie
1
0
49Propozycja przeprowadzenia prostych badan
- Sciagnij z http//archive.ics.uci.edu/ml/ pliki z
oferowanymi tam zbiorami treningowymi. Uzyj takze
przekazanych przez nas plików heart_disease.txt,
iris.txt, diabets.txt, wine.txt. - Dla kazdego z badanych plików napisz program,
który - 2.1. wczyta zbiór treningowy z pliku
- 2.2. wsród zadeklarowanych funkcji programu beda
funkcje reprezentujace zbiór S dostepnych testów
na danych, stosownie do specyfiki konkretnego
zbioru treningowego - 2.3. program obliczy drzewo decyzyjne z kryterium
wyboru testu przez entropie i drzewo decyzyjne z
kryterium losowego wyboru testu, - 2.4. zgodnie z metoda walidacji krzyzowej zostana
obliczone prawdopodobienstwa blednej klasyfikacji
dla jednego i drugiego drzewa i te
prawdopodobienstwa zostana wyswietlone jako
wyniki obliczen.
50Niektóre pola zastosowan metod eksploracji danych
- ? Automatyczna klasyfikacja plam
slonecznych ? Wsparcie diagnostyki w
medycynie ? Bankowosc i marketing ?
Klasyfikacja danych biologicznych .
. . i wiele innych
51(No Transcript)