Slajd%201 - PowerPoint PPT Presentation

About This Presentation
Title:

Slajd%201

Description:

U yj tak e przekazanych przez nas plik w heart_disease.txt, iris.txt, diabets.txt, wine.txt. Dla ka dego z badanych plik w napisz program, ... – PowerPoint PPT presentation

Number of Views:113
Avg rating:3.0/5.0
Slides: 52
Provided by: edup70
Category:
Tags: diabets | slajd

less

Transcript and Presenter's Notes

Title: Slajd%201


1
(No Transcript)
2
Dwie metody
  • Klasyczna metoda histogramu jako narzedzie do
    postawienia hipotezy, jaki rozklad
    prawdopodobienstwa pasuje do danych
  • Indukcja drzewa decyzyjnego jako metoda wykrycia
    klasyfikatora ukrytego w danych trenujacych

3
Przyklad eksploracji danych o naturze
statystycznej
  • Próba 1 wartosci zmiennej losowej odleglosc
  • 21 5 36
    54 7 14 43 7 3 24
    22 41 56 2 10 39
    48 2 43 14
    36 29 49 8 42 35 23 35
    41 28 56 30 22
    9 46 15 58 28 21 56
    37 40 14 55 41 36
    23 55 53 52 69
    35 51 62 41 15 65 15 29
    26 60 29 22 70
    44 42 16 48 77 44
    29 22 28 41 48 3 54
    55 42 68 30 29
    11 46 17 69 68 4 76 28
    31 32 47 56 21
    55 36 52 48 83Czy mozna
    prognozowac procent odleglosci powyzej 40 km?
  • Próba 2 wartosci zmiennej losowej odleglosc
  • 51 8 47
    36 28 31 51 36 26 56
    3 11 74 21 56 30
    67 56 60 44 55
    39 42 22 14 39 3 48 23
    38 48 46 77 56
    26 6 42 22 48 70
    15 39 30 38 51 38 19
    15 43 59 55 38
    52 69 26 35 37 52 66 55
    27 44 21 58 55
    29 15 22 16 12
    36 48 37 29 67 22 35 28
    54 8 3 17 43
    31 28 30 36 9 65 2
    7 21 4 30 83
    29 14 47 36 50

4
Przyklad dyskretnej zmiennej losowej
  • Rzut kostka
  • k X ? 1, 2, 3, 4, 5, 6
  • Dla i? 1, 2, 3, 4, 5, 6
  • Pr(k i) 1/6

5
Drugi przyklad dyskretnej zmiennej losowej
  • Dzienna sprzedaz jednostek towaru x w pewnym
    sklepie.
  • sp X ? N0, 1, 2, . . .

6
Przyklad ciaglej zmiennej losowej
  • Odleglosc miejsca zamówienia taksówki od
    zajezdni.
  • od X ? R

7
Konstrukcja histogramu danych ciaglych
  • Posortuj dane.
  • Podziel posortowane dane na przedzialy (w
    przypadku 100 danych powszechna praktyka jest
    wziecie od 10 do 15 przedzialów) jeszcze
    bardziej powszechna praktyka jest branie takich
    przedzialów, ze przypada co najmniej od 5 do 8
    danych na przedzial. W naszym przypadku po prostu
    bierzemy przedzialy potencjalnie po 7 danych
    0,7) 7,14) 14,21) 21,28) 28,35) 35,42)
    42,49) 49,56) 56,63) 63,70) 70,77)
    77,84)
  • oblicz, ile danych wpada do pierwszego
    przedzialu
  • ile danych wpada do drugiego
    przedzialu
  • ile danych wpada do ostatniego przedzialu
  • to jest wlasnie histogram poczatkowy
  • laczymy przylegajace przedzialy, do których
    wpadlo mniej niz 5 danych i dostajemy wynikowy
    histogram.

8
Wynikowe histogramy
Nr. przedzialu lewy kraniec prawy kraniec) Liczba danych
0 0 7 6
1 7 14 7
2 14 21 8
3 21 28 11
4 28 35 13
5 35 42 15
6 42 49 14
7 49 56 11
8 56 63 7
9 63 70 5
10 70 77 2
11 77 84 2

9
Wynikowy histogram po zlaczeniu przedzialów
Nr. przedzialu lewy kraniec prawy kraniec) Liczba danych
0 0 7 6
1 7 14 7
2 14 21 8
3 21 28 11
4 28 35 13
5 35 42 15
6 42 49 14
7 49 56 11
8 56 63 7
9 63 999 9

10
Wykres slupkowy histogramu
  • 1 - przedzial 0,7)
    Pasujacy do danych rozklad
  • 2 - przedzial 7,14) itd. itd.
    prawdopodobienstwa to prawo
    ukryte w danych

11
Wykres gestosci standaryzowanego rozkladu
normalnego i interpretacja powierzchni pod krzywa
  • Cala powierzchnia pod krzywa 1 100
    z0.1787 standaryzowana wartosc 40-stu p
    prawdopodobienstwo, ze zmienna losowa przyjmie
    wartosc gt 40Wyliczone z tablic statystycznych p
    0.4291Prognoza procentu odleglosci gt 40 km
    42.9

12
Eksploracja danych o naturze kombinatorycznej
  • Drzewa decyzyjne

13
Przyklad 1
x n k klasyfikacja
1 8 16 1
2 10 20 1
3 6 11 0
4 6 12 1
5 5 3 0
6 4 7 0
7 11 22 1
8 20 6 0
9 9 18 1
10 45 90 1
11 1 2 1
12 5 10 1
13 8 5 0
14 8 4 0
15 4 8 1
16 12 24 ?
17 10 15 ?
.
.

14
Przyklad 2
x n k klasyfikacja
1 8 16 1
2 10 20 1
3 6 11 0
4 6 12 1
5 5 3 1
6 4 7 0
7 11 22 0
8 20 6 1
9 9 18 0
10 45 90 0
11 1 2 0
12 5 10 0
13 8 5 0
14 8 4 1
15 4 8 1
16 12 24 ?

15
Przyklad 3
x indeks Wartosc Klasyfikacja
1 1 15 Drugi
2 2 9 Pierwszy
3 3 4 Pierwszy
4 4 20 Trzeci
5 5 11 Pierwszy
6 6 15 Drugi
7 7 21 Trzeci
8 8 18 Trzeci
9 9 13 Pierwszy
10 10 17 Trzeci
11 11 2 Pierwszy
12 12 12 Pierwszy
13 13 14 Pierwszy
14 14 32 Trzeci
15 15 28 Trzeci
16 16 1 Pierwszy
17 17 10 Pierwszy
18 18 18 ?

16
Algorytm uczenia
  • wejscie pewien zbiór treningowy
    .
    .
    . dzialanie
    .
    . wyjscie
    hipoteza ogólnej klasyfikacji dowolnego
    przykladu do jednej z rozwazanych
    kategorii

17
Kolejny przyklad tabela stanów pogody
x aura temperatura wilgotnosc wiatr Klasyfikacja
1 sloneczna ciepla duza slaby 0
2 sloneczna ciepla duza silny 0
3 pochmurna ciepla duza slaby 1
4 deszczowa umiarkowana duza slaby 1
5 deszczowa zimna normalna slaby 1
6 deszczowa zimna normalna silny 0
7 pochmurna zimna normalna silny 1
8 sloneczna umiarkowana duza slaby 0
9 sloneczna zimna normalna slaby 1
10 deszczowa umiarkowana normalna slaby 1
11 sloneczna umiarkowana normalna silny 1
12 pochmurna umiarkowana duza silny 1
13 pochmurna ciepla normalna slaby 1
14 deszczowa umiarkowana duza silny 0
15 deszczowa ciepla duza slaby ?
18
Testy
  • ? sloneczna gdy
    atrybutem aura obiektu x jest sloneczna
    taura(x) ? pochmurna gdy atrybutem aura
    obiektu x jest pochmurna ?
    deszczowa gdy atrybutem aura obiektu x jest
    deszczowa
  • dostepne testy taura,
    ttemperatura, twilgotnosc, twiatr

19
Podzial zbioru treningowego przez test
  • Kazdy test generuje pewien podzial zbioru
    treningowego. Kazdy zbiór tego podzialu dzieli
    sie na elementy poszczególnych kategorii.
  • Dla testu taura otrzymujemy trzy podzialy
  • podzial obiektów x zbioru treningowego z
    atrybutem aura sloneczna na te zakwalifikowane
    do kategorii 0 i na te zakwalifikowane do
    kategorii 1
  • podzial obiektów x zbioru treningowego z
    atrybutem aura pochmurna na te zakwalifikowane
    do kategorii 0 i na te zakwalifikowane do
    kategorii 1
  • podzial obiektów x zbioru treningowego z
    atrybutem aura deszczowa na te zakwalifikowane
    do kategorii 0 i na te zakwalifikowane do
    kategorii 1

20
Entropia podzialu
  • E ?
    -pilog(pi)

  • i przebiegajace
    kategorie.
  • pi prawdopodobienstwo
    wylosowania elementu kategorii nr. i

21
Entropia podzialu rozpietego na skonczonym zbiorze
  • X A1?A2? . . . ?An
  • E ? -(Ai/X)
    log(Ai/X)
  • 1? i ? n
  • Ulamek Ai/X mozna interpretowac jako
    prawdopodobienstwo wylosowania elementu kategorii
    nr. i ze zbioru X.

22
Entropia testu wzgledem zbioru treningowego
  • Przyklad entropia testu taura ze wzgledu na
    nasz zbiór treningowy stanów pogody Dla testu
    taura dostajemy trzy podzialy
  • podzial obiektów x zbioru treningowego z
    atrybutem aura sloneczna na te zakwalifikowane
    do kategorii 0 i na te zakwalifikowane do
    kategorii 1,
  • podzial obiektów x zbioru treningowego z
    atrybutem aura pochmurna na te zakwalifikowane
    do kategorii 0 i na te zakwalifikowane do
    kategorii 1,
  • (c) podzial obiektów x zbioru treningowego z
    atrybutem aura deszczowa na te zakwalifikowane
    do kategorii 0 i na te zakwalifikowane do
    kategorii 1.

23
Entropia testu wzgledem zbioru treningowego
  • Entropia testu taura wzgledem zbioru treningowego
    stanów pogody to suma wazona
  • entropia podzialu (a)?stosunek licznosci
    zbioru na którym rozpiety jest podzial (a) do
    licznosci calego zbioru treningowego
  • entropia
    podzialu (b)?stosunek licznosci zbioru na którym
    rozpiety jest podzial (b) do licznosci calego
    zbioru treningowego
  • entropia
    podzialu (c)?stosunek licznosci zbioru na którym
    rozpiety jest podzial (c) do licznosci calego
    zbioru treningowego.

24
Przyklad

25
Przyklad drzewa decyzyjnego dla zbioru
treningowego stanów pogody
  • taura

1,2,3,4,5,6,7,8,9,10,11,12,13,14
deszczowa
sloneczna
pochmurna
1,2,8,9,11
3,7,12,13
4,5,6,10,14
twilgotnosc
1
twiatr
normalna
duza
slaby
silny
9,11
1,2,8
4,5,10
6,14
1
0
0
1
26
Idea algorytmu indukcji drzew decyzyjnych
  • buduj (T, S, k) jezeli T jest pusty to zwróc
    lisc z wpisana kategoria domniemana k w
    przeciwnym przypadku jezeli w T jest tylko
    jedna kategoria to zwróc lisc z wpisana ta jedyna
    w

  • T kategoria w
    przeciwnym przypadku jezeli S jest pusty to
    zwróc lisc z wpisana ta kategoria, która jest

    najliczniejsza w zbiorze T w przeciwnym
    przypadku // zbiory S i T sa niepuste
    zbudowanie wezla n i jego nastepników, zwrócenie
    zbudowanego wezla n jako wyniku funkcji buduj
    szczególy na nastepnym slajdzie

27
Zbudowanie wezla n i jego nastepników, zwrócenie
zbudowanego wezla n jako wyniku funkcji buduj
  • 1. utwórz kolejny wezel n
  • 2. ze zbioru S wybierz, wedle przyjetego
    kryterium wyboru testu, test t i wpisz go do
    utworzonego wezla n
  • 3. jako k przyjmij najliczniejsza w T
    kategorie
  • 4. oblicz zbiory treningowe T1, . . ., Tm na
    które test t dzieli zbiór treningowy T, gdzie m
    jest liczba mozliwych wartosci testu t
  • 5. dla wszystkich i 1, . . . ,m wykonaj
  • i-ty nastepnik wezla n buduj (Ti, S -
    t, k)//wolanie rekurencyjne


  • 6. zwróc wezel n jako wynik funkcji buduj

28
Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
29
Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
  • taura

1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
30
Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
  • taura

1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
sloneczna
T11,2,8,9,11, 0
buduj( T1, ttemperatura, twilgotnosc, twiatr, 0)
31
Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
  • taura

1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
sloneczna
T11,2,8,9,11, 0
twilgotnosc
normalna
T11 9,11
buduj(T11, ttemperatura, twiatr, 1)
32
Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
  • taura

1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
sloneczna
T11,2,8,9,11, 0
twilgotnosc
normalna
T11 9,11
1
33
Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
  • taura

1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
sloneczna
T11,2,8,9,11, 0
twilgotnosc
normalna
duza
T11 9,11
T121,2,8
1
buduj(T12, ttemperatura, twiatr, 0)
34
Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
  • taura

1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
sloneczna
T11,2,8,9,11, 0
twilgotnosc
normalna
duza
T11 9,11
T121,2,8
1
0
35
Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
  • taura

1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
sloneczna
pochmurna
T11,2,8,9,11, 0
T23,7,12,13
twilgotnosc
buduj(T2,ttemperatura, twilgotnosc, twiatr,1)
normalna
duza
T11 9,11
T121,2,8
1
0
36
Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
  • taura

1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
sloneczna
pochmurna
T11,2,8,9,11, 0
T23,7,12,13
twilgotnosc
1
normalna
duza
T11 9,11
T121,2,8
1
0
37
Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
  • taura

1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
deszczowa
sloneczna
pochmurna
T11,2,8,9,11, 0
T23,7,12,13
T34,5,6,10,14
twilgotnosc
1
normalna
duza
T11 9,11
T121,2,8
1
0
buduj(T3,ttemperatura,twilgotnosc, twiatr, 1)
38
Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
  • taura

1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
deszczowa
sloneczna
pochmurna
T11,2,8,9,11, 0
T23,7,12,13
T34,5,6,10,14
twilgotnosc
1
twiatr
normalna
duza
slaby
T11 9,11
T121,2,8
T314,5,10
1
0
buduj(T31,ttemperatura,twilgotnosc,1)
39
Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
  • taura

1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
deszczowa
sloneczna
pochmurna
T11,2,8,9,11, 0
T23,7,12,13
T34,5,6,10,14
twilgotnosc
1
twiatr
normalna
duza
slaby
T11 9,11
T121,2,8
T314,5,10
1
0
1
40
Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
  • taura

1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
deszczowa
sloneczna
pochmurna
T11,2,8,9,11, 0
T23,7,12,13
T34,5,6,10,14
twilgotnosc
1
twiatr
normalna
duza
slaby
silny
T11 9,11
T121,2,8
T314,5,10
T326,14
1
0
1
buduj(T32,ttemperatura, twilgotnosc,0)
41
Wykonanie algorytmu buduj na zbiorze treningowym
stanów pogody
  • taura

1,2,3,4,5,6,7,8,9,10,11,12,13,14, 1
deszczowa
sloneczna
pochmurna
T11,2,8,9,11, 0
T23,7,12,13
T34,5,6,10,14
twilgotnosc
1
twiatr
normalna
duza
slaby
silny
T11 9,11
T121,2,8
T314,5,10
T326,14
1
0
0
1
42
Podstawowe Pojecia
  • ? zbiór X przykladów zbiór wszystkich stanów
    pogody,
  • zbiór C kategorii pojecia ocena-pogody, C 0,
    1,
  • pojecie ocena-pogody X ? C ,
  • zbiór hipotez H równy zbiorowi funkcji h X ?
    C definiowalnych przez pewne drzewo decyzyjne
    dla przyjetego zbioru dostepnych testów,
  • blad hipotezy h wzgledem pojecia ocena-pogody
  • err(h, ocena-pogody) x?X h(x) ?
    ocena-pogody(x) / X

43
Formalne definicje
  • Formalne definicje testu, zbioru treningowego,
    entropii testu wzgledem zbioru treningowego
    podane sa w materialach dla sluchaczy.

44
Ocenianie bledu klasyfikatora walidacja krzyzowa
  • T pewien zbiór treningowy dla pojecia c
    T ? T - pewna czesc zbioru treningowego h
    klasyfikator obliczony ze zbioru treningowego T
    Szacunkowy blad klasyfikacji
  • zliczona liczba blednych klasyfikacji na
    elementach x z T T
  • --------------------------------------------
    --------------------------------------
    licznosc zbioru T
    T 1. Nalezy zalozyc, ze struktura ukryta w
    zbiorze treningowym T dla pojecia c dobrze
    przybliza strukture ukryta w calej przestrzeni X
    i w pojeciu c. Innymi slowy, zbiór T ma byc w
    stosownym sensie reprezentatywny dla przestrzeni
    X i pojecia c. 2. Zbiór T wybrany do walidacji
    krzyzowej powinien byc reprezentatywny dla zbioru
    T struktura ukryta w T powinna dobrze
    przyblizac strukture ukryta w T.

45
Nadmierne dopasowanie
  • Rozwazmy pojecie c N ? N ? 0, 1
  • ? 1 gdy k2n
    lub k2n1 c(n,k) ?
    ? 0 w przeciwnym przypadku.

46
Zbiór treningowy T dla pojecia c dla
zilustrowania nadmiernego dopasowania
x n k klasyfikacja
1 4 8 1
2 6 12 1
3 3 15 0
4 6 13 1
5 2 4 1
6 10 20 1
7 3 15 0
8 8 16 1
9 5 7 0
10 12 24 1
11 13 1 0
12 22 44 1
13 16 32 1
14 14 28 1
15 5 9 0
16 30 60 1
17 9 7 0
18 7 13 0
19 11 15 0
47
Dostepne testy
  • ? Tak gdy n, k sa
    parzyste t1(n,k) ?
    ? Nie w przeciwnym przypadku.
    ? Tak gdy n jest parzysta i k2n lub
    n jest nieparzysta t2(n,k) ?
    ? Nie w przeciwnym
    przypadku. ? Tak gdy n
    jest nieparzysta i k2n1 lub n jest parzysta
    t3(n,k) ? ? Nie
    w przeciwnym przypadku.Zbiór Tak, Nie to
    zbiór mozliwych wartosci testów t1, t2, t3.

48
Dwa klasyfikatory

t1
D1
Tak
Nie
1
0
t2
D2
Tak
Nie
t1
0
Nie
Tak
t3
1
Tak
Nie
1
0
49
Propozycja przeprowadzenia prostych badan
  • Sciagnij z http//archive.ics.uci.edu/ml/ pliki z
    oferowanymi tam zbiorami treningowymi. Uzyj takze
    przekazanych przez nas plików heart_disease.txt,
    iris.txt, diabets.txt, wine.txt.
  • Dla kazdego z badanych plików napisz program,
    który
  • 2.1. wczyta zbiór treningowy z pliku
  • 2.2. wsród zadeklarowanych funkcji programu beda
    funkcje reprezentujace zbiór S dostepnych testów
    na danych, stosownie do specyfiki konkretnego
    zbioru treningowego
  • 2.3. program obliczy drzewo decyzyjne z kryterium
    wyboru testu przez entropie i drzewo decyzyjne z
    kryterium losowego wyboru testu,
  • 2.4. zgodnie z metoda walidacji krzyzowej zostana
    obliczone prawdopodobienstwa blednej klasyfikacji
    dla jednego i drugiego drzewa i te
    prawdopodobienstwa zostana wyswietlone jako
    wyniki obliczen.

50
Niektóre pola zastosowan metod eksploracji danych
  • ? Automatyczna klasyfikacja plam
    slonecznych ? Wsparcie diagnostyki w
    medycynie ? Bankowosc i marketing ?
    Klasyfikacja danych biologicznych .
    . . i wiele innych

51
(No Transcript)
Write a Comment
User Comments (0)
About PowerShow.com