Bayesovo ucenje - PowerPoint PPT Presentation

About This Presentation
Title:

Bayesovo ucenje

Description:

Bayesovo u enje Slideove pripremio: S. Pavlek – PowerPoint PPT presentation

Number of Views:130
Avg rating:3.0/5.0
Slides: 36
Provided by: stude2727
Category:
Tags: bayesovo | sada | ucenje

less

Transcript and Presenter's Notes

Title: Bayesovo ucenje


1
Bayesovo ucenje
  • Slideove pripremio S. Pavlek

2
Uvod što je Bayesovo ucenje
  • dodjeljivanje vjerojatnosti pojedinim hipotezama
  • kvantitativno vaganje dokaza koji podržavaju
    razlicite hipoteze
  • predmet zanimanja
  • algoritmi koji manipuliraju vjerojatnostima
  • analiza rada algoritama koji ne manipuliraju
    direktno vjerojatnostima

3
Uvod neka pitanja o kojima cemo danas govoriti
  • MDL (Minimum Description Length) princip zašto
    algoritmi za stabla odlucivanja favoriziraju
    kraca stabla
  • optimalni Bayesov klasifikator teorijski
    optimalna metoda klasifikacije
  • jednostavni Bayesov klasifikator po efikasnosti
    usporediv s neuronskim mrežama i stablom
    odlucivanja

4
Uvod svojstva Bayesovih algoritama
  • povecavanje i smanjivanje vjerojatnosti hipoteze
    umjesto izbacivanja hipoteze
  • prethodno znanje se kombinira sa podacima
  • moguce hipoteze koje daju ocjenu vjerojatnosti
  • npr. vjerojatnost da pacijent ima ima upalu
    pluca je 73
  • klasifikacija pojedinog primjera na temelju više
    hipoteza

5
Uvod teškoce u primjeni
  • Bayesovi algoritmi zahtijevaju inicijalno znanje
    mnogih vjerojatnosti
  • racunska zahtjevnost koja znatno ogranicava
    primjenu
  • cak i u ovom slucaju mogu se koristiti kao
    standard za ocjenu uspješnosti drugih algoritama!

6
Sadržaj
  • Bayesov teorem
  • Bayesov teorem i ucenje koncepata
  • direktna primjena
  • Najveca vjerojatnost i min. kvadrat pogreške
  • Princip najkraceg opisa (Occamova britva)
  • Bayesov optimalni klasifikator
  • Jednostavni Bayesov klasifikator

7
Bayesov teorem
  • jedan od osnovnih teorema teorije vjerojatnosti
  • h hipoteza is skupa svih hipoteza H
  • skup H je disjunktan i potpun
  • A je dogadaj

h1
h2
...
hn
A
8
Bayesov teorem - primjer
  • Primjer
  • H h1(iz Skandinavije), h2(iz ostatka
    Europe)
  • P(h1) 0,048 P(h2) 0,952
  • A osoba je plava P(A) 0,1
  • u Skandinaviji su gotovo svi plavi P(Ah1) 0,85
  • P(h1A) je a posteriori vjerojatnost hipoteze h1

9
Bayesov teorem i ucenje koncepata uvod
  • Odredivanje najbolje hipoteze iz H ako je dano D.
    Najbolja u BU znaci- najvjerojatnija za dani D
    prethodna znanja!
  • izracunavanje vjerojatnosti hipoteze iz
  • pocetne (pretpostavljene, a priori) vjerojatnosti
  • vjerojatnosti pojavljivanja podatka uz uvjet da
    vrijedi hipoteza
  • vjerojatnosti pojavljivanja samih podatka

10
Bayesov teorem i ucenje koncepata definicija
  • skup H prostor svih mogucih hipoteza
  • P(h) a priori vjerojatnost neke hipoteze iz H
  • P(D) a priori vjerojatnost pojavljivanja
    primjera za ucenje D
  • P(Dh) vjerojatnost pojavljivanja D ako
    hipoteza h vrijedi
  • P(hD) vjerojatnost da vrijedi hipoteza h ako
    je dan D!!!

11
Bayesov teorem i ucenje koncepata MAP
  • MAP hipoteza Maximum A Posteriori je ona
    hipoteza za koju je P(hD) najveci za predocene
    podatke D (pišemo hMAP)
  • Na temelju Bayesovog teorema
  • hMAP maxh?H P(hD) maxh?H P(Dh) P(h)
  • P(D) izostavljen, jer je konst.

12
Maksimalna vjerodostojnost(maximum likelihood ML)
  • U sluceju kada su sve hipoteze ih h jednako
    vjerojatne, dalje pojednostavljujemo
  • hMAP max h?HP(hD) maxh?H P(Dh)
  • vjerodostojnost
  • hML maxh?H P(Dh)

13
Bayesov teorem i ucenje koncepata primjer
  • Ima li pacijent odredenu vrstu raka?
  • H h1 (rak), h2 (-rak)
  • P(rak) 0,008 P(-rak) 0,992
  • test na rak nije savršen test je pozitivan u
    98 slucajeva kad je rak prisutan, negativnan je
    u 97 kada ga nema
  • P( test rak) 0,98 P( test- rak) 0,02
  • P( test- -rak) 0,97 P( test -rak) 0,03
  • Test je pozitivan. Ima li osoba rak?

14
Bayesov teorem i ucenje koncepata primjer
  • P( rak test ) i P( -rak test) ?
  • P( rak test ) P( test rak) P(rak)
  • P( -rak test ) P( test -rak) P(-rak)
  • racunamo
  • P( rak test ) 0,98 0,008 0,0078
  • P( -rak test ) 0,03 0,992 0,0298
  • Zakljucujemo da je druga hipoteza hMAP -rak
    bolja!
  • velika razlika u a priori vrijednostima hipoteza!

15
Primjer
  • Za tocne vjerojatnosti treba znati P(D) tj.
    P(test), što nemamo pa je dovoljno normalizirati
    dobivene vjerojatnosti jer njihova suma mora biti
    1
  • P(raktest) 0.0078/(0.00780.0298) 0.21
  • P(rak-test) 0.0298/(0.00780.0298) 0.79
  • još uvijek možemo s velikom vjerojatnošcu tvrditi
    da osoba nema rak!
  • Uoci hipoteze se ne odbacuju - vjerojatnost se
    smanjuje ili povecava

16
Direktna primjena BTna ucenje koncepata
  • Pretpostavke
  • Primjeri za ucenje D ne sadrže šum
  • Ciljni koncept je sadržan u prostoru hipoteza H
  • Sve su hipoteze jednako vjerojatne
  • P(h) 1/H za svaki h iz H
  • - zbog (3) i jer im suma mora biti jednaka
    jedinici
  • P(Dh) 1 za dih(xi) za sve di u D
  • 0 inace
  • - zbog (1)
  • P(D) 1/VSH,D ako je h konzistentna sa D
  • 0 inace

17
Direktna primjena BTna ucenje koncepata
  • A posteriori vjerojatnost je dakle
  • P(hD) 1/VSH,D ako je h konzistentna s D
  • 0 inace
  • Gore korištena vrijednost za P(D) dobiva se iz
    teorema totalne vjerojatnosti i pretpostavke da
    su hipoteze medusobno iskljucive

18
  • Hipoteze konzistentne s primjerima za ucenje
    0ltPilt1, PiPj
  • nekonzistentne Pi0
  • Algoritam uz gornje pretpostavke na P(h) i P(Dh)
    daje kao rezultat prostor inacica VSH,D
  • isti rezultat kao i CE algoritam za ucenje
    koncepata
  • Uz pretpostavku distribucije koja favorizira
    specificnije hipoteze nad opcenitijima (tj
    p(hi)gtp(hj) za hilthj), algoritam daje
    najspecificniju hipotezu konzistentnu s
    primjerima za ucenje
  • isto kao i FS algoritam
  • Bayesovim algoritmom može se opisati rad
    algoritama za ucenje, a odabirom P(h) i P(Dh)
    mogu se opisati pretpostavke o traženom konceptu
    koje ti algoritmi implicitno sadrže

19
(No Transcript)
20
Najveca vjerojatnost i minimalni kvadrat pogreške
  • problem ucenja kontinuirane funkcije
  • alternative neuronske mreže, linearna regresija
  • Bayesova analiza pokazuje da svaki algoritam koji
    minimizira kvadrat pogreške izmedu predvidanja
    hipoteze i podataka za ucenje daje hipotezu s
    najvecom vjerojatnošcu
  • takvu hipotezu zovemo Maximum Likelihood, pišemo
    hML

21
Najveca vjerojatnost i minimalni kvadrat pogreške
  • ML MAP ako vrijedi unif. razd. za P(h)
  • hML max P(Dh) ... min å (di h(xi))2
  • ... T. Mitchell Machine learning, page 165 - 167

22
Princip najkraceg opisa (Minimum Description
Length)
  • nacelo blisko nacelu Occamove britve
  • poslužit cemo se konceptima iz teorije
    informacija
  • hMAP možemo prikazati logaritamski
  • hMAP max P(Dh)P(h) max log2 P(Dh) log2
    P(h)
  • ekvivalentno hMAP min - log2 P(Dh) - log2
    P(h)
  • TINF
  • ako imamo poruke i, s vjerojatnošcu pojavljivanja
    pi
  • najkompaktniji kod dodjeljuje log2 pi,bita svakoj
    poruci

23
Princip najkraceg opisa (Minimum Description
Length)
  • log2 P(h) duljina optimalnog opisa h
  • log2 P(Dh) duljina klasifikacija D uz uvjet h
  • hMDL je hipoteza h koja minimizira zbroj duljine
    opisa hipoteze opis podataka

24
Princip najkraceg opisa primjer
  • primjenimo MDL princip na na problem ucenja
    stabla odlucivanja
  • pretpostavimo da su instance vec poznate i
    pošiljatelju i primatelju trebamo samo
    prenijeti klasifikacije
  • ako su klasifikacije jednake predvidanjima
    trebamo prenijeti samo hipotezu!
  • ako hipoteza pogrešno klasificira neke primjere
    njih je potrebno posebno prenijeti kao iznimke

25
Princip najkraceg opisa primjer
  • hipoteza hMDL minimizira ovaj zbroj
  • mogucnost balansiranja izmedu kompleksnosti
    hipoteze i broja grešaka koje hipoteza cini
  • moguca metoda za rješavanje problema
    petreniranosti
  • dokazuje li ovo jednom za uvijek da su krace
    hipoteze bolje?
  • Ne. Pokazano je samo da ako su izabrani optimalni
    prikazi hipoteze i iznimaka MDL nacelo proizvodi
    MAP hipoteze

26
Bayesov optimalni klasifikator
  • do sada smo tražili odgovor na pitanje
  • koja je najvjerojatnija hipoteza?
  • no, cesto nas zanima odgovor na pitanje
  • koja je najvjerojatnija klasifikacija novog
    primjera?
  • na drugo pitanje možemo odgovoriti tako da
    primjenimo MAP hipotezu na novom primjeru
  • ali možemo i bolje!
  • zamislimo sustav sa 3 hipoteze cije su a
    posteriori vjerojatnosti 0,4 0,3 0,3
  • prva hipoteza je MAP hipoteza

27
Bayesov optimalni klasifikator primjer
  • pretpostavimo novi primjer x koji h1 klasificira
    pozitivno, ali h2 i h3 negativno
  • uzmemo li u obzir sve hipoteze, vjerojatnost da
    je x pozitivan je 0,4, a da je negativan je 0,6
  • najvjerojatnija klasifikacija se razlikuje od
    klasifikacije koju daje MAP hipoteza!

28
Bayesov optimalni klasifikator definicija
  • najvjerojatnija klasifikacija primjera se dobije
    linearnom kombinacijom klasifikacija svih
    hipoteza, gdje se kao težine uzimaju a posteriori
    vrijednosti vjerojatnosti hipoteza
  • moguca klasifikacija vk može uzeti bilo koju
    vrijednost iz V
  • P (vk D) vjerojatnost da je tocna
    klasifikacija za novi primjer vk
  • P (vk D) å P (vk hi) P (hi D) hi iz H

29
Bayesov optimalni klasifikator definicija
  • optimalna klasifikacija novog primjera je vk za
    koji je P(vk D) ima maksimum
  • Bayesov optimalni klasifikator
  • max vk iz å P (vk hi) P (hi D)
  • niti jedna druga metoda ucenja ne može nadmašiti
    Bayesov optimalni klasifikator u prosjeku!
  • hipoteza koja klasificira ne mora biti iz H

30
Gibbsov algoritam
  • Racunska cijena BO klasifikatora je ekstremno
    visoka (racunaju se aposteriori vjerojatnosti za
    sve h iz H)
  • Manje zahtjevna alternativa je Gibbsov algoritam
  • Biraj h iz H slucajno, ravnajuci se po
    distribuciji a posteriori vjerojatnosti
  • Koristi h za predvidanje slijedeceg primjera x
  • Uz neke uvjete na pretpostavljenu i stvarnu
    distribuciju vjerojatnosti, pokazuje se da je
    greška ovakvog algoritma najviše dva puta veca
    nego BO klasifikatora.

31
Jednostavni Bayesov klasifikator
  • vrlo prakticna metoda Bayesovog ucenja
  • u nekim podrucjima usporediva s neuronskim mrežam
    i stablima odlucivanja
  • svaki primjer opisan kao konjunkcija
    atributan-torka (a1, a2, ..., an)
  • tražena f-ja može poprimiti bilo koju vrijednost
    iz konacnog skupa V
  • zadatak Bayesovog klasifikatora je pridjeliti
    najvjerojatniju klasifikaciju vMAP vMAP max
    P( vj a1, a2, ..., an)

32
Jednostavni Bayesov klasifikator
  • primjenimo li Bayesov teoremvMAP max P( a1,
    a2, ..., an vj ) P (vj)
  • potrebno je procijeniti ove dvije vjerojatnosti
    na osnovi podataka za ucenje
  • P (vj) je frekvencija ponavljanja vj u skupu
    primjera
  • P( a1, a2, ..., an vj ) nije moguce izracunati
    na temelju realno velikog skupa podataka za
    ucenje
  • pretpostavka vrijednosti atributa su uvjetno
    nezavisne
  • P( a1, a2, ..., an vj ) Õ P(ak vj) k

33
Jednostavni Bayesov klasifikator definicija
  • Jednostavni Bayesov klasifikator vNB max P (
    vj ) Õ P (ak vj ) k
  • P (ak vj) se procjenjuje na temelju frekvencije
    pojavljivanja u ulaznom skupu podataka
  • kada je zadovoljen preduvjet o nezavisnosti
  • jednostavna Bayesova klasifikacija identicna MAP
    klasifikaciji

34
Jednostavni Bayesov klasifikator primjer
  • Primjenimo JBK na primjeru Dan za tenis
  • str 59 14 primjera za ucenje 4 atributa
  • novi primjer (suncano, hladno, visoka, jak)
  • racunamo
  • vNB max P ( vj ) Õ P (ak vj ) kvNB max
    P ( vj ) P (suncano vj ) P (hladno vj )P
    (visoka vj ) P (jak vj )
  • treba nam 10 vjerojatnosti koje možemo procjeniti
    iz ulaznih podataka

35
Jednostavni Bayesov klasifikator primjer
  • P(vj DA) 9 / 14 0,64
  • P(vj NE) 5 / 14 0,36
  • analogno, brojimo vrijednosti za ostale atribute
  • rezultat
  • P ( DA ) P (suncano DA ) P (hladno DA )P
    (visoka DA ) P (jak DA ) 0,0053
  • P ( NE ) P (suncano NE ) P (hladno NE )P
    (visoka NE ) P (jak NE ) 0,0206
Write a Comment
User Comments (0)
About PowerShow.com