Title: Bayesovo ucenje
1Bayesovo ucenje
- Slideove pripremio S. Pavlek
2Uvod što je Bayesovo ucenje
- dodjeljivanje vjerojatnosti pojedinim hipotezama
- kvantitativno vaganje dokaza koji podržavaju
razlicite hipoteze - predmet zanimanja
- algoritmi koji manipuliraju vjerojatnostima
- analiza rada algoritama koji ne manipuliraju
direktno vjerojatnostima
3Uvod neka pitanja o kojima cemo danas govoriti
- MDL (Minimum Description Length) princip zašto
algoritmi za stabla odlucivanja favoriziraju
kraca stabla - optimalni Bayesov klasifikator teorijski
optimalna metoda klasifikacije - jednostavni Bayesov klasifikator po efikasnosti
usporediv s neuronskim mrežama i stablom
odlucivanja
4Uvod svojstva Bayesovih algoritama
- povecavanje i smanjivanje vjerojatnosti hipoteze
umjesto izbacivanja hipoteze - prethodno znanje se kombinira sa podacima
- moguce hipoteze koje daju ocjenu vjerojatnosti
- npr. vjerojatnost da pacijent ima ima upalu
pluca je 73 - klasifikacija pojedinog primjera na temelju više
hipoteza
5Uvod teškoce u primjeni
- Bayesovi algoritmi zahtijevaju inicijalno znanje
mnogih vjerojatnosti - racunska zahtjevnost koja znatno ogranicava
primjenu - cak i u ovom slucaju mogu se koristiti kao
standard za ocjenu uspješnosti drugih algoritama!
6Sadržaj
- Bayesov teorem
- Bayesov teorem i ucenje koncepata
- direktna primjena
- Najveca vjerojatnost i min. kvadrat pogreške
- Princip najkraceg opisa (Occamova britva)
- Bayesov optimalni klasifikator
- Jednostavni Bayesov klasifikator
7Bayesov teorem
- jedan od osnovnih teorema teorije vjerojatnosti
- h hipoteza is skupa svih hipoteza H
- skup H je disjunktan i potpun
- A je dogadaj
h1
h2
...
hn
A
8Bayesov teorem - primjer
- Primjer
- H h1(iz Skandinavije), h2(iz ostatka
Europe) - P(h1) 0,048 P(h2) 0,952
- A osoba je plava P(A) 0,1
- u Skandinaviji su gotovo svi plavi P(Ah1) 0,85
- P(h1A) je a posteriori vjerojatnost hipoteze h1
9Bayesov teorem i ucenje koncepata uvod
- Odredivanje najbolje hipoteze iz H ako je dano D.
Najbolja u BU znaci- najvjerojatnija za dani D
prethodna znanja! - izracunavanje vjerojatnosti hipoteze iz
- pocetne (pretpostavljene, a priori) vjerojatnosti
- vjerojatnosti pojavljivanja podatka uz uvjet da
vrijedi hipoteza - vjerojatnosti pojavljivanja samih podatka
10Bayesov teorem i ucenje koncepata definicija
- skup H prostor svih mogucih hipoteza
- P(h) a priori vjerojatnost neke hipoteze iz H
- P(D) a priori vjerojatnost pojavljivanja
primjera za ucenje D - P(Dh) vjerojatnost pojavljivanja D ako
hipoteza h vrijedi - P(hD) vjerojatnost da vrijedi hipoteza h ako
je dan D!!!
11Bayesov teorem i ucenje koncepata MAP
- MAP hipoteza Maximum A Posteriori je ona
hipoteza za koju je P(hD) najveci za predocene
podatke D (pišemo hMAP) - Na temelju Bayesovog teorema
- hMAP maxh?H P(hD) maxh?H P(Dh) P(h)
- P(D) izostavljen, jer je konst.
12Maksimalna vjerodostojnost(maximum likelihood ML)
- U sluceju kada su sve hipoteze ih h jednako
vjerojatne, dalje pojednostavljujemo - hMAP max h?HP(hD) maxh?H P(Dh)
- vjerodostojnost
- hML maxh?H P(Dh)
13Bayesov teorem i ucenje koncepata primjer
- Ima li pacijent odredenu vrstu raka?
- H h1 (rak), h2 (-rak)
- P(rak) 0,008 P(-rak) 0,992
- test na rak nije savršen test je pozitivan u
98 slucajeva kad je rak prisutan, negativnan je
u 97 kada ga nema - P( test rak) 0,98 P( test- rak) 0,02
- P( test- -rak) 0,97 P( test -rak) 0,03
- Test je pozitivan. Ima li osoba rak?
14Bayesov teorem i ucenje koncepata primjer
- P( rak test ) i P( -rak test) ?
- P( rak test ) P( test rak) P(rak)
- P( -rak test ) P( test -rak) P(-rak)
- racunamo
- P( rak test ) 0,98 0,008 0,0078
- P( -rak test ) 0,03 0,992 0,0298
- Zakljucujemo da je druga hipoteza hMAP -rak
bolja! - velika razlika u a priori vrijednostima hipoteza!
15Primjer
- Za tocne vjerojatnosti treba znati P(D) tj.
P(test), što nemamo pa je dovoljno normalizirati
dobivene vjerojatnosti jer njihova suma mora biti
1 - P(raktest) 0.0078/(0.00780.0298) 0.21
- P(rak-test) 0.0298/(0.00780.0298) 0.79
- još uvijek možemo s velikom vjerojatnošcu tvrditi
da osoba nema rak! - Uoci hipoteze se ne odbacuju - vjerojatnost se
smanjuje ili povecava
16Direktna primjena BTna ucenje koncepata
- Pretpostavke
- Primjeri za ucenje D ne sadrže šum
- Ciljni koncept je sadržan u prostoru hipoteza H
- Sve su hipoteze jednako vjerojatne
- P(h) 1/H za svaki h iz H
- - zbog (3) i jer im suma mora biti jednaka
jedinici - P(Dh) 1 za dih(xi) za sve di u D
- 0 inace
- - zbog (1)
- P(D) 1/VSH,D ako je h konzistentna sa D
- 0 inace
17Direktna primjena BTna ucenje koncepata
- A posteriori vjerojatnost je dakle
- P(hD) 1/VSH,D ako je h konzistentna s D
- 0 inace
- Gore korištena vrijednost za P(D) dobiva se iz
teorema totalne vjerojatnosti i pretpostavke da
su hipoteze medusobno iskljucive
18- Hipoteze konzistentne s primjerima za ucenje
0ltPilt1, PiPj - nekonzistentne Pi0
- Algoritam uz gornje pretpostavke na P(h) i P(Dh)
daje kao rezultat prostor inacica VSH,D - isti rezultat kao i CE algoritam za ucenje
koncepata - Uz pretpostavku distribucije koja favorizira
specificnije hipoteze nad opcenitijima (tj
p(hi)gtp(hj) za hilthj), algoritam daje
najspecificniju hipotezu konzistentnu s
primjerima za ucenje - isto kao i FS algoritam
- Bayesovim algoritmom može se opisati rad
algoritama za ucenje, a odabirom P(h) i P(Dh)
mogu se opisati pretpostavke o traženom konceptu
koje ti algoritmi implicitno sadrže
19(No Transcript)
20Najveca vjerojatnost i minimalni kvadrat pogreške
- problem ucenja kontinuirane funkcije
- alternative neuronske mreže, linearna regresija
- Bayesova analiza pokazuje da svaki algoritam koji
minimizira kvadrat pogreške izmedu predvidanja
hipoteze i podataka za ucenje daje hipotezu s
najvecom vjerojatnošcu - takvu hipotezu zovemo Maximum Likelihood, pišemo
hML
21Najveca vjerojatnost i minimalni kvadrat pogreške
- ML MAP ako vrijedi unif. razd. za P(h)
- hML max P(Dh) ... min å (di h(xi))2
- ... T. Mitchell Machine learning, page 165 - 167
22Princip najkraceg opisa (Minimum Description
Length)
- nacelo blisko nacelu Occamove britve
- poslužit cemo se konceptima iz teorije
informacija - hMAP možemo prikazati logaritamski
- hMAP max P(Dh)P(h) max log2 P(Dh) log2
P(h) - ekvivalentno hMAP min - log2 P(Dh) - log2
P(h) - TINF
- ako imamo poruke i, s vjerojatnošcu pojavljivanja
pi - najkompaktniji kod dodjeljuje log2 pi,bita svakoj
poruci
23Princip najkraceg opisa (Minimum Description
Length)
- log2 P(h) duljina optimalnog opisa h
- log2 P(Dh) duljina klasifikacija D uz uvjet h
- hMDL je hipoteza h koja minimizira zbroj duljine
opisa hipoteze opis podataka
24Princip najkraceg opisa primjer
- primjenimo MDL princip na na problem ucenja
stabla odlucivanja - pretpostavimo da su instance vec poznate i
pošiljatelju i primatelju trebamo samo
prenijeti klasifikacije - ako su klasifikacije jednake predvidanjima
trebamo prenijeti samo hipotezu! - ako hipoteza pogrešno klasificira neke primjere
njih je potrebno posebno prenijeti kao iznimke
25Princip najkraceg opisa primjer
- hipoteza hMDL minimizira ovaj zbroj
- mogucnost balansiranja izmedu kompleksnosti
hipoteze i broja grešaka koje hipoteza cini - moguca metoda za rješavanje problema
petreniranosti - dokazuje li ovo jednom za uvijek da su krace
hipoteze bolje? - Ne. Pokazano je samo da ako su izabrani optimalni
prikazi hipoteze i iznimaka MDL nacelo proizvodi
MAP hipoteze
26Bayesov optimalni klasifikator
- do sada smo tražili odgovor na pitanje
- koja je najvjerojatnija hipoteza?
- no, cesto nas zanima odgovor na pitanje
- koja je najvjerojatnija klasifikacija novog
primjera? - na drugo pitanje možemo odgovoriti tako da
primjenimo MAP hipotezu na novom primjeru - ali možemo i bolje!
- zamislimo sustav sa 3 hipoteze cije su a
posteriori vjerojatnosti 0,4 0,3 0,3 - prva hipoteza je MAP hipoteza
27Bayesov optimalni klasifikator primjer
- pretpostavimo novi primjer x koji h1 klasificira
pozitivno, ali h2 i h3 negativno - uzmemo li u obzir sve hipoteze, vjerojatnost da
je x pozitivan je 0,4, a da je negativan je 0,6 - najvjerojatnija klasifikacija se razlikuje od
klasifikacije koju daje MAP hipoteza!
28Bayesov optimalni klasifikator definicija
- najvjerojatnija klasifikacija primjera se dobije
linearnom kombinacijom klasifikacija svih
hipoteza, gdje se kao težine uzimaju a posteriori
vrijednosti vjerojatnosti hipoteza - moguca klasifikacija vk može uzeti bilo koju
vrijednost iz V - P (vk D) vjerojatnost da je tocna
klasifikacija za novi primjer vk - P (vk D) å P (vk hi) P (hi D) hi iz H
29Bayesov optimalni klasifikator definicija
- optimalna klasifikacija novog primjera je vk za
koji je P(vk D) ima maksimum - Bayesov optimalni klasifikator
- max vk iz å P (vk hi) P (hi D)
- niti jedna druga metoda ucenja ne može nadmašiti
Bayesov optimalni klasifikator u prosjeku! - hipoteza koja klasificira ne mora biti iz H
30Gibbsov algoritam
- Racunska cijena BO klasifikatora je ekstremno
visoka (racunaju se aposteriori vjerojatnosti za
sve h iz H) - Manje zahtjevna alternativa je Gibbsov algoritam
- Biraj h iz H slucajno, ravnajuci se po
distribuciji a posteriori vjerojatnosti - Koristi h za predvidanje slijedeceg primjera x
- Uz neke uvjete na pretpostavljenu i stvarnu
distribuciju vjerojatnosti, pokazuje se da je
greška ovakvog algoritma najviše dva puta veca
nego BO klasifikatora.
31Jednostavni Bayesov klasifikator
- vrlo prakticna metoda Bayesovog ucenja
- u nekim podrucjima usporediva s neuronskim mrežam
i stablima odlucivanja - svaki primjer opisan kao konjunkcija
atributan-torka (a1, a2, ..., an) - tražena f-ja može poprimiti bilo koju vrijednost
iz konacnog skupa V - zadatak Bayesovog klasifikatora je pridjeliti
najvjerojatniju klasifikaciju vMAP vMAP max
P( vj a1, a2, ..., an)
32Jednostavni Bayesov klasifikator
- primjenimo li Bayesov teoremvMAP max P( a1,
a2, ..., an vj ) P (vj) - potrebno je procijeniti ove dvije vjerojatnosti
na osnovi podataka za ucenje - P (vj) je frekvencija ponavljanja vj u skupu
primjera - P( a1, a2, ..., an vj ) nije moguce izracunati
na temelju realno velikog skupa podataka za
ucenje - pretpostavka vrijednosti atributa su uvjetno
nezavisne - P( a1, a2, ..., an vj ) Õ P(ak vj) k
33Jednostavni Bayesov klasifikator definicija
- Jednostavni Bayesov klasifikator vNB max P (
vj ) Õ P (ak vj ) k - P (ak vj) se procjenjuje na temelju frekvencije
pojavljivanja u ulaznom skupu podataka - kada je zadovoljen preduvjet o nezavisnosti
- jednostavna Bayesova klasifikacija identicna MAP
klasifikaciji
34Jednostavni Bayesov klasifikator primjer
- Primjenimo JBK na primjeru Dan za tenis
- str 59 14 primjera za ucenje 4 atributa
- novi primjer (suncano, hladno, visoka, jak)
- racunamo
- vNB max P ( vj ) Õ P (ak vj ) kvNB max
P ( vj ) P (suncano vj ) P (hladno vj )P
(visoka vj ) P (jak vj ) - treba nam 10 vjerojatnosti koje možemo procjeniti
iz ulaznih podataka
35Jednostavni Bayesov klasifikator primjer
- P(vj DA) 9 / 14 0,64
- P(vj NE) 5 / 14 0,36
- analogno, brojimo vrijednosti za ostale atribute
- rezultat
- P ( DA ) P (suncano DA ) P (hladno DA )P
(visoka DA ) P (jak DA ) 0,0053 - P ( NE ) P (suncano NE ) P (hladno NE )P
(visoka NE ) P (jak NE ) 0,0206