Bayesovo ucenje - PowerPoint PPT Presentation

About This Presentation

Title:

Bayesovo ucenje

Description:

Bayesovo u enje Slideove pripremio: S. Pavlek – PowerPoint PPT presentation

Number of Views:130

Avg rating:3.0/5.0

Slides: 36

Provided by: stude2727

Category:

more less

Transcript and Presenter's Notes

Title: Bayesovo ucenje

1
Bayesovo ucenje

Slideove pripremio S. Pavlek

2
Uvod što je Bayesovo ucenje

dodjeljivanje vjerojatnosti pojedinim hipotezama
kvantitativno vaganje dokaza koji podržavaju
razlicite hipoteze
predmet zanimanja
algoritmi koji manipuliraju vjerojatnostima
analiza rada algoritama koji ne manipuliraju
direktno vjerojatnostima

3
Uvod neka pitanja o kojima cemo danas govoriti

MDL (Minimum Description Length) princip zašto
algoritmi za stabla odlucivanja favoriziraju
kraca stabla
optimalni Bayesov klasifikator teorijski
optimalna metoda klasifikacije
jednostavni Bayesov klasifikator po efikasnosti
usporediv s neuronskim mrežama i stablom
odlucivanja

4
Uvod svojstva Bayesovih algoritama

povecavanje i smanjivanje vjerojatnosti hipoteze
umjesto izbacivanja hipoteze
prethodno znanje se kombinira sa podacima
moguce hipoteze koje daju ocjenu vjerojatnosti
npr. vjerojatnost da pacijent ima ima upalu
pluca je 73
klasifikacija pojedinog primjera na temelju više
hipoteza

5
Uvod teškoce u primjeni

Bayesovi algoritmi zahtijevaju inicijalno znanje
mnogih vjerojatnosti
racunska zahtjevnost koja znatno ogranicava
primjenu
cak i u ovom slucaju mogu se koristiti kao
standard za ocjenu uspješnosti drugih algoritama!

6
Sadržaj

Bayesov teorem
Bayesov teorem i ucenje koncepata
direktna primjena
Najveca vjerojatnost i min. kvadrat pogreške
Princip najkraceg opisa (Occamova britva)
Bayesov optimalni klasifikator
Jednostavni Bayesov klasifikator

7
Bayesov teorem

jedan od osnovnih teorema teorije vjerojatnosti
h hipoteza is skupa svih hipoteza H
skup H je disjunktan i potpun
A je dogadaj

h1
h2
...
hn
A
8
Bayesov teorem - primjer

Primjer
H h1(iz Skandinavije), h2(iz ostatka
Europe)
P(h1) 0,048 P(h2) 0,952
A osoba je plava P(A) 0,1
u Skandinaviji su gotovo svi plavi P(Ah1) 0,85

P(h1A) je a posteriori vjerojatnost hipoteze h1

9
Bayesov teorem i ucenje koncepata uvod

Odredivanje najbolje hipoteze iz H ako je dano D.
Najbolja u BU znaci- najvjerojatnija za dani D
prethodna znanja!
izracunavanje vjerojatnosti hipoteze iz
pocetne (pretpostavljene, a priori) vjerojatnosti
vjerojatnosti pojavljivanja podatka uz uvjet da
vrijedi hipoteza
vjerojatnosti pojavljivanja samih podatka

10
Bayesov teorem i ucenje koncepata definicija

skup H prostor svih mogucih hipoteza
P(h) a priori vjerojatnost neke hipoteze iz H
P(D) a priori vjerojatnost pojavljivanja
primjera za ucenje D
P(Dh) vjerojatnost pojavljivanja D ako
hipoteza h vrijedi
P(hD) vjerojatnost da vrijedi hipoteza h ako
je dan D!!!

11
Bayesov teorem i ucenje koncepata MAP

MAP hipoteza Maximum A Posteriori je ona
hipoteza za koju je P(hD) najveci za predocene
podatke D (pišemo hMAP)
Na temelju Bayesovog teorema
hMAP maxh?H P(hD) maxh?H P(Dh) P(h)
P(D) izostavljen, jer je konst.

12
Maksimalna vjerodostojnost(maximum likelihood ML)

U sluceju kada su sve hipoteze ih h jednako
vjerojatne, dalje pojednostavljujemo
hMAP max h?HP(hD) maxh?H P(Dh)
vjerodostojnost
hML maxh?H P(Dh)

13
Bayesov teorem i ucenje koncepata primjer

Ima li pacijent odredenu vrstu raka?
H h1 (rak), h2 (-rak)
P(rak) 0,008 P(-rak) 0,992
test na rak nije savršen test je pozitivan u
98 slucajeva kad je rak prisutan, negativnan je
u 97 kada ga nema
P( test rak) 0,98 P( test- rak) 0,02
P( test- -rak) 0,97 P( test -rak) 0,03
Test je pozitivan. Ima li osoba rak?

14
Bayesov teorem i ucenje koncepata primjer

P( rak test ) i P( -rak test) ?
P( rak test ) P( test rak) P(rak)
P( -rak test ) P( test -rak) P(-rak)
racunamo
P( rak test ) 0,98 0,008 0,0078
P( -rak test ) 0,03 0,992 0,0298
Zakljucujemo da je druga hipoteza hMAP -rak
bolja!
velika razlika u a priori vrijednostima hipoteza!

15
Primjer

Za tocne vjerojatnosti treba znati P(D) tj.
P(test), što nemamo pa je dovoljno normalizirati
dobivene vjerojatnosti jer njihova suma mora biti
1
P(raktest) 0.0078/(0.00780.0298) 0.21
P(rak-test) 0.0298/(0.00780.0298) 0.79
još uvijek možemo s velikom vjerojatnošcu tvrditi
da osoba nema rak!
Uoci hipoteze se ne odbacuju - vjerojatnost se
smanjuje ili povecava

16
Direktna primjena BTna ucenje koncepata

Pretpostavke
Primjeri za ucenje D ne sadrže šum
Ciljni koncept je sadržan u prostoru hipoteza H
Sve su hipoteze jednako vjerojatne
P(h) 1/H za svaki h iz H
- zbog (3) i jer im suma mora biti jednaka
jedinici
P(Dh) 1 za dih(xi) za sve di u D
0 inace
- zbog (1)
P(D) 1/VSH,D ako je h konzistentna sa D
0 inace

17
Direktna primjena BTna ucenje koncepata

A posteriori vjerojatnost je dakle
P(hD) 1/VSH,D ako je h konzistentna s D
0 inace
Gore korištena vrijednost za P(D) dobiva se iz
teorema totalne vjerojatnosti i pretpostavke da
su hipoteze medusobno iskljucive

Hipoteze konzistentne s primjerima za ucenje
0ltPilt1, PiPj
nekonzistentne Pi0
Algoritam uz gornje pretpostavke na P(h) i P(Dh)
daje kao rezultat prostor inacica VSH,D
isti rezultat kao i CE algoritam za ucenje
koncepata
Uz pretpostavku distribucije koja favorizira
specificnije hipoteze nad opcenitijima (tj
p(hi)gtp(hj) za hilthj), algoritam daje
najspecificniju hipotezu konzistentnu s
primjerima za ucenje
isto kao i FS algoritam
Bayesovim algoritmom može se opisati rad
algoritama za ucenje, a odabirom P(h) i P(Dh)
mogu se opisati pretpostavke o traženom konceptu
koje ti algoritmi implicitno sadrže

19
(No Transcript)
20
Najveca vjerojatnost i minimalni kvadrat pogreške

problem ucenja kontinuirane funkcije
alternative neuronske mreže, linearna regresija
Bayesova analiza pokazuje da svaki algoritam koji
minimizira kvadrat pogreške izmedu predvidanja
hipoteze i podataka za ucenje daje hipotezu s
najvecom vjerojatnošcu
takvu hipotezu zovemo Maximum Likelihood, pišemo
hML

21
Najveca vjerojatnost i minimalni kvadrat pogreške

ML MAP ako vrijedi unif. razd. za P(h)
hML max P(Dh) ... min å (di h(xi))2
... T. Mitchell Machine learning, page 165 - 167

22
Princip najkraceg opisa (Minimum Description
Length)

nacelo blisko nacelu Occamove britve
poslužit cemo se konceptima iz teorije
informacija
hMAP možemo prikazati logaritamski
hMAP max P(Dh)P(h) max log2 P(Dh) log2
P(h)
ekvivalentno hMAP min - log2 P(Dh) - log2
P(h)
TINF
ako imamo poruke i, s vjerojatnošcu pojavljivanja
pi
najkompaktniji kod dodjeljuje log2 pi,bita svakoj
poruci

23
Princip najkraceg opisa (Minimum Description
Length)

log2 P(h) duljina optimalnog opisa h
log2 P(Dh) duljina klasifikacija D uz uvjet h
hMDL je hipoteza h koja minimizira zbroj duljine
opisa hipoteze opis podataka

24
Princip najkraceg opisa primjer

primjenimo MDL princip na na problem ucenja
stabla odlucivanja
pretpostavimo da su instance vec poznate i
pošiljatelju i primatelju trebamo samo
prenijeti klasifikacije
ako su klasifikacije jednake predvidanjima
trebamo prenijeti samo hipotezu!
ako hipoteza pogrešno klasificira neke primjere
njih je potrebno posebno prenijeti kao iznimke

25
Princip najkraceg opisa primjer

hipoteza hMDL minimizira ovaj zbroj
mogucnost balansiranja izmedu kompleksnosti
hipoteze i broja grešaka koje hipoteza cini
moguca metoda za rješavanje problema
petreniranosti
dokazuje li ovo jednom za uvijek da su krace
hipoteze bolje?
Ne. Pokazano je samo da ako su izabrani optimalni
prikazi hipoteze i iznimaka MDL nacelo proizvodi
MAP hipoteze

26
Bayesov optimalni klasifikator

do sada smo tražili odgovor na pitanje
koja je najvjerojatnija hipoteza?
no, cesto nas zanima odgovor na pitanje
koja je najvjerojatnija klasifikacija novog
primjera?
na drugo pitanje možemo odgovoriti tako da
primjenimo MAP hipotezu na novom primjeru
ali možemo i bolje!
zamislimo sustav sa 3 hipoteze cije su a
posteriori vjerojatnosti 0,4 0,3 0,3
prva hipoteza je MAP hipoteza

27
Bayesov optimalni klasifikator primjer

pretpostavimo novi primjer x koji h1 klasificira
pozitivno, ali h2 i h3 negativno
uzmemo li u obzir sve hipoteze, vjerojatnost da
je x pozitivan je 0,4, a da je negativan je 0,6
najvjerojatnija klasifikacija se razlikuje od
klasifikacije koju daje MAP hipoteza!

28
Bayesov optimalni klasifikator definicija

najvjerojatnija klasifikacija primjera se dobije
linearnom kombinacijom klasifikacija svih
hipoteza, gdje se kao težine uzimaju a posteriori
vrijednosti vjerojatnosti hipoteza
moguca klasifikacija vk može uzeti bilo koju
vrijednost iz V
P (vk D) vjerojatnost da je tocna
klasifikacija za novi primjer vk
P (vk D) å P (vk hi) P (hi D) hi iz H

29
Bayesov optimalni klasifikator definicija

optimalna klasifikacija novog primjera je vk za
koji je P(vk D) ima maksimum
Bayesov optimalni klasifikator
max vk iz å P (vk hi) P (hi D)
niti jedna druga metoda ucenja ne može nadmašiti
Bayesov optimalni klasifikator u prosjeku!
hipoteza koja klasificira ne mora biti iz H

30
Gibbsov algoritam

Racunska cijena BO klasifikatora je ekstremno
visoka (racunaju se aposteriori vjerojatnosti za
sve h iz H)
Manje zahtjevna alternativa je Gibbsov algoritam
Biraj h iz H slucajno, ravnajuci se po
distribuciji a posteriori vjerojatnosti
Koristi h za predvidanje slijedeceg primjera x
Uz neke uvjete na pretpostavljenu i stvarnu
distribuciju vjerojatnosti, pokazuje se da je
greška ovakvog algoritma najviše dva puta veca
nego BO klasifikatora.

31
Jednostavni Bayesov klasifikator

vrlo prakticna metoda Bayesovog ucenja
u nekim podrucjima usporediva s neuronskim mrežam
i stablima odlucivanja
svaki primjer opisan kao konjunkcija
atributan-torka (a1, a2, ..., an)
tražena f-ja može poprimiti bilo koju vrijednost
iz konacnog skupa V
zadatak Bayesovog klasifikatora je pridjeliti
najvjerojatniju klasifikaciju vMAP vMAP max
P( vj a1, a2, ..., an)

32
Jednostavni Bayesov klasifikator

primjenimo li Bayesov teoremvMAP max P( a1,
a2, ..., an vj ) P (vj)
potrebno je procijeniti ove dvije vjerojatnosti
na osnovi podataka za ucenje
P (vj) je frekvencija ponavljanja vj u skupu
primjera
P( a1, a2, ..., an vj ) nije moguce izracunati
na temelju realno velikog skupa podataka za
ucenje
pretpostavka vrijednosti atributa su uvjetno
nezavisne
P( a1, a2, ..., an vj ) Õ P(ak vj) k

33
Jednostavni Bayesov klasifikator definicija

Jednostavni Bayesov klasifikator vNB max P (
vj ) Õ P (ak vj ) k
P (ak vj) se procjenjuje na temelju frekvencije
pojavljivanja u ulaznom skupu podataka
kada je zadovoljen preduvjet o nezavisnosti
jednostavna Bayesova klasifikacija identicna MAP
klasifikaciji

34
Jednostavni Bayesov klasifikator primjer

Primjenimo JBK na primjeru Dan za tenis
str 59 14 primjera za ucenje 4 atributa
novi primjer (suncano, hladno, visoka, jak)
racunamo
vNB max P ( vj ) Õ P (ak vj ) kvNB max
P ( vj ) P (suncano vj ) P (hladno vj )P
(visoka vj ) P (jak vj )
treba nam 10 vjerojatnosti koje možemo procjeniti
iz ulaznih podataka

35
Jednostavni Bayesov klasifikator primjer