Title: Lu
1Lušcenje podatkov s skritimimarkovskimi modeli
- Mitja Luštrek
- Odsek za inteligentne sisteme
- Institut Jožef Stefan
2Lušcenje podatkov
- Information extraction
- Iz besedila izlušciti izbrane podatke, npr. iz
najave seminarja govornika, kraj in cas - Razmah z Message Understanding Conferences
- 19871998, DARPA
- tekmovanje programov za lušcenje podatkov
- Vec metod
- rocno izdelana pravila in vzorci
- strojno ucenje pravil in vzorcev
- induciranje ovojnic
- skriti markovski modeli
- Program Marko
3Markovski model
- Stanja S, prehodi med stanji z verjetnostmi a,
naslednje stanje je odvisno samo od prejšnjega - Koncni avtomat z verjetnostnimi prehodi med stanji
4Skriti markovski model (1)
- Stanja so skrita razbrati jih je moc samo iz
izhodnih simbolov v, ki jih model oddaja z
verjetnostmi b
5Skriti markovski model (2)
- Primer gledamo skozi okno in nimamo barometra
- Stanja
- zracni pritisk je nizek
- zracni pritisk je visok
- Izhodni simboli
- dežuje
- ne dežuje
- Verjetnosti izhodnih simbolov
- bnizek pritisk (dežuje) 0,6
- bnizek pritisk (ne dežuje) 0,4
- bvisok pritisk (dežuje) 0,2
- bnizek pritisk (ne dežuje) 0,8
6Uporaba za lušcenje podatkov
- Zaporedje besed v besedilu zaporedje izhodnih
simbolov modela - Besede, ki sestavljajo podatke, ki jih želimo
izlušciti ciljni izhodni simboli - Ucenje modela
- ogrodje modela
- množica ucnih besedil z oznacenimi podatki, ki
jih želimo izlušciti - model, ki z najvecjo verjetnostjo odda ucna
besedila - Uporaba modela
- naucen model
- novo besedilo
- oznaceni podatki, ki smo ji želeli izlušciti
7Ucenje modela (1)
- Baum-Welchev algoritem
- iterativen, konvergira k (lokalnemu) optimumu
- Ogrodje modela
- število stanj, dovoljeni prehodi med njimi
- katera stanja so ciljna oddajajo ciljne izhodne
simbole
8Ucenje modela (2)
- Ucno besediloGovornik je Janez
9Sestavljanje modela (3)
- V novih besedilih nastopajo besede, ki jih v
ucnih ni bilo - krnjenje (stemming)
- splošne besede, ki se prilagodijo skupinam besed
- glajenje porazdelitvi oddajanja besed se
prišteje enakomerna porazdelitev
10Uporaba modela
- Viterbijev algoritem
- Novo besediloGovornik je Pepe
11Uporaba modela
- Viterbijev algoritem
- Novo besediloGovornik je Pepe
12Uporaba modela
- Viterbijev algoritem
- Novo besediloGovornik je Pepe
13Uporaba modela
- Viterbijev algoritem
- Novo besediloGovornik je Pepe
14Uporaba modela
- Viterbijev algoritem
- Novo besediloGovornik je Pepe
15Uporaba modela
- Viterbijev algoritem
- Novo besediloGovornik je Pepe
16Izbira ogrodja modela
- Splošna oblika
- Število ciljnih stanj
- Število predpon in pripon
- Dovoljeni prehodi med stanji
17Ucna besedila
- 485 najav seminarjev na CMU
- Išcejo se govornik, kraj ter cas zacetka in konca
lt0.21.2.95.15.21.14.bg02_at_andrew.cmu.edu.0gt Type
cmu.andrew.official.cmu-news Topic
ChemE,Physics Seminar Dates 27-Feb-95 Time
ltstimegt430 PMlt/stimegt PostedBy Bruce Gerson
on 21-Feb-95 at 1521 from andrew.cmu.edu Abstract
ltparagraphgtltsentencegtThe Chemical Engineering
and Physics departments will host a
seminarentitled "Soft Matter in a Tight Spot
Nanorheology of Polymers Complex Fluids," at
ltstimegt430 p.mlt/stimegt., Monday, Feb. 27, in
ltlocationgtWean Hall 7500lt/locationgtlt/sentencegt.
ltsentencegtThe seminar will be given by
ltspeakergtProfessor Steven Granicklt/speakergt from
the MaterialsScience Department at University of
Illinois, Urbana-Champaignlt/sentencegt.lt/paragraphgt
18Rezultati
Govornik Kraj Zacetek Konec
Natancnost 0,6542 0,7800 0,7264 0,4271
Priklic 0,7970 0,4590 0,6056 0,9939
F1 0,7185 0,5534 0,6605 0,5974
Govornik Kraj Zacetek Konec
Natancnost 0,8497 0,9257 0,8766 0,6727
Priklic 0,6600 0,2982 0,7803 0,8970
F1 0,7429 0,4511 0,8256 0,7688
- natancnost pravilno oznacene / vse oznacene
- priklic pravilno oznacene / vse, ki bi morale
biti oznacene - F1 2 natancnost priklic / (natancnost
priklic)
19Zakljucek
- Metoda (skriti markovski modeli) in program
(Marko) sta primerljiva z drugimi metodami in
programi za lušcenje podatkov - Ugotovitve o primernem ogrodju modela
- štiri popolnoma povezana ciljna vozlišca
- po dve predponi in priponi
- Nadaljnje delo
- preizkus na drugih domenah
- nazoren prikaz naucenih modelov za lažje
odkrivanje pomanjkljivosti in možnosti za
izboljšave
20Hvala za pozornost.Vprašanja?