Lu - PowerPoint PPT Presentation

About This Presentation
Title:

Lu

Description:

Lu enje podatkov s skritimi markovskimi modeli Mitja Lu trek Odsek za inteligentne sisteme Institut Jo ef Stefan – PowerPoint PPT presentation

Number of Views:75
Avg rating:3.0/5.0
Slides: 21
Provided by: Mitj4
Category:
Tags: extraction

less

Transcript and Presenter's Notes

Title: Lu


1
Lušcenje podatkov s skritimimarkovskimi modeli
  • Mitja Luštrek
  • Odsek za inteligentne sisteme
  • Institut Jožef Stefan

2
Lušcenje podatkov
  • Information extraction
  • Iz besedila izlušciti izbrane podatke, npr. iz
    najave seminarja govornika, kraj in cas
  • Razmah z Message Understanding Conferences
  • 19871998, DARPA
  • tekmovanje programov za lušcenje podatkov
  • Vec metod
  • rocno izdelana pravila in vzorci
  • strojno ucenje pravil in vzorcev
  • induciranje ovojnic
  • skriti markovski modeli
  • Program Marko

3
Markovski model
  • Stanja S, prehodi med stanji z verjetnostmi a,
    naslednje stanje je odvisno samo od prejšnjega
  • Koncni avtomat z verjetnostnimi prehodi med stanji

4
Skriti markovski model (1)
  • Stanja so skrita razbrati jih je moc samo iz
    izhodnih simbolov v, ki jih model oddaja z
    verjetnostmi b

5
Skriti markovski model (2)
  • Primer gledamo skozi okno in nimamo barometra
  • Stanja
  • zracni pritisk je nizek
  • zracni pritisk je visok
  • Izhodni simboli
  • dežuje
  • ne dežuje
  • Verjetnosti izhodnih simbolov
  • bnizek pritisk (dežuje) 0,6
  • bnizek pritisk (ne dežuje) 0,4
  • bvisok pritisk (dežuje) 0,2
  • bnizek pritisk (ne dežuje) 0,8

6
Uporaba za lušcenje podatkov
  • Zaporedje besed v besedilu zaporedje izhodnih
    simbolov modela
  • Besede, ki sestavljajo podatke, ki jih želimo
    izlušciti ciljni izhodni simboli
  • Ucenje modela
  • ogrodje modela
  • množica ucnih besedil z oznacenimi podatki, ki
    jih želimo izlušciti
  • model, ki z najvecjo verjetnostjo odda ucna
    besedila
  • Uporaba modela
  • naucen model
  • novo besedilo
  • oznaceni podatki, ki smo ji želeli izlušciti

7
Ucenje modela (1)
  • Baum-Welchev algoritem
  • iterativen, konvergira k (lokalnemu) optimumu
  • Ogrodje modela
  • število stanj, dovoljeni prehodi med njimi
  • katera stanja so ciljna oddajajo ciljne izhodne
    simbole

8
Ucenje modela (2)
  • Ucno besediloGovornik je Janez

9
Sestavljanje modela (3)
  • V novih besedilih nastopajo besede, ki jih v
    ucnih ni bilo
  • krnjenje (stemming)
  • splošne besede, ki se prilagodijo skupinam besed
  • glajenje porazdelitvi oddajanja besed se
    prišteje enakomerna porazdelitev

10
Uporaba modela
  • Viterbijev algoritem
  • Novo besediloGovornik je Pepe

11
Uporaba modela
  • Viterbijev algoritem
  • Novo besediloGovornik je Pepe

12
Uporaba modela
  • Viterbijev algoritem
  • Novo besediloGovornik je Pepe

13
Uporaba modela
  • Viterbijev algoritem
  • Novo besediloGovornik je Pepe

14
Uporaba modela
  • Viterbijev algoritem
  • Novo besediloGovornik je Pepe

15
Uporaba modela
  • Viterbijev algoritem
  • Novo besediloGovornik je Pepe

16
Izbira ogrodja modela
  • Splošna oblika
  • Število ciljnih stanj
  • Število predpon in pripon
  • Dovoljeni prehodi med stanji

17
Ucna besedila
  • 485 najav seminarjev na CMU
  • Išcejo se govornik, kraj ter cas zacetka in konca

lt0.21.2.95.15.21.14.bg02_at_andrew.cmu.edu.0gt Type
cmu.andrew.official.cmu-news Topic
ChemE,Physics Seminar Dates 27-Feb-95 Time
ltstimegt430 PMlt/stimegt PostedBy Bruce Gerson
on 21-Feb-95 at 1521 from andrew.cmu.edu Abstract
ltparagraphgtltsentencegtThe Chemical Engineering
and Physics departments will host a
seminarentitled "Soft Matter in a Tight Spot
Nanorheology of Polymers Complex Fluids," at
ltstimegt430 p.mlt/stimegt., Monday, Feb. 27, in
ltlocationgtWean Hall 7500lt/locationgtlt/sentencegt.
ltsentencegtThe seminar will be given by
ltspeakergtProfessor Steven Granicklt/speakergt from
the MaterialsScience Department at University of
Illinois, Urbana-Champaignlt/sentencegt.lt/paragraphgt
18
Rezultati
Govornik Kraj Zacetek Konec
Natancnost 0,6542 0,7800 0,7264 0,4271
Priklic 0,7970 0,4590 0,6056 0,9939
F1 0,7185 0,5534 0,6605 0,5974
Govornik Kraj Zacetek Konec
Natancnost 0,8497 0,9257 0,8766 0,6727
Priklic 0,6600 0,2982 0,7803 0,8970
F1 0,7429 0,4511 0,8256 0,7688
  • natancnost pravilno oznacene / vse oznacene
  • priklic pravilno oznacene / vse, ki bi morale
    biti oznacene
  • F1 2 natancnost priklic / (natancnost
    priklic)

19
Zakljucek
  • Metoda (skriti markovski modeli) in program
    (Marko) sta primerljiva z drugimi metodami in
    programi za lušcenje podatkov
  • Ugotovitve o primernem ogrodju modela
  • štiri popolnoma povezana ciljna vozlišca
  • po dve predponi in priponi
  • Nadaljnje delo
  • preizkus na drugih domenah
  • nazoren prikaz naucenih modelov za lažje
    odkrivanje pomanjkljivosti in možnosti za
    izboljšave

20
Hvala za pozornost.Vprašanja?
Write a Comment
User Comments (0)
About PowerShow.com