Jezikovne tehnologije Uvodni pregled in prelet PowerPoint PPT Presentation

presentation player overlay
About This Presentation
Transcript and Presenter's Notes

Title: Jezikovne tehnologije Uvodni pregled in prelet


1
Jezikovne tehnologijeUvodni pregled in prelet
doc.dr. Špela Vintar Oddelek za
prevajalstvo Filozofska fakulteta, Univerza v
Ljubljani 2005/2006 spela.vintar_at_guest.arnes.si
2
(No Transcript)
3
(No Transcript)
4
(No Transcript)
5
(No Transcript)
6
Še nekaj aplikacij
  • Eliza
  • Sinteza govora ali petja
  • Odgovarjanje na vprašanja
  • Klepec

7
Pregled tem
  • Uvod v jezikovne tehnologije
  • Kako racunalnik razume jezik
  • Jezikovni viri na internetu
  • Pregled slovarjev, korpusov in terminoloških
    virov na internetu
  • Korpusi
  • Osnove korpusnega jezikoslovja
  • Korpusi na internetu
  • Napredno iskanje in regularni izrazi
  • Oznacevanje korpusov
  • oblikoslovno oznacevanje in ostale ravni
  • standardi eXtensible Markup Language (XML)
  • zapisi znakov in pretvorbe med njimi

8
Pregled tem II
  • Korpusna leksikografija
  • Kako s pomocjo korpusa nastane slovar? Gost
    Simon Krek
  • Korpusna terminologija
  • Gradnja specializiranih korpusov in njihova
    izraba za terminografske namene
  • Govorne tehnologije
  • Razpoznavanje govora, tvorjenje govora in
    aplikacije. Gost Jerneja Žganec Gros
  • Skladnja
  • Modeli za skladenjsko analizo jezika
  • Orodja in aplikacije
  • Projektne predstavitve

9
Organizacijske reci
  • Projektna / seminarska naloga
  • Izpit
  • Kolobarjenje predavateljev
  • doc. dr. Tomaž Erjavec (IJS) tomaz.erjavec_at_ijs.s
    i
  • doc. dr. Špela Vintar (FF UL)
    spela.vintar_at_guest.arnes.si
  • mag. Irena Srdanovic irena_srdanovic_at_hotmail.co
    m
  • gosti
  • Konzultacije in govorilne ure
  • petek 13.00-13.30, po potrebi po vajah, po
    dogovoru
  • Spletna stranhttp//lojze.lugos.si/jt

10
Racunalniška obdelava naravnega jezika
  • NLP Natural Language Processing
  • racunalniško jezikoslovje (Computational
    Linguistics)
  • veja racunalništva in informatike, ki se navezuje
    na jezikoslovje
  • cilj modeliranje naravnega jezika za razlicne
    racunalniške aplikacije (crkovalniki,
    prevajalniki, lematizatorji itd.)
  • jezikovne tehnologije (Language Technologies)
  • razvoj konkretnih jezikovnih virov, orodij in
    programov

11
Jezik in racunalnik
  • Kako racunalnik razume jezik?
  • Jezikovne komponente v urejevalniku
    besedilcrkovalnik, preverjanje slovnice,
    pravila za segmentacijo besed, stavkov
  • Kaj je beseda, kaj je stavek?
  • vsi podatki so za racunalnik najprej nizi znakov
    (strings)
  • besede so med seboj locene s presledki
  • besede so med seboj locene s presledki ali locili
  • besede so med seboj locene s presledkom ali
    locilom in presledkom
  • javno- in zasebnopravni vidiki, itd.,
    4.000.000

12
Iskanje
  • Zanimajo me avtomobilska podjetja.
  • Bomo iskali avtomobilska podjetja, avtomobilsko
    podjetje?
  • Ce me zanimajo še zadetki v anglešciniautomobile
    companies, automobile company

X zadetkov
Y zadetkov
13
Iskanje
  • Zanimajo me avtomobilska podjetja.
  • Bomo iskali avtomobilska podjetja, avtomobilsko
    podjetje?
  • Ce me zanimajo še zadetki v anglešciniautomobile
    companies, automobile company

X zadetkov
Y zadetkov
14
Iskanje z Googlom
avtomobilsko podjetje 573 avtomobilska
podjetja 835 avtomobilska firma
43 avtomobilske firme 107 avtopodjetje
4 zastopnik avtomobilov 807 prodajalec
avtomobilov 407 avtoprodaja 507 zastopstvo
avtomobilov 405
15
Oblika vs. pomen
  • Kako bi bilo mogoce zgraditi pametni spletni
    iskalnik, ki bi iskal po pomenu besede?
  • zdravljenje anoreksije

anoreksija anoreksije anoreksicnost motnje
hranjenja prehranjevalne motnje odklanjanje
hrane ...
zdravljenje zdravljenja zdravljenju terapija terap
evtski ukrepi terapije ...
16
Problemi
  • Jezik ima lastnosti, ki jih clovek razpozna
    zlahka, stroj pa mnogo težje.
  • Še posebej
  • Vecpomenskost mnoge besede imajo vec pomenov
  • Parafraze mnoge vsebine je mogoce izraziti na
    vec nacinov
  • Nedolocenost mnoga jezikovna sredstva imajo
    nedolocen pomen, ki ga razberemo šele iz
    sobesedila

17
  • Time flies like an arrow.

18
Razsežnosti problema
Razpoznavanje besed
Oblikoslovje
Skladnja
Globina analize
Pomenoslovje
Pragmatika
Obdelava znanja
Podrocje
Obseg jezikovnih podatkov
Mnoge aplikacije zahtevajo le nizko raven analize.
19
Strukturalisticni in empiricni vidiki
jezikoslovja
  • Strukturalisticni pristop
  • Jezik je omejen in urejen sistem, ki temelji na
    pravilih.
  • Avtomatska obdelava jezika je mogoca s pomocjo
    pravil.
  • Pravila se oblikuje v skladu s cloveško jezikovno
    intuicijo.
  • Empiricni pristop
  • Jezik je vsota vseh svojih udejanjanj (v
    govorjenih in pisnih besedilih)
  • Posplošitve o jeziku so mogoce le na podlagi
    velikih besedilnih zbirk, ki nam služijo za
    vzorec jezika -gt korpusi
  • Strojno ucenje (Machine Learning)
  • data-driven automatic inference of rules

20
Jezikovne tehnologije Raziskovalna podrocja
  • Oblikoslovje besednovrstno oznacevanje
    (part-of-speech tagging), lematizacija, razclemba
    sestavljenih besed
  • Skladnja razpoznavanje stavcnih clenov,
    slovnicnih funkcij (osebek/povedek/...) popolna
    skladenjska analiza
  • Glasoslovje razpoznavanje in tvorjenje govora,
    pogovorni sistemi
  • Pomenoslovje razreševanje vecpomenskosti,
    avtomatska izdelava semanticnih virov (tezavrov,
    ontologij)
  • Vecjezikovne tehnologije lušcenje prevodnih
    ustreznic iz korpusov, strojno prevajanje in
    tolmacenje
  • Jezik in internet iskanje podatkov, rudarjenje
    besedil (Text Mining), napredni spletni iskalniki

21
Jezikovne tehnologije Aplikacije
  • korpusna orodja
  • konkordancniki in orodja za statisticno obdelavo
    korpusov
  • orodja za izdelavo vzporednih korpusov (poravnava
    besedil)
  • orodja za oznacevanje korpusov
  • prevajalska orodja
  • terminološki programi, programi s pomnilnikom
    prevodov, strojni prevajalniki
  • govorne aplikacije
  • mobilna telefonija
  • odgovarjanje na vprašanja (Question Answering)
  • samopovzemanje dokumentov
  • rudarjenje podatkov, rudarjenje besedil

22
Dodatni viri
  • Language Technology World http//www.lt-world.org
    /ie_index.html
  • Interactive Online CL Demoshttp//www.ifi.unizh.
    ch/CL/InteractiveTools.html
  • Natural Language Processing course
    materialshttp//www.cs.cornell.edu/Courses/cs674
    /2003sp/
Write a Comment
User Comments (0)
About PowerShow.com