Title: Jezikovne tehnologije Uvodni pregled in prelet
1Jezikovne tehnologijeUvodni pregled in prelet
doc.dr. Špela Vintar Oddelek za
prevajalstvo Filozofska fakulteta, Univerza v
Ljubljani 2005/2006 spela.vintar_at_guest.arnes.si
2(No Transcript)
3(No Transcript)
4(No Transcript)
5(No Transcript)
6Še nekaj aplikacij
- Eliza
- Sinteza govora ali petja
- Odgovarjanje na vprašanja
- Klepec
7Pregled tem
- Uvod v jezikovne tehnologije
- Kako racunalnik razume jezik
- Jezikovni viri na internetu
- Pregled slovarjev, korpusov in terminoloških
virov na internetu - Korpusi
- Osnove korpusnega jezikoslovja
- Korpusi na internetu
- Napredno iskanje in regularni izrazi
- Oznacevanje korpusov
- oblikoslovno oznacevanje in ostale ravni
- standardi eXtensible Markup Language (XML)
- zapisi znakov in pretvorbe med njimi
8Pregled tem II
- Korpusna leksikografija
- Kako s pomocjo korpusa nastane slovar? Gost
Simon Krek - Korpusna terminologija
- Gradnja specializiranih korpusov in njihova
izraba za terminografske namene - Govorne tehnologije
- Razpoznavanje govora, tvorjenje govora in
aplikacije. Gost Jerneja Žganec Gros - Skladnja
- Modeli za skladenjsko analizo jezika
- Orodja in aplikacije
- Projektne predstavitve
9Organizacijske reci
- Projektna / seminarska naloga
- Izpit
- Kolobarjenje predavateljev
- doc. dr. Tomaž Erjavec (IJS) tomaz.erjavec_at_ijs.s
i - doc. dr. Špela Vintar (FF UL)
spela.vintar_at_guest.arnes.si - mag. Irena Srdanovic irena_srdanovic_at_hotmail.co
m - gosti
- Konzultacije in govorilne ure
- petek 13.00-13.30, po potrebi po vajah, po
dogovoru - Spletna stranhttp//lojze.lugos.si/jt
10Racunalniška obdelava naravnega jezika
- NLP Natural Language Processing
- racunalniško jezikoslovje (Computational
Linguistics) - veja racunalništva in informatike, ki se navezuje
na jezikoslovje - cilj modeliranje naravnega jezika za razlicne
racunalniške aplikacije (crkovalniki,
prevajalniki, lematizatorji itd.) - jezikovne tehnologije (Language Technologies)
- razvoj konkretnih jezikovnih virov, orodij in
programov
11Jezik in racunalnik
- Kako racunalnik razume jezik?
- Jezikovne komponente v urejevalniku
besedilcrkovalnik, preverjanje slovnice,
pravila za segmentacijo besed, stavkov - Kaj je beseda, kaj je stavek?
- vsi podatki so za racunalnik najprej nizi znakov
(strings) - besede so med seboj locene s presledki
- besede so med seboj locene s presledki ali locili
- besede so med seboj locene s presledkom ali
locilom in presledkom - javno- in zasebnopravni vidiki, itd.,
4.000.000
12Iskanje
- Zanimajo me avtomobilska podjetja.
- Bomo iskali avtomobilska podjetja, avtomobilsko
podjetje? - Ce me zanimajo še zadetki v anglešciniautomobile
companies, automobile company
X zadetkov
Y zadetkov
13Iskanje
- Zanimajo me avtomobilska podjetja.
- Bomo iskali avtomobilska podjetja, avtomobilsko
podjetje? - Ce me zanimajo še zadetki v anglešciniautomobile
companies, automobile company
X zadetkov
Y zadetkov
14Iskanje z Googlom
avtomobilsko podjetje 573 avtomobilska
podjetja 835 avtomobilska firma
43 avtomobilske firme 107 avtopodjetje
4 zastopnik avtomobilov 807 prodajalec
avtomobilov 407 avtoprodaja 507 zastopstvo
avtomobilov 405
15Oblika vs. pomen
- Kako bi bilo mogoce zgraditi pametni spletni
iskalnik, ki bi iskal po pomenu besede? - zdravljenje anoreksije
anoreksija anoreksije anoreksicnost motnje
hranjenja prehranjevalne motnje odklanjanje
hrane ...
zdravljenje zdravljenja zdravljenju terapija terap
evtski ukrepi terapije ...
16Problemi
- Jezik ima lastnosti, ki jih clovek razpozna
zlahka, stroj pa mnogo težje. - Še posebej
- Vecpomenskost mnoge besede imajo vec pomenov
- Parafraze mnoge vsebine je mogoce izraziti na
vec nacinov - Nedolocenost mnoga jezikovna sredstva imajo
nedolocen pomen, ki ga razberemo šele iz
sobesedila
17- Time flies like an arrow.
18Razsežnosti problema
Razpoznavanje besed
Oblikoslovje
Skladnja
Globina analize
Pomenoslovje
Pragmatika
Obdelava znanja
Podrocje
Obseg jezikovnih podatkov
Mnoge aplikacije zahtevajo le nizko raven analize.
19Strukturalisticni in empiricni vidiki
jezikoslovja
- Strukturalisticni pristop
- Jezik je omejen in urejen sistem, ki temelji na
pravilih. - Avtomatska obdelava jezika je mogoca s pomocjo
pravil. - Pravila se oblikuje v skladu s cloveško jezikovno
intuicijo. - Empiricni pristop
- Jezik je vsota vseh svojih udejanjanj (v
govorjenih in pisnih besedilih) - Posplošitve o jeziku so mogoce le na podlagi
velikih besedilnih zbirk, ki nam služijo za
vzorec jezika -gt korpusi - Strojno ucenje (Machine Learning)
- data-driven automatic inference of rules
20Jezikovne tehnologije Raziskovalna podrocja
- Oblikoslovje besednovrstno oznacevanje
(part-of-speech tagging), lematizacija, razclemba
sestavljenih besed - Skladnja razpoznavanje stavcnih clenov,
slovnicnih funkcij (osebek/povedek/...) popolna
skladenjska analiza - Glasoslovje razpoznavanje in tvorjenje govora,
pogovorni sistemi - Pomenoslovje razreševanje vecpomenskosti,
avtomatska izdelava semanticnih virov (tezavrov,
ontologij) - Vecjezikovne tehnologije lušcenje prevodnih
ustreznic iz korpusov, strojno prevajanje in
tolmacenje - Jezik in internet iskanje podatkov, rudarjenje
besedil (Text Mining), napredni spletni iskalniki
21Jezikovne tehnologije Aplikacije
- korpusna orodja
- konkordancniki in orodja za statisticno obdelavo
korpusov - orodja za izdelavo vzporednih korpusov (poravnava
besedil) - orodja za oznacevanje korpusov
- prevajalska orodja
- terminološki programi, programi s pomnilnikom
prevodov, strojni prevajalniki - govorne aplikacije
- mobilna telefonija
- odgovarjanje na vprašanja (Question Answering)
- samopovzemanje dokumentov
- rudarjenje podatkov, rudarjenje besedil
22Dodatni viri
- Language Technology World http//www.lt-world.org
/ie_index.html - Interactive Online CL Demoshttp//www.ifi.unizh.
ch/CL/InteractiveTools.html - Natural Language Processing course
materialshttp//www.cs.cornell.edu/Courses/cs674
/2003sp/