Hrvatski nacionalni korpus - PowerPoint PPT Presentation

1 / 30
About This Presentation
Title:

Hrvatski nacionalni korpus

Description:

Title: Buliding the Croatian Morphological Lexicon Author: Marko Tadic Last modified by: Marko Tadic Created Date: 9/16/1999 2:01:18 PM Document presentation format – PowerPoint PPT presentation

Number of Views:32
Avg rating:3.0/5.0
Slides: 31
Provided by: Marko62
Category:

less

Transcript and Presenter's Notes

Title: Hrvatski nacionalni korpus


1
Hrvatski nacionalni korpus
  • Marko Tadic(marko.tadic_at_ffzg.hr, hnk.ffzg.hr/mt)
  • Odsjek za lingvistiku, Filozofski
    fakultetSveucilište u Zagrebu (hnk.ffzg.hr)
  • Sveucilište u Grazu, 2006-04-04

2
Plan predavanja
  • Hrvatski nacionalni korpus (HNK)
  • struktura
  • obilježavanje
  • dostupnost putem Interneta
  • Hrvatski morfološki leksikon (HML)
  • teorijska pozadina
  • primjena flektivnoga dijela leksikona
  • POS/MSD oznacavanje
  • sraz HNK-a i HML-a
  • POS/MSD oznacivac za hrvatski
  • Hrvatska ovisnosna banka stabala (HOBS)
  • Perspektive novoprijavljeni projekti

3
Hrvatski nacionalni korpus (HNK)
  • projekti Ministarstva znanosti i tehnologije
    Republike Hrvatske
  • 130718, Racunalna obradba hrvatskoga jezika,
    zapravo zapoceokrajem 1998.
  • 0130418, Razvitak hrvatskih jezicnih resursa,
    zapoceo 2002.
  • teorijske osnove za HNK još 1995., objavljene u 2
    clanka
  • Tadic (1996) Racunalna obradba hrvatskoga i
    nacionalni korpus, Suvremena lingvistika 41-42,
    603-612
  • Tadic (1998) Raspon, opseg i sastav korpusa
    suvremenoga hrvatskoga jezika, Filologija 30-31,
    337-347
  • iskazana potreba za hrvatskim referentnim sin- i
    dijakronijskim korpusom
  • dân je prijedlog za sastav korpusa
  • razraden je opseg, vremenski raspon i njegova
    struktura
  • predložena je dostupnost putem WWW-a

4
HNK v 1.0 Struktura
  • 30m30-milijunski korpus suvremenoga hrvatskoga
    jezika
  • tekstovi od 1990. do danas
  • razlicita podrucja i žanrovi
  • reprezentativan za suvremeni hrvatski standard
  • HETAHrvatski elektronicki tekstovni arhiv
  • tekstovi stariji od 1990.
  • tekstovi citavih serija publikacija / autora
    nakon 1990. koji bi poremetili ravnotežu i
    reprezentativnost 30m-a

5
HNK v 1.0 30m tipologija tekstova
  • nema novijih istraživanja o produkciji /
    recepciji teksta u hrvatskom
  • nema usustavljenih podataka o protoku teksta u
    društvu
  • broj naslova koji se posuduju u javnim
    knjižnicama
  • broj tjedana koliko neki naslov ostaje na popisu
    uspješnica
  • ukupna naklada novina, revija i casopisa
  • ...
  • kriteriji za odabir tekstova u korpus
  • podatci iz komercijalnih marketinških
    istraživanja o recepciji novina i revija
  • književna kritika o suvremenoj hrvatskoj prozi
  • strukture ostalih velikih referentnih korpusa
    (BNC, CNC...)

6
HNK v 1.0 30m tipologija tekstova 2
  • 1. Informativni tekstovi 74 22200000
  • 1.1. novine 37 11100000
  • 1.1.1. dnevnici 22 6600000
  • 1.1.2. tjednici 9 2700000
  • 1.1.3. dvotjednici 3 900000
  • 1.1.4. sporadicnici 3 900000
  • 1.2. magazini 16 4800000
  • 1.2.1. tjednici 9 2700000
  • 1.2.2. dvotjednici 1 300000
  • 1.2.3. mjesecnici 3 900000
  • 1.2.4. dvo-/tromjesecnici 3 900000
  • 1.3. knjige 21 6300000
  • 1.3.1. publicistika 4 1200000
  • 1.3.2. vještine itd. 4 1200000
  • 1.3.3. znanost 13 3900000
  • 2. Imaginativni tekstovi (Fiction) 23 6900000
  • 2.1. proza 23 6900000
  • 2.1.1. romani 13 3900000
  • 2.1.2. pripovijetke 5 1500000

7
HNK v 1.0 Prikupljanje tekstova
  • na pocetku je doneseno nekoliko tehnickih odluka
  • bez utipkavanja
  • bez optickoga prepoznavanja pismena (OCR)
  • samo e-tekst
  • neki su tekstni tipovi / žanrovi lakše dobavljivi
  • nema problema s
  • novinama
  • književnošcu
  • znanstvenim knjigama (društvene i humanisticke
    znanosti)
  • ozbiljan nedostatak grade iz
  • prirodnih znanosti (kemija, fizika)
  • tehnickih znanosti
  • do sada skupljeno više od 200 Mw, ali nije
    uravnoteženo
  • problemi s autorskim pravima
  • pojedinacni sporazumi s nakladnicima

8
HNK v 1.0 Obilježavanje tekstova
  • XML
  • XCES (XML inacica CES-a Corpus Encoding
    Standard) XML TEI
  • Ide, Bonhomme Romary (2000)
  • pridržavajte se standarda! za razmjenu
  • podataka vaš korpus može na isti nacin biti
    citljiv negdje drugdje
  • aplikacija razliciti alati mogu se primijeniti
    na vaš korpus bez ikakve potrebe za prilagodbom /
    preoblikom podataka
  • XML UNICODE kompatibilan (bez problema s kodnim
    stranicama)
  • obilježavanje
  • ltDIVgt 1. razina
  • ltPgt 1. razina
  • (ltWgt 2. razina)
  • detekcija recenicnih granica ltSgt
  • problem redni brojevi koji se u hrvatskome pišu
    s tockom,(npr. VII. ili 2002.) gdje tocka može
    biti i kraj recenice (28 su oboje!)

9
HNK v 1.0 Konverzija tekstova
  • formati ulaznih tekstova
  • WWW izvori HTML, XML
  • DTP izvori RTF, DOC, QXD, WP, TXT itd.
  • vlastiti software 2XML
  • ulaz HTML, RTF
  • izlaz XML, bez zaglavlja
  • dvostupanjska konverzija s pomocu korisnickih
    skripata
  • omogucuje visoku razinu automatizacije (batch
    processing)

10
HNK v 1.0 korpusni format 1
lt?xml version"1.0"?gt lt!DOCTYPE cesDoc PUBLIC
"-//CES//DTD XML cesDoc//EN"
"xcesDoc.dtd" gt
ltcesDoc version"3.19"gt ltcesHeader type"text"
version"3.19"gt ltfileDescgt
lttitleStmtgt lth.titlegtElectronic version
of Vecernji list, vl990311lt/h.titlegt
ltrespStmtgt ltrespTypegtXCES markup
prepared bylt/respTypegt ltrespNamegtBosko
Bekavaclt/respNamegt lt/respStmtgt
lt/titleStmtgt ltextentgt
ltwordCountgt4456lt/wordCountgt
ltbyteCountgt25385lt/byteCountgt lt/extentgt
ltpublicationStmtgt ltdistributorgtProject
MZT RH 130718lt/distributorgt
ltpubAddressgtInstitute of linguisticslt/pubAddressgt
lttelephonegt385 1 6120-142lt/telephonegt
ltfaxgt385 1 6856-118lt/faxgt
lteAddressgthttp//www.ffzg.hr/zzl/zzl-home.htmlt/eAd
dressgt ltidnogt76676665676lt/idnogt
ltavailability status"free"gt
lt/availabilitygt ltpubDategt1999-12-20lt/pu
bDategt lt/publicationStmtgt
ltsourceDescgt ltbiblStructgt
ltmonogrgt lth.titlegtVecernji
listlt/h.titlegt lth.authorgtlt/h.authorgt
ltimprintgt
ltpubPlacegtZagreblt/pubPlacegt
ltpublishergtVecernji listlt/publishergt
ltpubDategt1999-03-11lt/pubDategt
lt/imprintgt lt/monogrgt
lt/biblStructgt lt/sourceDescgt
lt/fileDescgt ltencodingDescgt
ltprojectDescgtCroatian National Corpus is being
collected in the Institute of linguistics,
Faculty of Philosophy, University of Zagreb in
the frame of the project "Computer processing of
Croatian language" granted by the Ministry of
Science and Technology of Republic of Croatia
under No. 130718lt/projectDescgt
lt/encodingDescgt ltprofileDescgt
ltlangUsagegt ltlanguage id"hr"
iso639"hr"gtCroatianlt/languagegt
lt/langUsagegt lttextClassgt ltcatRef
target"xxxxx"gtlt/catRefgt lth.keywordsgt ltkeyTermgt
Newspaperlt/keyTermgt lt/h.keywordsgt
lt/textClassgt lt/profileDescgt lt/cesHeadergt gt
11
HNK v 1.0 korpusni format 2
ltBODYgt ltDIV0 type"article"gt ltHEAD type"nn"gtU
GORICI SVETOJANSKOJ ODRŽAN 12. FESTIVAL PJEVACA
AMATERAlt/HEADgt ltHEAD type"na"gtIvana osvojila
županijski Sanremolt/HEADgt ltHEAD type"pn"gt Od
20 natjecatelja žiri je najboljom proglasio Ivanu
Erdeljac s pjesmom "Crazy", druga je Antonija
Mikita s pjesmom "To", a trece je mjesto osvojila
Ksenija Cveteticlt/HEADgt ltFIGUREgtPublici su se
najviše svidjeli Marija Šalic i Petar
Puhijeralt/FIGUREgt ltPgtPod medijskim
pokroviteljstvom "Vecernjeg lista" i Radio Jaske,
a uz pomoc DIR "Rubinic" kao generalnog te još
sedamdesetak drugih sponzora, u petak i u subotu
u Gorici Svetojanskoj pokraj Jastrebarskog održan
je 12. festival pjevaca amatera.lt/Pgt ltPgtPrve
festivalske veceri, na kojoj su nastupila 22
izvodaca do 15 godina, prvu nagradu strucnog
žirija odnijela je Petra Batelja iz Rastoka
pokraj Jaske za pjesmu "To malo ljubavi". Druga
nagrada pripala je Nikolini Oslakovic iz Gornje
Reke za pjesmu "Neka mi ne svane", a treca Mariji
Jurini iz Desinca za pjesmu "Ginem". Publika je
najboljom ocijenila svetojansku grupu "Mrvice" s
pjesmom "Mrvica", dok je drugu nagradu dodijelila
Natali Rajnovic iz Jaske za pjesmu "Don"t ever
cry", a trecu Aniti Oslakovic iz Desinca za
pjesmu "Malo fali". Za najboljeg debitanta prve
veceri proglašena je Irena Kišan iz Zdencine s
pjesmom "Izdali me".lt/Pgt ltPgtDruga vecer - s
dvadeset starijih izvodaca iz Jaske, Karlovca,
Bjelovara, Zagreba i Velike Gorice - bila je
osobito napeta, jer je za razliku od lani
ponudila vrlo kvalitetne izvodace i
interpretacije pa nije bilo lako odabrati
najbolje.lt/Pgt ltPgtNakon poduže stanke tijekom
koje su izbrojani glasovi - a koju su publici
kratili gost veceri Ivo Pattiera te sastav "Santa
Anna" i solistica Goga Copic - proglašeni su
ovogodišnji pobjednici. Prema ocjeni strucnog
žirija, prvu nagradu i zlatnu plaketu
"Vecernjaka" dobila je Karlovcanka Ivana Erdeljac
za vrlo dobro otpjevanu pjesmu "Crazy". Druga
nagrada pripala je Antoniji Mikiti iz Velike
Gorice za pjesmu "To", a treca Kseniji Cvetetic
iz Petrovine za pjesmu "Neka mi ne svane".lt/Pgt
ltPgtPublika je najviše glasova dodijelila
svetojansko-zagrebackom duetu Mariji Šalic i
Petru Puhijeri za interpretaciju pjesme "Ima li
nade za nas", pa je i njima pripala
"Vecernjakova" zlatna plaketa. Na drugo mjesto
publika je svrstala "Svetojanske tamburaše" koji
su nastupili s pjesmom "Dobro jutro", a na trece
Zagrepcanku Marijanu Parilac i pjesmu "Idi i ne
budi ljude".lt/Pgt ltPgtNajboljom debitanticom
završne veceri proglašena je Zagrepcanka Marina
Posilovic s pjesmom "Piši, piši mi", a nagradu za
najbolji scenski nastup dobio je sastav iz
Petrovine "Prigorje de lajt" s pjesmom "Oj
suseda, suseda". Cini se da su ovogodišnje
nagrade - a bilo ih je doista mnogo, od
sedmodnevnog boravka u Opatiji, umjetnicke slike,
bicikla i kazetofona do satova i poklon-bonova -
završile u pravim rukama. Oni koji ih nisu
dobili, a možda su ih takoder zaslužili, neka se
ovaj put utješe pljeskom publike, a dogodine ce
imati novu priliku. Jer, tradicija Svetojanskog
festivala - svojevrsnog Sanrema zagrebacke
županije - nastavlja se.lt/Pgt ltBYLINEgtN.
Godrijan-Videclt/BYLINEgt lt/DIV0gt lt/BODYgt
12
HNK v 1.0 korpusni format 3
ltBODYgt vl990301gr01 1 X ltDIV0 type"article"gt vl9
90301gr01 7 X ltHEAD type"nn"gt vl990301gr01 28 X U
vl990301gr01 44 R GORICI vl990301gr01 46 R SVET
OJANSKOJ vl990301gr01 53 R ODR381AN vl990301gr
01 66 R 12 vl990301gr01 78 B . vl990301gr01 80 I
FESTIVAL vl990301gr01 82 R PJEVA268A vl990301
gr01 91 R AMATERA vl990301gr01 104 R lt/HEADgt vl9
90301gr01 111 X ltHEAD type"na"gt vl990301gr01 118
X Ivana vl990301gr01 134 R osvojila vl990301gr01
140 R 382upanijski vl990301gr01 149 R Sanremo
vl990301gr01 165 R lt/HEADgt vl990301gr01 172 X ltH
EAD type"pn"gt vl990301gr01 179 X vl990301gr01
195 I Od vl990301gr01 197 R 20 vl990301gr01 200
B natjecatelja vl990301gr01 203 R 382iri vl990
301gr01 216 R je vl990301gr01 226 R najboljom vl
990301gr01 229 R proglasio vl990301gr01 239 R Iva
nu vl990301gr01 249 R Erdeljac vl990301gr01 255
R s vl990301gr01 264 R pjesmom vl990301gr01 266
R " vl990301gr01 275 I Crazy vl990301gr01 276 R
" vl990301gr01 281 I , vl990301gr01 282 I druga
vl990301gr01 284 R je vl990301gr01 290 R Antonij
a vl990301gr01 293 R Mikita vl990301gr01 302 R s
vl990301gr01 309 R pjesmom vl990301gr01 311 R
  • opojavnicenje (tokenization)
  • TOKENIZER vlastitisoftware
  • ulaz XML
  • izlaz 1 tab-datoteka kaoulaz u bazu
    podataka(vertikalizirani korpus)
  • izlaz 2 opojavniceni XML

13
HNK v 1.0 korpusni format 4
  • izlaz 2 opojavniceni XML

ltW type"R"gtmedijskimlt/Wgt ltW type"R"gtpokrovitelj
stvomlt/Wgt ltW type"I"gt"lt/Wgt ltW
type"R"gtVecernjeglt/Wgt ltW type"R"gtlistalt/Wgt ltW
type"I"gt"lt/Wgt ltW type"R"gtilt/Wgt ltW
type"R"gtRadiolt/Wgt ltW type"R"gtJaskelt/Wgt ltW
type"I"gt,lt/Wgt ltW type"R"gtalt/Wgt ltW
type"R"gtuzlt/Wgt ltW type"R"gtpomoclt/Wgt ltW
type"R"gtDIRlt/Wgt ltW type"I"gt"lt/Wgt ltW
type"R"gtRubiniclt/Wgt ltW type"I"gt"lt/Wgt ltW
type"R"gtkaolt/Wgt ltW type"R"gtgeneralnoglt/Wgt ltW
type"R"gttelt/Wgt ltW type"R"gtjošlt/Wgt ltW
type"R"gtsedamdesetaklt/Wgt ltW type"R"gtdrugihlt/Wgt
ltW type"R"gtsponzoralt/Wgt ltW type"I"gt,lt/Wgt ltW
type"R"gtult/Wgt ltW type"R"gtpetaklt/Wgt ltW
type"R"gtilt/Wgt ltW type"R"gtult/Wgt ltW
type"R"gtsubotult/Wgt ltW type"R"gtult/Wgt ltW
type"R"gtGoricilt/Wgt ltW type"R"gtSvetojanskojlt/Wgt
ltW type"R"gtpokrajlt/Wgt
ltW type"I"gt"lt/Wgt ltW type"I"gt,lt/Wgt ltW
type"R"gtdrugalt/Wgt ltW type"R"gtjelt/Wgt ltW
type"R"gtAntonijalt/Wgt ltW type"R"gtMikitalt/Wgt ltW
type"R"gtslt/Wgt ltW type"R"gtpjesmomlt/Wgt ltW
type"I"gt"lt/Wgt ltW type"R"gtTolt/Wgt ltW
type"I"gt"lt/Wgt ltW type"I"gt,lt/Wgt ltW
type"R"gtalt/Wgt ltW type"R"gttrecelt/Wgt ltW
type"R"gtjelt/Wgt ltW type"R"gtmjestolt/Wgt ltW
type"R"gtosvojilalt/Wgt ltW type"R"gtKsenijalt/Wgt
ltW type"R"gtCveteticlt/Wgt lt/HEADgt ltFIGUREgt ltW
type"R"gtPublicilt/Wgt ltW type"R"gtsult/Wgt ltW
type"R"gtselt/Wgt ltW type"R"gtnajvišelt/Wgt ltW
type"R"gtsvidjelilt/Wgt ltW type"R"gtMarijalt/Wgt ltW
type"R"gtŠaliclt/Wgt ltW type"R"gtilt/Wgt ltW
type"R"gtPetarlt/Wgt ltW type"R"gtPuhijeralt/Wgt
lt/FIGUREgt ltPgt ltW type"R"gtPodlt/Wgt
ltBODYgt ltDIV0 type"article"gt ltHEAD type"nn"gt
ltW type"R"gtUlt/Wgt ltW type"R"gtGORICIlt/Wgt ltW
type"R"gtSVETOJANSKOJlt/Wgt ltW type"R"gtODRŽANlt/Wgt
ltW type"B"gt12lt/Wgt ltW type"I"gt.lt/Wgt ltW
type"R"gtFESTIVALlt/Wgt ltW type"R"gtPJEVACAlt/Wgt
ltW type"R"gtAMATERAlt/Wgt lt/HEADgt ltHEAD
type"na"gt ltW type"R"gtIvanalt/Wgt ltW
type"R"gtosvojilalt/Wgt ltW type"R"gtžupanijskilt/Wgt
ltW type"R"gtSanremolt/Wgt lt/HEADgt ltHEAD
type"pn"gt ltW type"I"gtlt/Wgt ltW type"R"gtOdlt/Wgt
ltW type"B"gt20lt/Wgt ltW type"R"gtnatjecateljalt/Wgt
ltW type"R"gtžirilt/Wgt ltW type"R"gtjelt/Wgt ltW
type"R"gtnajboljomlt/Wgt ltW type"R"gtproglasiolt/Wgt
ltW type"R"gtIvanult/Wgt ltW type"R"gtErdeljaclt/Wgt
ltW type"R"gtslt/Wgt ltW type"R"gtpjesmomlt/Wgt ltW
type"I"gt"lt/Wgt ltW type"R"gtCrazylt/Wgt
14
HNK v 1.0 korpus na www-uhttp//hnk.ffzg.hr
  • probna inacica V 1.0 1998-12-05
  • 30m 3 Mw
  • probna inacica V 1.1 1999-02-14 1999-07-20
  • 30m 7,67 Mw
  • HETA 2,9 Mw s CD-ROM-a Klasici hrvatske
    književnosti, Naklada Bulaja, Zagreb, 1999.
  • probna inacica V 1.2 (oko 10 Mw) 2001-10
  • tekst format quasi-HTML, bez XML-a
  • probna inacica V 1.3 (oko 17 Mw) 2002-06
  • tehnicke pojedinosti
  • WinNT platforma
  • MS-SQL server 6.5 s ASP/ODBC i vlastitim suceljem
    za pretraživanje
  • jednostavni jedno-rjecni upiti bez redanja i bez
    POS / MSD podataka
  • konkordancije i cestota

15
HNK v 1.0 statistika
  • hnk.ffzg.hr/stats

16
HNK v 2.0 korpus na www-uhttp//hnk.ffzg.hr
  • nova inacica v 2.0ß 2004-12-20
  • napušta se razdioba na 30m i HETA-u
  • korpus 3. generacije (John Sinclair The bigger,
    the better)
  • gt46 Mw
  • inacica v 2.0 2005-12-18
  • 101,2 Mw
  • tehnicke pojedinosti
  • nova platforma (Linux), sustav Pavela Rychlýa
    http//www.textforge.cz
  • poslužitelj (korpusový manažer) Manatee
  • korisnicki klijent Bonito
  • znatno razradenije i pristupacnije sucelje
  • konkordancije (više rijeci, regularni izrazi,
    strukturne oznake itd.)
  • statisticki podatci
  • pronalaženje kolokacija
  • upiti po lemama, MSD-ovima
  • ?

17
POS/MSD oznacavanje HNK
  • POS / MSD podatci u korpusu znatno mu pospješuju
    uporabivost
  • hrvatski (poput bilo kojeg drugoga slavenskoga
    jezika)
  • flektivno bogat jezik
  • imenice 7 padeža, 2 broja, 3 roda
  • pridjevi 2 lika (odredeni i neodredeni), 3
    stupnja u komparaciji
  • prilozi 3 stupnja u komparaciji
  • zamjenice 7 padeža, 2 broja, 3 roda, 3 lica
  • brojevi 7 padeža, 3 roda(, 2 broja)
  • glagoli
  • 2 broja, 3 lica
  • 3 jednostavna, 3 analiticka vremena (s 3 roda i 2
    broja u glagolskim pridjevima)
  • 2 dodatna participa (glagolski prilozi)
  • 2 kondicionala
  • imperativ
  • iznimno složen sustav glagolskoga vida (svršeni i
    nesvršeni / iterativni)
  • vecina je sintaktickih odnosa u recenici kodirana
    fleksijom
  • POS/MSD oznacavanje/lematizacija znacajno pomaže
    sintaktickoj analizi

18
Hrvatski morfološki leksikon (HML)
  • model hrvatskoga morfološkoga sustava
  • sve kombinacije morfema u skladu s morfotaktickim
    pravilima hrvatskoga na 2 razine
  • derivacija/kompozicija
  • fleksija
  • ostvarive generiranjem
  • osnova rijeci
  • oblika rijeci
  • pohranjenih u bazu podataka za daljnju primjenu
  • leksikon osnova rijeci
  • leksikon oblika rijeci
  • i-projekt 2002-100 Ministarstva znanosti i
    tehnologije Republike Hrvatske
  • jednogodišnji projekt usmjeren na primjenu IT u
    znanosti

19
Teorijska podloga
  • Halle (1973) morfologija sastavnica leksikona
    koja generira sve moguce kombinacije morfema
  • problem
  • provjera ovjerenosti (gramaticnosti) morfemskih
    kombinacija
  • filtriranje nepotvrdenih, a ipak mogucih
    kombinacija
  • derivacijska vs. flektivna morfologija, odjelite
    ili ne?
  • generativna fonologija, leksicka fonologija
  • nekoliko razina primjena pravila problemi
  • razlicita / ista pravila u razlicitim / istim
    kotekstima
  • krutost paradimatskoga sustava ltgt nekrutost
    derivacijskoga sustava
  • simetricnost paradigmatskoga sustava ltgt
    asimetricnost derivacijskoga
  • ciklicka pravila u derivaciji ltgt neciklicka
    pravila u fleksiji
  • ...

20
Teorijska podloga 2
  • odluka držati dvije sastavnice morfološkoga
    modela odjelitima
  • razlikuju se u
  • pravilima i njihovoj primjeni
  • ulaznim leksikonima
  • generatorima
  • nedavno je nekoliko modela dijela ili citave
    morfologije slavenskih jezika ostvareno u obliku
    leksikona
  • Vetulani (2000) za poljski
  • Klímova i Kocek (2000), Osolsobe i dr. (2002) za
    ceški
  • Rojc i dr. (2002) za slovenski
  • odlucili smo se za slican pristup

21
Struktura HML-a
  • dva generirana leksikona
  • osnova rijeci
  • oblika rijeci
  • terminološka nedosljednost u tradicionalnoj
    gramatici
  • tvorba rijeci (word forming)
  • tvorba oblika (word-form forming)

tvorba osnova (stem forming)
tvorba rijeci (word forming)
leksickimorfem(i)
osnova
oblik rijeci

derivacijskimorfem(i)

flektivnimorfem
22
Leksikon osnova
  • popis leksickih morfema (-da-, -gled-, -vik-,...)
  • popis derivacijskih morfema (pro-, pre-, -av-,
    -ac-, -ic-,...)
  • pravila kombiniranja morala bi proizvesti osnove
  • da-, proda-, preproda-
  • dava-, prodava-, preprodava-
  • davac-, prodavac-, preprodavac-
  • davacic-, prodavacic-, preprodavacic-
  • ...
  • derivacijski kapacitet nekoga jezika
    kumulativni rezultat takva generiranja
  • iznimno pomagalo u leksikografiji, izgradnji
    terminologije,psiholingvistici, kognitivnoj
    lingvistici, usvajanju jezika,ucenju stranih
    jezika itd.

23
Leksikon osnova 2 format
  • svaki leksicki unosak mora sadržavati podatke o
  • uporabljenim morfemima
  • morfotakticki uzorak
  • moguce dodatne semanticke podatke
  • struktura unoska
  • pre-pro-da-v-ac-ic - -da- p2p1l s1s2s3 NAf
  • generirana osnova
    leksicki derivacijski semanticki
    morfem uzorak podatci
  • citav sustav derivacijskih uzoraka mogao bi se
    razviti imajuci u vidu
  • istraživanje/suradnju/standardizaciju medu
    slavenskim jezicima
  • stupanj medusobne pravilnosti derivacijskih
    uzoraka i semantickih podataka
  • racunalna realizacija derivacijskoga generatora
  • regularne gramatike ?

24
Leksikon oblika
  • flektivni model hrvatskoga tj. flektivni dio
    HML-a vec je ostvaren
  • vec postoje preporuke za flektivne oznake
  • MULTEXT East projekt (1995-1997) 6 CEE jezika
  • MULTEXT East v 3.0, http//nl.ijs.si/ME/V3
  • hrvatska specifikacija dodana još 1998.
  • Hrvatski flektivni generator GenOblik (Tadic
    1994)
  • klasifikacijski utemeljen flektivni model
  • 613 flektivnih uzoraka
  • 404 imenicnih
  • 42 pridjevskih
  • 12 komparacijskih
  • 155 glagolskih
  • jednostavan model, poštuje jezicne jedinice, nije
    racunalno optimiziran
  • nastavci i alomorfske preoblike osnova upravljane
    su flektivnim uzorkom

25
Leksikon oblika 2 generiranje
  • generator uzimlje 3 ulazna popisa
  • lema s osnovama (leksikon)
  • nastavaka
  • preoblika
  • leksikon
  • lema osnova flektivni uzorak

deklinacija
bacati bac 0/501/0 baciti bac 0/511/0 bagateli
zirati bagatelizir 0/501,502/0 bagerirati bagerir
0/501,502/0 bajati baj 0/501/0 baktati bakt 0
/501/0 balansirati balansir 0/501/0 balegati bal
eg 0/501/0 baliti bal 0/509,510/0 balzamirati b
alzamir 0/501,502/0 baljezgati baljezg 0/501/0
konjugacija
komparacija
26
Leksikon oblika 3 generiranje
  • nastavci
  • imenice ltpat, par, num, casgt
  • pridjevi ltpat, par, gen, num, casgt
  • glagoli ltpat, ten, num, per/gengt
  • komparacija ltpat, gragt
  • pohranjeni u tablicu i dohvatljivi putem zadanih
    vrijednosti kao koordinata
  • preoblike
  • dopuštene samo na kraju osnova
  • svega 35 jednostavnih preoblika za citav
    flektivni sustav
  • usko povezane s flektivnih uzorcima kontrolirani
    kotekst primjene pravila preoblika
  • pohranjeni u istovjetnu tablicu kao i nastavci
  • MTE oznake (MSD-ovi) takoder mogu biti pohranjeni
    u tablici, ali u našem su slucaju generirani
    zajedno s oblicima

27
HML v 1.0
  • natuknicki popis iz Rjecnika hrvatskoga jezika
    (Anic 11991)
  • oko 36,000 natuknica
  • 18,019 imenica
  • 7,735 glagola
  • 5,504 pridjeva
  • 6,517 priloga
  • ...
  • rucno oznaceni pripadajucim im brojem flektivnoga
    uzorka
  • generirano lema oblika
  • imenice 12,076 171,380
  • glagoli 7,735 232,276
  • pridjevi 5,504 1,207,786
  • prilozi 6,617 11,706

28
HML v 1.0
  • abdikacija Ncfpg
  • abdikacija abdikacija Ncfsn
  • abdikacijama abdikacija Ncfpd
  • abdikacijama abdikacija Ncfpi
  • abdikacijama abdikacija Ncfpl
  • abdikacije abdikacija Ncfpa
  • abdikacije abdikacija Ncfpn
  • abdikacije abdikacija Ncfpv
  • abdikacije abdikacija Ncfsg
  • abdikaciji abdikacija Ncfsd
  • abdikaciji abdikacija Ncfsl
  • abdikacijo abdikacija Ncfsv
  • abdikacijom abdikacija Ncfsi
  • abdikaciju abdikacija Ncfsa
  • abeceda Ncfsn
  • abecede abeceda Ncfsg
  • abecedi abeceda Ncfsd
  • abecedu abeceda Ncfsa
  • abecedo abeceda Ncfsv
  • abolicija Ncfsn
  • abolicije abolicija Ncfsg
  • aboliciji abolicija Ncfsd
  • aboliciju abolicija Ncfsa
  • abolicijo abolicija Ncfsv
  • aboliciji abolicija Ncfsl
  • abolicijom abolicija Ncfsi
  • abolicije abolicija Ncfpn
  • abolicija abolicija Ncfpg
  • abolicijama abolicija Ncfpd
  • abolicije abolicija Ncfpa
  • abolicije abolicija Ncfpv
  • abolicijama abolicija Ncfpl
  • abolicijama abolicija Ncfpi
  • abrazija Ncfsn
  • abrazija abrazija Ncfpg
  • abrazijama abrazija Ncfpd
  • abrazijama abrazija Ncfpi
  • abrazijama abrazija Ncfpl

29
Leksikon oblika 5 problemi
  • analiticka glagolska vremena/nacini
  • generiran samo participski ili infinitivni dio
  • povratni glagoli
  • nije generirana povratna zamjenica
  • na ovoj razini nema razlike povratni ?
    nepovratni glagoli
  • iskljuciti analiticka vremena kao cjelinu iz
    POS/MSD oznacavanja
  • barem u stanju prvotnoga oznacavanja
  • pomocni glagoli i/li povratna zamjenica
  • mogu biti gotovo bilo gdje u recenici
  • mogu biti ispušteni (i stanovitim kotekstima)
  • Ona se okrenula i pogledala u zrcalo.
  • Bio sam krenuo pa potom stao.
  • mogu svojim položajem utjecati na glavni
    glagolski oblik
  • Vidjet cemo... ? Sutra cemo vidjeti...
  • oznacavanje u nekoliko koraka ili sintakticka
    analiza?

30
Hrvatski lematizacijski poslužitelj
  • HML v 2.0 tj. leksikon oblika pohranjen je u bazu
    podataka
  • slobodno pretraživ na http//hml.ffzg.hr
  • korisnicko ime proba zaporka proba
  • oko 45.000 lema opcega jezika
  • oko 15.000 osobnih muških i ženskih imena
  • oko 50.000 prezimena registriranih u RH
  • preko 3.500.000 generiranih oblika rijeci
  • mogucnost pokretranja pretrage preko Googlea s
    upitom koji obuhvaca sve oblike hrvatskih rijeci
  • ?

31
POS / MSD oznacavanje HNK
  • ostvareni koraci
  • stvaranje potkorpusa HNK od barem 100.000 rijeci
    (CW2000)
  • sraz CW2000 s HML-om
  • dobivanje svih mogucih MSD/lema interpretacija na
    unigramskoj razini (kotekst se ne uzimlje u
    obzir)
  • (polu-)rucno razoblicavanje (disambiguation) ?
    MSD oznacen i lematiziran CW2000 pretraživ s
    pomocu Bonita po lemama iMSD-ovima
  • uporaba razoblicenoga CW2000 korpusa kao trening
    korpusa za oznacivac (tagger) TnT
  • vrjednovanje oznacavanja (Agic Tadic, LREC2006)
  • oznacavanje HNK treniranim oznacivacem

32
Oznacavanje HNK rezultat sraza
ltW type"R"gt ltphgtslabult/phgt ltlemagtslablt/lemagt
ltaagtAfpfsanAfpfsayAfpmsdnAfpmslnAfpnsdnAfpn
slnlt/aagt lttagtlt/tagtlt/Wgt ltW type"R"gt ltphgtgospoda
rskult/phgt ltlemagtgospodarskilt/lemagt
ltaagtAfpfsaylt/aagt lttagtlt/tagtlt/Wgt ltW
type"R"gt ltphgtaktivnostlt/phgt ltlemagtaktivnostlt/l
emagt ltaagtNcfsaNcfsnlt/aagt lttagtlt/tagtlt/Wgt ltW
type"R"gtult/Wgt ltW type"R"gt ltphgtzemljamalt/phgt
ltlemagtzemljalt/lemagt ltaagtNcfpdNcfpiNcfpllt/aagt
lttagtlt/tagtlt/Wgt ltW type"R"gt ltphgteuropskelt/phgt
ltlemagteuropskilt/lemagt ltaagtAfpfpayAfpfpnyAfpf
pvyAfpfsgyAfpmpaylt/aagt lttagtlt/tagtlt/Wgt ltW
type"R"gt ltphgtunijelt/phgt ltlemagtunijalt/lemagt lta
agtNcfpaNcfpnNcfpvNcfsglt/aagt lttagtlt/tagtlt/Wgt
33
Oznacavanje HNK
  • sraz na unigramskoj razini
  • dobivanje homografske težine svake pojavnice i
    razlicnice
  • homografija izrazito visoka

34
Oznacavanje HNK homografija
  • dvije vrste homografije
  • unutarnja
  • vanjska
  • unutarnja homografija (homografija unutar iste
    vrste rijeci)
  • pojavnica može predstavljati razlicite oblike
    (tj. MSD interpretacije) iste leme
  • izrazito prisutna u slavenskim jezicima
    (sinkretizam padeža itd.)
  • npr. u hrvatskih imenica dativ, lokativ i
    instrumental množine
  • oblik lema MSD
  • gledateljima gledatelj Ncmpd
  • gledateljima gledatelj Ncmpl
  • gledateljima gledatelj Ncmpi
  • osobito prisutna u hrvatskih pridjeva
  • 227 pravilnih oblika s razlicitim MSD-ima
  • 37 razlicnica
  • odnos 1 razlicnica 6,14 oblika (tj.
    razlicitih MSD-a)

35
Oznacavanje HNK homografija 2
  • vanjska homografija (homografija izmedu
    razlicitih vrsta rijeci)
  • pojavnica može predstavljati razlicite oblike
    (tj. MSD interpretacije) dvije ili više lema
  • izrazito prisutna u flektivno siromašnim jezicima
    (engleski, francuski...)
  • hrvatski primjer
  • word-form lemma MSD
  • cijenjene cijeniti Vmps-pfp
  • cijenjene cijenjen Afpfpan
  • cijenjene cijenjen Afpfpay
  • cijenjene cijenjen Afpfpnn
  • cijenjene cijenjen Afpfpny
  • cijenjene cijenjen Afpfpvy
  • cijenjene cijenjen Afpfsgn
  • cijenjene cijenjen Afpfsgy
  • cijenjene cijenjen Afpfsgy
  • cijenjene cijenjen Afpmpay
  • za hrvatski nismo imali nikakve statistike o
    homografskoj opterecenosti

36
Oznacavanje HNK homografija 3
  • statistika homografije u HML-u
  • Lema u HML-u (samo N, V, A) 25.103
  • Razlicitih oblika (obliklemaMSD) 1,534.209
  • Jedinstvenih oblika (razlicnica) 482.332
  • Jedinstvenih oblika s više MSD-ova 271.111
    56,21
  • unutarnje homografnih
  • Prosjecan broj MSD-ova po homografnom
    obliku 4,85 MSD-a/oblik
  • Jedinstvenih homografnih oblika s više lema
    8366 1,73
  • vanjski homografnih
  • unutarnja homografija prevladava u leksikonu
  • 56 svih jedinstvenih oblika je homografno
  • govori nam nešto o isuviše uskoj definiciji MSD-a
  • MSD oznake mogle bi biti jednostavnije od MTE
    preporuka (?)
  • skup oznaka samo s podatcima o vrstama rijeci
    mogao bi lako dosegnuti tocnost vecu od 95
  • usp. Džeroski i dr. (2000) za slovenski

37
Oznacavanje HNK homografija 4
  • statistika homografije u pilot-korpusu prije
    razrješenja homografa
  • Pojavnica u korpusu 501.264
  • Pojavnica sraženo s HML-om 279.613 55,78
  • Homografnih pojavnica 36.636 13,06
  • Prosjecan broj MSD-ova po homografnom
    obliku 4,42 MSD-a/oblik
  • Homografnih pojavnica s više lema 3.628
    1,30
  • vanjski homografnih
  • usporedba s prethodnom tablicom
  • homografija je u HML-u znatno prisutnija nego u
    korpusu (56 13)
  • u leksikonu postoji in potentia dok se u stvarnom
    tekstu realiziraju samo neki od svih oblika
  • prosjecan broj MSD-ova po homografnom obliku
    gotovo je isti(4.85 4.42)
  • ovaj bi parametar mogao biti isti za oba jezicna
    resursa
  • vanjska homografija opala je neznatno (1.74
    1.30)
  • ovaj bi parametar takoder mogao biti isti za oba
    jezicna resursa

38
Oznacavanje HNK
  • HML se popunjava s novim natuknicama
  • postupak automatskoga proširivanja HML-a (Oliver
    Tadic, LREC2004)
  • metode automatskoga ucenja paradigmi
  • provjeren od prije na ruskome
  • primjena na hrvatskome
  • preliminarni rezultati dali ohrabrujuce rezultate

39
Oznacavanje HNK razoblicenje
  • uporaba lokalnih gramatika (regularnih gramatika)
    za razoblicenje u stanovitim vrstama konstrukcija
  • nazivi, brojcani izrazi, izrazi za mjere
  • vremenski i prostorni izrazi
  • prijedložni izrazi ((u)P ((bližem)Adj
    (gradu)N)NP)PP (Bekavac, 2006)
  • Intex i Unitex sustavi regularne gramatike,
    transduktori
  • statistika POS / MSD kolokacijskih uzoraka
  • u pilot-korpusu AN 40935 NN 21931 NAN 10033
    AAN 5172 ANN 5021

40
Oznacavanje HNK treniranje oznacivaca
  • TNT oznacivac (Brants 2000), trigramski
    statisticki oznacivac
  • dobro se nosi s velikih skupovima oznaka
  • ocekivana velicina preko 2000 oznaka
  • korišten u eksperimentima za slovenski (Džeroski
    i dr. 2000)
  • moguc redizajn skupa oznaka dvo-stupanjsko
    oznacavanje (?)
  • 1. stupanj skup oznaka sa širim kategorijama
    (samo vrsta rijeci)
  • 2. stupanj finiji skup oznaka
  • npr. hrvatski pasivni participi
  • dio glagolske paradigme
  • Rukavice su bile bacene na stol.
  • adjektivizirani participi ? dijelovi pridjevske
    paradigme
  • Bacene rukavice ležale su na stolu.
  • visoka cestota ? mnogo rucnog razrješavanja
    homografa
  • rješenje uvodenje medukategorije (npr.
    participa) i prepuštanje razrješenja homografa na
    sljedecoj razini obradbe

41
Sintakticko oznacavanje HNK HOBS
  • izgradnja Hrvatske ovisnosne banke stabala (HOBS)
  • preuzeta metodologija iz Praške ovisnosne banke
    stabala (PDT)
  • 1. oznacavanje analitickoga sloja
  • 2. oznacavanje tektogramatickoga sloja
  • rucno oznacavanje ovisnosnih sintaktickih
    funkcija
  • korpus CW2000
  • alat TrEd (Tree editor) Petra Pajasa (PDT)
  • na hnk.ffzg.hr/hobs
  • opis banke
  • primjeri gt50 recenica
  • ?

42
Perspektive
  • HNK
  • daljnje povecanje na 200 Mw do 2010.
  • ukljucivanje POS / MSD podataka u korpus (bez
    razoblicenja vec 2006.)
  • HML
  • proširiti leksikon oblika novim lemama
  • dovršiti model leksikona osnova i generirati
    osnove (dugorocan plan)
  • POS / MSD oznacavanje HNK
  • razvitak lokalnih gramatika i njihova primjena u
    razrješenju homografa
  • treniranje oznacivaca na ostalim vrstama tekstova
  • MZOŠ-u u ožujku prijavljen program
    Racunalnolingvisticki modeli i jezicne
    tehnologije za hrvatski jezik s 5 projekata
  • Hrvatski jezicni resursi i njihovo oznacavanje
  • Hrvatska racunalna sintaksa
  • Leksicka semantika u izgradnji hrvatskoga
    WordNeta
  • Informacijska tehnologija u prevodenju hrvatskoga
    i ucenju jezika
  • Otkrivanje znanja u hrvatskim dokumentima

43
Hrvatski nacionalni korpus
  • Marko Tadic(marko.tadic_at_ffzg.hr, hnk.ffzg.hr/mt)
  • Odsjek za lingvistiku, Filozofski
    fakultetSveucilište u Zagrebu (hnk.ffzg.hr)
  • Sveucilište u Grazu, 2006-04-04
Write a Comment
User Comments (0)
About PowerShow.com