Title: Hrvatski nacionalni korpus
1Hrvatski nacionalni korpus
- Marko Tadic(marko.tadic_at_ffzg.hr, hnk.ffzg.hr/mt)
- Odsjek za lingvistiku, Filozofski
fakultetSveucilište u Zagrebu (hnk.ffzg.hr) - Sveucilište u Grazu, 2006-04-04
2Plan predavanja
- Hrvatski nacionalni korpus (HNK)
- struktura
- obilježavanje
- dostupnost putem Interneta
- Hrvatski morfološki leksikon (HML)
- teorijska pozadina
- primjena flektivnoga dijela leksikona
- POS/MSD oznacavanje
- sraz HNK-a i HML-a
- POS/MSD oznacivac za hrvatski
- Hrvatska ovisnosna banka stabala (HOBS)
- Perspektive novoprijavljeni projekti
3Hrvatski nacionalni korpus (HNK)
- projekti Ministarstva znanosti i tehnologije
Republike Hrvatske - 130718, Racunalna obradba hrvatskoga jezika,
zapravo zapoceokrajem 1998. - 0130418, Razvitak hrvatskih jezicnih resursa,
zapoceo 2002. - teorijske osnove za HNK još 1995., objavljene u 2
clanka - Tadic (1996) Racunalna obradba hrvatskoga i
nacionalni korpus, Suvremena lingvistika 41-42,
603-612 - Tadic (1998) Raspon, opseg i sastav korpusa
suvremenoga hrvatskoga jezika, Filologija 30-31,
337-347 - iskazana potreba za hrvatskim referentnim sin- i
dijakronijskim korpusom - dân je prijedlog za sastav korpusa
- razraden je opseg, vremenski raspon i njegova
struktura - predložena je dostupnost putem WWW-a
4HNK v 1.0 Struktura
- 30m30-milijunski korpus suvremenoga hrvatskoga
jezika - tekstovi od 1990. do danas
- razlicita podrucja i žanrovi
- reprezentativan za suvremeni hrvatski standard
- HETAHrvatski elektronicki tekstovni arhiv
- tekstovi stariji od 1990.
- tekstovi citavih serija publikacija / autora
nakon 1990. koji bi poremetili ravnotežu i
reprezentativnost 30m-a
5HNK v 1.0 30m tipologija tekstova
- nema novijih istraživanja o produkciji /
recepciji teksta u hrvatskom - nema usustavljenih podataka o protoku teksta u
društvu - broj naslova koji se posuduju u javnim
knjižnicama - broj tjedana koliko neki naslov ostaje na popisu
uspješnica - ukupna naklada novina, revija i casopisa
- ...
- kriteriji za odabir tekstova u korpus
- podatci iz komercijalnih marketinških
istraživanja o recepciji novina i revija - književna kritika o suvremenoj hrvatskoj prozi
- strukture ostalih velikih referentnih korpusa
(BNC, CNC...)
6HNK v 1.0 30m tipologija tekstova 2
- 1. Informativni tekstovi 74 22200000
- 1.1. novine 37 11100000
- 1.1.1. dnevnici 22 6600000
- 1.1.2. tjednici 9 2700000
- 1.1.3. dvotjednici 3 900000
- 1.1.4. sporadicnici 3 900000
- 1.2. magazini 16 4800000
- 1.2.1. tjednici 9 2700000
- 1.2.2. dvotjednici 1 300000
- 1.2.3. mjesecnici 3 900000
- 1.2.4. dvo-/tromjesecnici 3 900000
- 1.3. knjige 21 6300000
- 1.3.1. publicistika 4 1200000
- 1.3.2. vještine itd. 4 1200000
- 1.3.3. znanost 13 3900000
- 2. Imaginativni tekstovi (Fiction) 23 6900000
- 2.1. proza 23 6900000
- 2.1.1. romani 13 3900000
- 2.1.2. pripovijetke 5 1500000
7HNK v 1.0 Prikupljanje tekstova
- na pocetku je doneseno nekoliko tehnickih odluka
- bez utipkavanja
- bez optickoga prepoznavanja pismena (OCR)
- samo e-tekst
- neki su tekstni tipovi / žanrovi lakše dobavljivi
- nema problema s
- novinama
- književnošcu
- znanstvenim knjigama (društvene i humanisticke
znanosti) - ozbiljan nedostatak grade iz
- prirodnih znanosti (kemija, fizika)
- tehnickih znanosti
- do sada skupljeno više od 200 Mw, ali nije
uravnoteženo - problemi s autorskim pravima
- pojedinacni sporazumi s nakladnicima
8HNK v 1.0 Obilježavanje tekstova
- XML
- XCES (XML inacica CES-a Corpus Encoding
Standard) XML TEI - Ide, Bonhomme Romary (2000)
- pridržavajte se standarda! za razmjenu
- podataka vaš korpus može na isti nacin biti
citljiv negdje drugdje - aplikacija razliciti alati mogu se primijeniti
na vaš korpus bez ikakve potrebe za prilagodbom /
preoblikom podataka - XML UNICODE kompatibilan (bez problema s kodnim
stranicama) - obilježavanje
- ltDIVgt 1. razina
- ltPgt 1. razina
- (ltWgt 2. razina)
- detekcija recenicnih granica ltSgt
- problem redni brojevi koji se u hrvatskome pišu
s tockom,(npr. VII. ili 2002.) gdje tocka može
biti i kraj recenice (28 su oboje!)
9HNK v 1.0 Konverzija tekstova
- formati ulaznih tekstova
- WWW izvori HTML, XML
- DTP izvori RTF, DOC, QXD, WP, TXT itd.
- vlastiti software 2XML
- ulaz HTML, RTF
- izlaz XML, bez zaglavlja
- dvostupanjska konverzija s pomocu korisnickih
skripata - omogucuje visoku razinu automatizacije (batch
processing)
10HNK v 1.0 korpusni format 1
lt?xml version"1.0"?gt lt!DOCTYPE cesDoc PUBLIC
"-//CES//DTD XML cesDoc//EN"
"xcesDoc.dtd" gt
ltcesDoc version"3.19"gt ltcesHeader type"text"
version"3.19"gt ltfileDescgt
lttitleStmtgt lth.titlegtElectronic version
of Vecernji list, vl990311lt/h.titlegt
ltrespStmtgt ltrespTypegtXCES markup
prepared bylt/respTypegt ltrespNamegtBosko
Bekavaclt/respNamegt lt/respStmtgt
lt/titleStmtgt ltextentgt
ltwordCountgt4456lt/wordCountgt
ltbyteCountgt25385lt/byteCountgt lt/extentgt
ltpublicationStmtgt ltdistributorgtProject
MZT RH 130718lt/distributorgt
ltpubAddressgtInstitute of linguisticslt/pubAddressgt
lttelephonegt385 1 6120-142lt/telephonegt
ltfaxgt385 1 6856-118lt/faxgt
lteAddressgthttp//www.ffzg.hr/zzl/zzl-home.htmlt/eAd
dressgt ltidnogt76676665676lt/idnogt
ltavailability status"free"gt
lt/availabilitygt ltpubDategt1999-12-20lt/pu
bDategt lt/publicationStmtgt
ltsourceDescgt ltbiblStructgt
ltmonogrgt lth.titlegtVecernji
listlt/h.titlegt lth.authorgtlt/h.authorgt
ltimprintgt
ltpubPlacegtZagreblt/pubPlacegt
ltpublishergtVecernji listlt/publishergt
ltpubDategt1999-03-11lt/pubDategt
lt/imprintgt lt/monogrgt
lt/biblStructgt lt/sourceDescgt
lt/fileDescgt ltencodingDescgt
ltprojectDescgtCroatian National Corpus is being
collected in the Institute of linguistics,
Faculty of Philosophy, University of Zagreb in
the frame of the project "Computer processing of
Croatian language" granted by the Ministry of
Science and Technology of Republic of Croatia
under No. 130718lt/projectDescgt
lt/encodingDescgt ltprofileDescgt
ltlangUsagegt ltlanguage id"hr"
iso639"hr"gtCroatianlt/languagegt
lt/langUsagegt lttextClassgt ltcatRef
target"xxxxx"gtlt/catRefgt lth.keywordsgt ltkeyTermgt
Newspaperlt/keyTermgt lt/h.keywordsgt
lt/textClassgt lt/profileDescgt lt/cesHeadergt gt
11HNK v 1.0 korpusni format 2
ltBODYgt ltDIV0 type"article"gt ltHEAD type"nn"gtU
GORICI SVETOJANSKOJ ODRŽAN 12. FESTIVAL PJEVACA
AMATERAlt/HEADgt ltHEAD type"na"gtIvana osvojila
županijski Sanremolt/HEADgt ltHEAD type"pn"gt Od
20 natjecatelja žiri je najboljom proglasio Ivanu
Erdeljac s pjesmom "Crazy", druga je Antonija
Mikita s pjesmom "To", a trece je mjesto osvojila
Ksenija Cveteticlt/HEADgt ltFIGUREgtPublici su se
najviše svidjeli Marija Šalic i Petar
Puhijeralt/FIGUREgt ltPgtPod medijskim
pokroviteljstvom "Vecernjeg lista" i Radio Jaske,
a uz pomoc DIR "Rubinic" kao generalnog te još
sedamdesetak drugih sponzora, u petak i u subotu
u Gorici Svetojanskoj pokraj Jastrebarskog održan
je 12. festival pjevaca amatera.lt/Pgt ltPgtPrve
festivalske veceri, na kojoj su nastupila 22
izvodaca do 15 godina, prvu nagradu strucnog
žirija odnijela je Petra Batelja iz Rastoka
pokraj Jaske za pjesmu "To malo ljubavi". Druga
nagrada pripala je Nikolini Oslakovic iz Gornje
Reke za pjesmu "Neka mi ne svane", a treca Mariji
Jurini iz Desinca za pjesmu "Ginem". Publika je
najboljom ocijenila svetojansku grupu "Mrvice" s
pjesmom "Mrvica", dok je drugu nagradu dodijelila
Natali Rajnovic iz Jaske za pjesmu "Don"t ever
cry", a trecu Aniti Oslakovic iz Desinca za
pjesmu "Malo fali". Za najboljeg debitanta prve
veceri proglašena je Irena Kišan iz Zdencine s
pjesmom "Izdali me".lt/Pgt ltPgtDruga vecer - s
dvadeset starijih izvodaca iz Jaske, Karlovca,
Bjelovara, Zagreba i Velike Gorice - bila je
osobito napeta, jer je za razliku od lani
ponudila vrlo kvalitetne izvodace i
interpretacije pa nije bilo lako odabrati
najbolje.lt/Pgt ltPgtNakon poduže stanke tijekom
koje su izbrojani glasovi - a koju su publici
kratili gost veceri Ivo Pattiera te sastav "Santa
Anna" i solistica Goga Copic - proglašeni su
ovogodišnji pobjednici. Prema ocjeni strucnog
žirija, prvu nagradu i zlatnu plaketu
"Vecernjaka" dobila je Karlovcanka Ivana Erdeljac
za vrlo dobro otpjevanu pjesmu "Crazy". Druga
nagrada pripala je Antoniji Mikiti iz Velike
Gorice za pjesmu "To", a treca Kseniji Cvetetic
iz Petrovine za pjesmu "Neka mi ne svane".lt/Pgt
ltPgtPublika je najviše glasova dodijelila
svetojansko-zagrebackom duetu Mariji Šalic i
Petru Puhijeri za interpretaciju pjesme "Ima li
nade za nas", pa je i njima pripala
"Vecernjakova" zlatna plaketa. Na drugo mjesto
publika je svrstala "Svetojanske tamburaše" koji
su nastupili s pjesmom "Dobro jutro", a na trece
Zagrepcanku Marijanu Parilac i pjesmu "Idi i ne
budi ljude".lt/Pgt ltPgtNajboljom debitanticom
završne veceri proglašena je Zagrepcanka Marina
Posilovic s pjesmom "Piši, piši mi", a nagradu za
najbolji scenski nastup dobio je sastav iz
Petrovine "Prigorje de lajt" s pjesmom "Oj
suseda, suseda". Cini se da su ovogodišnje
nagrade - a bilo ih je doista mnogo, od
sedmodnevnog boravka u Opatiji, umjetnicke slike,
bicikla i kazetofona do satova i poklon-bonova -
završile u pravim rukama. Oni koji ih nisu
dobili, a možda su ih takoder zaslužili, neka se
ovaj put utješe pljeskom publike, a dogodine ce
imati novu priliku. Jer, tradicija Svetojanskog
festivala - svojevrsnog Sanrema zagrebacke
županije - nastavlja se.lt/Pgt ltBYLINEgtN.
Godrijan-Videclt/BYLINEgt lt/DIV0gt lt/BODYgt
12HNK v 1.0 korpusni format 3
ltBODYgt vl990301gr01 1 X ltDIV0 type"article"gt vl9
90301gr01 7 X ltHEAD type"nn"gt vl990301gr01 28 X U
vl990301gr01 44 R GORICI vl990301gr01 46 R SVET
OJANSKOJ vl990301gr01 53 R ODR381AN vl990301gr
01 66 R 12 vl990301gr01 78 B . vl990301gr01 80 I
FESTIVAL vl990301gr01 82 R PJEVA268A vl990301
gr01 91 R AMATERA vl990301gr01 104 R lt/HEADgt vl9
90301gr01 111 X ltHEAD type"na"gt vl990301gr01 118
X Ivana vl990301gr01 134 R osvojila vl990301gr01
140 R 382upanijski vl990301gr01 149 R Sanremo
vl990301gr01 165 R lt/HEADgt vl990301gr01 172 X ltH
EAD type"pn"gt vl990301gr01 179 X vl990301gr01
195 I Od vl990301gr01 197 R 20 vl990301gr01 200
B natjecatelja vl990301gr01 203 R 382iri vl990
301gr01 216 R je vl990301gr01 226 R najboljom vl
990301gr01 229 R proglasio vl990301gr01 239 R Iva
nu vl990301gr01 249 R Erdeljac vl990301gr01 255
R s vl990301gr01 264 R pjesmom vl990301gr01 266
R " vl990301gr01 275 I Crazy vl990301gr01 276 R
" vl990301gr01 281 I , vl990301gr01 282 I druga
vl990301gr01 284 R je vl990301gr01 290 R Antonij
a vl990301gr01 293 R Mikita vl990301gr01 302 R s
vl990301gr01 309 R pjesmom vl990301gr01 311 R
- opojavnicenje (tokenization)
- TOKENIZER vlastitisoftware
- ulaz XML
- izlaz 1 tab-datoteka kaoulaz u bazu
podataka(vertikalizirani korpus) - izlaz 2 opojavniceni XML
13HNK v 1.0 korpusni format 4
ltW type"R"gtmedijskimlt/Wgt ltW type"R"gtpokrovitelj
stvomlt/Wgt ltW type"I"gt"lt/Wgt ltW
type"R"gtVecernjeglt/Wgt ltW type"R"gtlistalt/Wgt ltW
type"I"gt"lt/Wgt ltW type"R"gtilt/Wgt ltW
type"R"gtRadiolt/Wgt ltW type"R"gtJaskelt/Wgt ltW
type"I"gt,lt/Wgt ltW type"R"gtalt/Wgt ltW
type"R"gtuzlt/Wgt ltW type"R"gtpomoclt/Wgt ltW
type"R"gtDIRlt/Wgt ltW type"I"gt"lt/Wgt ltW
type"R"gtRubiniclt/Wgt ltW type"I"gt"lt/Wgt ltW
type"R"gtkaolt/Wgt ltW type"R"gtgeneralnoglt/Wgt ltW
type"R"gttelt/Wgt ltW type"R"gtjošlt/Wgt ltW
type"R"gtsedamdesetaklt/Wgt ltW type"R"gtdrugihlt/Wgt
ltW type"R"gtsponzoralt/Wgt ltW type"I"gt,lt/Wgt ltW
type"R"gtult/Wgt ltW type"R"gtpetaklt/Wgt ltW
type"R"gtilt/Wgt ltW type"R"gtult/Wgt ltW
type"R"gtsubotult/Wgt ltW type"R"gtult/Wgt ltW
type"R"gtGoricilt/Wgt ltW type"R"gtSvetojanskojlt/Wgt
ltW type"R"gtpokrajlt/Wgt
ltW type"I"gt"lt/Wgt ltW type"I"gt,lt/Wgt ltW
type"R"gtdrugalt/Wgt ltW type"R"gtjelt/Wgt ltW
type"R"gtAntonijalt/Wgt ltW type"R"gtMikitalt/Wgt ltW
type"R"gtslt/Wgt ltW type"R"gtpjesmomlt/Wgt ltW
type"I"gt"lt/Wgt ltW type"R"gtTolt/Wgt ltW
type"I"gt"lt/Wgt ltW type"I"gt,lt/Wgt ltW
type"R"gtalt/Wgt ltW type"R"gttrecelt/Wgt ltW
type"R"gtjelt/Wgt ltW type"R"gtmjestolt/Wgt ltW
type"R"gtosvojilalt/Wgt ltW type"R"gtKsenijalt/Wgt
ltW type"R"gtCveteticlt/Wgt lt/HEADgt ltFIGUREgt ltW
type"R"gtPublicilt/Wgt ltW type"R"gtsult/Wgt ltW
type"R"gtselt/Wgt ltW type"R"gtnajvišelt/Wgt ltW
type"R"gtsvidjelilt/Wgt ltW type"R"gtMarijalt/Wgt ltW
type"R"gtŠaliclt/Wgt ltW type"R"gtilt/Wgt ltW
type"R"gtPetarlt/Wgt ltW type"R"gtPuhijeralt/Wgt
lt/FIGUREgt ltPgt ltW type"R"gtPodlt/Wgt
ltBODYgt ltDIV0 type"article"gt ltHEAD type"nn"gt
ltW type"R"gtUlt/Wgt ltW type"R"gtGORICIlt/Wgt ltW
type"R"gtSVETOJANSKOJlt/Wgt ltW type"R"gtODRŽANlt/Wgt
ltW type"B"gt12lt/Wgt ltW type"I"gt.lt/Wgt ltW
type"R"gtFESTIVALlt/Wgt ltW type"R"gtPJEVACAlt/Wgt
ltW type"R"gtAMATERAlt/Wgt lt/HEADgt ltHEAD
type"na"gt ltW type"R"gtIvanalt/Wgt ltW
type"R"gtosvojilalt/Wgt ltW type"R"gtžupanijskilt/Wgt
ltW type"R"gtSanremolt/Wgt lt/HEADgt ltHEAD
type"pn"gt ltW type"I"gtlt/Wgt ltW type"R"gtOdlt/Wgt
ltW type"B"gt20lt/Wgt ltW type"R"gtnatjecateljalt/Wgt
ltW type"R"gtžirilt/Wgt ltW type"R"gtjelt/Wgt ltW
type"R"gtnajboljomlt/Wgt ltW type"R"gtproglasiolt/Wgt
ltW type"R"gtIvanult/Wgt ltW type"R"gtErdeljaclt/Wgt
ltW type"R"gtslt/Wgt ltW type"R"gtpjesmomlt/Wgt ltW
type"I"gt"lt/Wgt ltW type"R"gtCrazylt/Wgt
14HNK v 1.0 korpus na www-uhttp//hnk.ffzg.hr
- probna inacica V 1.0 1998-12-05
- 30m 3 Mw
- probna inacica V 1.1 1999-02-14 1999-07-20
- 30m 7,67 Mw
- HETA 2,9 Mw s CD-ROM-a Klasici hrvatske
književnosti, Naklada Bulaja, Zagreb, 1999. - probna inacica V 1.2 (oko 10 Mw) 2001-10
- tekst format quasi-HTML, bez XML-a
- probna inacica V 1.3 (oko 17 Mw) 2002-06
- tehnicke pojedinosti
- WinNT platforma
- MS-SQL server 6.5 s ASP/ODBC i vlastitim suceljem
za pretraživanje - jednostavni jedno-rjecni upiti bez redanja i bez
POS / MSD podataka - konkordancije i cestota
15HNK v 1.0 statistika
16HNK v 2.0 korpus na www-uhttp//hnk.ffzg.hr
- nova inacica v 2.0ß 2004-12-20
- napušta se razdioba na 30m i HETA-u
- korpus 3. generacije (John Sinclair The bigger,
the better) - gt46 Mw
- inacica v 2.0 2005-12-18
- 101,2 Mw
- tehnicke pojedinosti
- nova platforma (Linux), sustav Pavela Rychlýa
http//www.textforge.cz - poslužitelj (korpusový manažer) Manatee
- korisnicki klijent Bonito
- znatno razradenije i pristupacnije sucelje
- konkordancije (više rijeci, regularni izrazi,
strukturne oznake itd.) - statisticki podatci
- pronalaženje kolokacija
- upiti po lemama, MSD-ovima
- ?
17POS/MSD oznacavanje HNK
- POS / MSD podatci u korpusu znatno mu pospješuju
uporabivost - hrvatski (poput bilo kojeg drugoga slavenskoga
jezika) - flektivno bogat jezik
- imenice 7 padeža, 2 broja, 3 roda
- pridjevi 2 lika (odredeni i neodredeni), 3
stupnja u komparaciji - prilozi 3 stupnja u komparaciji
- zamjenice 7 padeža, 2 broja, 3 roda, 3 lica
- brojevi 7 padeža, 3 roda(, 2 broja)
- glagoli
- 2 broja, 3 lica
- 3 jednostavna, 3 analiticka vremena (s 3 roda i 2
broja u glagolskim pridjevima) - 2 dodatna participa (glagolski prilozi)
- 2 kondicionala
- imperativ
- iznimno složen sustav glagolskoga vida (svršeni i
nesvršeni / iterativni) - vecina je sintaktickih odnosa u recenici kodirana
fleksijom - POS/MSD oznacavanje/lematizacija znacajno pomaže
sintaktickoj analizi
18Hrvatski morfološki leksikon (HML)
- model hrvatskoga morfološkoga sustava
- sve kombinacije morfema u skladu s morfotaktickim
pravilima hrvatskoga na 2 razine - derivacija/kompozicija
- fleksija
- ostvarive generiranjem
- osnova rijeci
- oblika rijeci
- pohranjenih u bazu podataka za daljnju primjenu
- leksikon osnova rijeci
- leksikon oblika rijeci
- i-projekt 2002-100 Ministarstva znanosti i
tehnologije Republike Hrvatske - jednogodišnji projekt usmjeren na primjenu IT u
znanosti
19Teorijska podloga
- Halle (1973) morfologija sastavnica leksikona
koja generira sve moguce kombinacije morfema - problem
- provjera ovjerenosti (gramaticnosti) morfemskih
kombinacija - filtriranje nepotvrdenih, a ipak mogucih
kombinacija - derivacijska vs. flektivna morfologija, odjelite
ili ne? - generativna fonologija, leksicka fonologija
- nekoliko razina primjena pravila problemi
- razlicita / ista pravila u razlicitim / istim
kotekstima - krutost paradimatskoga sustava ltgt nekrutost
derivacijskoga sustava - simetricnost paradigmatskoga sustava ltgt
asimetricnost derivacijskoga - ciklicka pravila u derivaciji ltgt neciklicka
pravila u fleksiji - ...
20Teorijska podloga 2
- odluka držati dvije sastavnice morfološkoga
modela odjelitima - razlikuju se u
- pravilima i njihovoj primjeni
- ulaznim leksikonima
- generatorima
- nedavno je nekoliko modela dijela ili citave
morfologije slavenskih jezika ostvareno u obliku
leksikona - Vetulani (2000) za poljski
- Klímova i Kocek (2000), Osolsobe i dr. (2002) za
ceški - Rojc i dr. (2002) za slovenski
- odlucili smo se za slican pristup
21Struktura HML-a
- dva generirana leksikona
- osnova rijeci
- oblika rijeci
- terminološka nedosljednost u tradicionalnoj
gramatici - tvorba rijeci (word forming)
- tvorba oblika (word-form forming)
tvorba osnova (stem forming)
tvorba rijeci (word forming)
leksickimorfem(i)
osnova
oblik rijeci
derivacijskimorfem(i)
flektivnimorfem
22Leksikon osnova
- popis leksickih morfema (-da-, -gled-, -vik-,...)
- popis derivacijskih morfema (pro-, pre-, -av-,
-ac-, -ic-,...) - pravila kombiniranja morala bi proizvesti osnove
- da-, proda-, preproda-
- dava-, prodava-, preprodava-
- davac-, prodavac-, preprodavac-
- davacic-, prodavacic-, preprodavacic-
- ...
- derivacijski kapacitet nekoga jezika
kumulativni rezultat takva generiranja - iznimno pomagalo u leksikografiji, izgradnji
terminologije,psiholingvistici, kognitivnoj
lingvistici, usvajanju jezika,ucenju stranih
jezika itd.
23Leksikon osnova 2 format
- svaki leksicki unosak mora sadržavati podatke o
- uporabljenim morfemima
- morfotakticki uzorak
- moguce dodatne semanticke podatke
- struktura unoska
- pre-pro-da-v-ac-ic - -da- p2p1l s1s2s3 NAf
- generirana osnova
leksicki derivacijski semanticki
morfem uzorak podatci - citav sustav derivacijskih uzoraka mogao bi se
razviti imajuci u vidu - istraživanje/suradnju/standardizaciju medu
slavenskim jezicima - stupanj medusobne pravilnosti derivacijskih
uzoraka i semantickih podataka - racunalna realizacija derivacijskoga generatora
- regularne gramatike ?
24Leksikon oblika
- flektivni model hrvatskoga tj. flektivni dio
HML-a vec je ostvaren - vec postoje preporuke za flektivne oznake
- MULTEXT East projekt (1995-1997) 6 CEE jezika
- MULTEXT East v 3.0, http//nl.ijs.si/ME/V3
- hrvatska specifikacija dodana još 1998.
- Hrvatski flektivni generator GenOblik (Tadic
1994) - klasifikacijski utemeljen flektivni model
- 613 flektivnih uzoraka
- 404 imenicnih
- 42 pridjevskih
- 12 komparacijskih
- 155 glagolskih
- jednostavan model, poštuje jezicne jedinice, nije
racunalno optimiziran - nastavci i alomorfske preoblike osnova upravljane
su flektivnim uzorkom
25Leksikon oblika 2 generiranje
- generator uzimlje 3 ulazna popisa
- lema s osnovama (leksikon)
- nastavaka
- preoblika
- leksikon
- lema osnova flektivni uzorak
deklinacija
bacati bac 0/501/0 baciti bac 0/511/0 bagateli
zirati bagatelizir 0/501,502/0 bagerirati bagerir
0/501,502/0 bajati baj 0/501/0 baktati bakt 0
/501/0 balansirati balansir 0/501/0 balegati bal
eg 0/501/0 baliti bal 0/509,510/0 balzamirati b
alzamir 0/501,502/0 baljezgati baljezg 0/501/0
konjugacija
komparacija
26Leksikon oblika 3 generiranje
- nastavci
- imenice ltpat, par, num, casgt
- pridjevi ltpat, par, gen, num, casgt
- glagoli ltpat, ten, num, per/gengt
- komparacija ltpat, gragt
- pohranjeni u tablicu i dohvatljivi putem zadanih
vrijednosti kao koordinata - preoblike
- dopuštene samo na kraju osnova
- svega 35 jednostavnih preoblika za citav
flektivni sustav - usko povezane s flektivnih uzorcima kontrolirani
kotekst primjene pravila preoblika - pohranjeni u istovjetnu tablicu kao i nastavci
- MTE oznake (MSD-ovi) takoder mogu biti pohranjeni
u tablici, ali u našem su slucaju generirani
zajedno s oblicima
27HML v 1.0
- natuknicki popis iz Rjecnika hrvatskoga jezika
(Anic 11991) - oko 36,000 natuknica
- 18,019 imenica
- 7,735 glagola
- 5,504 pridjeva
- 6,517 priloga
- ...
- rucno oznaceni pripadajucim im brojem flektivnoga
uzorka - generirano lema oblika
- imenice 12,076 171,380
- glagoli 7,735 232,276
- pridjevi 5,504 1,207,786
- prilozi 6,617 11,706
28HML v 1.0
- abdikacija Ncfpg
- abdikacija abdikacija Ncfsn
- abdikacijama abdikacija Ncfpd
- abdikacijama abdikacija Ncfpi
- abdikacijama abdikacija Ncfpl
- abdikacije abdikacija Ncfpa
- abdikacije abdikacija Ncfpn
- abdikacije abdikacija Ncfpv
- abdikacije abdikacija Ncfsg
- abdikaciji abdikacija Ncfsd
- abdikaciji abdikacija Ncfsl
- abdikacijo abdikacija Ncfsv
- abdikacijom abdikacija Ncfsi
- abdikaciju abdikacija Ncfsa
- abeceda Ncfsn
- abecede abeceda Ncfsg
- abecedi abeceda Ncfsd
- abecedu abeceda Ncfsa
- abecedo abeceda Ncfsv
- abolicija Ncfsn
- abolicije abolicija Ncfsg
- aboliciji abolicija Ncfsd
- aboliciju abolicija Ncfsa
- abolicijo abolicija Ncfsv
- aboliciji abolicija Ncfsl
- abolicijom abolicija Ncfsi
- abolicije abolicija Ncfpn
- abolicija abolicija Ncfpg
- abolicijama abolicija Ncfpd
- abolicije abolicija Ncfpa
- abolicije abolicija Ncfpv
- abolicijama abolicija Ncfpl
- abolicijama abolicija Ncfpi
- abrazija Ncfsn
- abrazija abrazija Ncfpg
- abrazijama abrazija Ncfpd
- abrazijama abrazija Ncfpi
- abrazijama abrazija Ncfpl
29Leksikon oblika 5 problemi
- analiticka glagolska vremena/nacini
- generiran samo participski ili infinitivni dio
- povratni glagoli
- nije generirana povratna zamjenica
- na ovoj razini nema razlike povratni ?
nepovratni glagoli - iskljuciti analiticka vremena kao cjelinu iz
POS/MSD oznacavanja - barem u stanju prvotnoga oznacavanja
- pomocni glagoli i/li povratna zamjenica
- mogu biti gotovo bilo gdje u recenici
- mogu biti ispušteni (i stanovitim kotekstima)
- Ona se okrenula i pogledala u zrcalo.
- Bio sam krenuo pa potom stao.
- mogu svojim položajem utjecati na glavni
glagolski oblik - Vidjet cemo... ? Sutra cemo vidjeti...
- oznacavanje u nekoliko koraka ili sintakticka
analiza?
30Hrvatski lematizacijski poslužitelj
- HML v 2.0 tj. leksikon oblika pohranjen je u bazu
podataka - slobodno pretraživ na http//hml.ffzg.hr
- korisnicko ime proba zaporka proba
- oko 45.000 lema opcega jezika
- oko 15.000 osobnih muških i ženskih imena
- oko 50.000 prezimena registriranih u RH
- preko 3.500.000 generiranih oblika rijeci
- mogucnost pokretranja pretrage preko Googlea s
upitom koji obuhvaca sve oblike hrvatskih rijeci - ?
31POS / MSD oznacavanje HNK
- ostvareni koraci
- stvaranje potkorpusa HNK od barem 100.000 rijeci
(CW2000) - sraz CW2000 s HML-om
- dobivanje svih mogucih MSD/lema interpretacija na
unigramskoj razini (kotekst se ne uzimlje u
obzir) - (polu-)rucno razoblicavanje (disambiguation) ?
MSD oznacen i lematiziran CW2000 pretraživ s
pomocu Bonita po lemama iMSD-ovima - uporaba razoblicenoga CW2000 korpusa kao trening
korpusa za oznacivac (tagger) TnT - vrjednovanje oznacavanja (Agic Tadic, LREC2006)
- oznacavanje HNK treniranim oznacivacem
32Oznacavanje HNK rezultat sraza
ltW type"R"gt ltphgtslabult/phgt ltlemagtslablt/lemagt
ltaagtAfpfsanAfpfsayAfpmsdnAfpmslnAfpnsdnAfpn
slnlt/aagt lttagtlt/tagtlt/Wgt ltW type"R"gt ltphgtgospoda
rskult/phgt ltlemagtgospodarskilt/lemagt
ltaagtAfpfsaylt/aagt lttagtlt/tagtlt/Wgt ltW
type"R"gt ltphgtaktivnostlt/phgt ltlemagtaktivnostlt/l
emagt ltaagtNcfsaNcfsnlt/aagt lttagtlt/tagtlt/Wgt ltW
type"R"gtult/Wgt ltW type"R"gt ltphgtzemljamalt/phgt
ltlemagtzemljalt/lemagt ltaagtNcfpdNcfpiNcfpllt/aagt
lttagtlt/tagtlt/Wgt ltW type"R"gt ltphgteuropskelt/phgt
ltlemagteuropskilt/lemagt ltaagtAfpfpayAfpfpnyAfpf
pvyAfpfsgyAfpmpaylt/aagt lttagtlt/tagtlt/Wgt ltW
type"R"gt ltphgtunijelt/phgt ltlemagtunijalt/lemagt lta
agtNcfpaNcfpnNcfpvNcfsglt/aagt lttagtlt/tagtlt/Wgt
33Oznacavanje HNK
- sraz na unigramskoj razini
- dobivanje homografske težine svake pojavnice i
razlicnice - homografija izrazito visoka
34Oznacavanje HNK homografija
- dvije vrste homografije
- unutarnja
- vanjska
- unutarnja homografija (homografija unutar iste
vrste rijeci) - pojavnica može predstavljati razlicite oblike
(tj. MSD interpretacije) iste leme - izrazito prisutna u slavenskim jezicima
(sinkretizam padeža itd.) - npr. u hrvatskih imenica dativ, lokativ i
instrumental množine - oblik lema MSD
- gledateljima gledatelj Ncmpd
- gledateljima gledatelj Ncmpl
- gledateljima gledatelj Ncmpi
- osobito prisutna u hrvatskih pridjeva
- 227 pravilnih oblika s razlicitim MSD-ima
- 37 razlicnica
- odnos 1 razlicnica 6,14 oblika (tj.
razlicitih MSD-a)
35Oznacavanje HNK homografija 2
- vanjska homografija (homografija izmedu
razlicitih vrsta rijeci) - pojavnica može predstavljati razlicite oblike
(tj. MSD interpretacije) dvije ili više lema - izrazito prisutna u flektivno siromašnim jezicima
(engleski, francuski...) - hrvatski primjer
- word-form lemma MSD
- cijenjene cijeniti Vmps-pfp
- cijenjene cijenjen Afpfpan
- cijenjene cijenjen Afpfpay
- cijenjene cijenjen Afpfpnn
- cijenjene cijenjen Afpfpny
- cijenjene cijenjen Afpfpvy
- cijenjene cijenjen Afpfsgn
- cijenjene cijenjen Afpfsgy
- cijenjene cijenjen Afpfsgy
- cijenjene cijenjen Afpmpay
- za hrvatski nismo imali nikakve statistike o
homografskoj opterecenosti
36Oznacavanje HNK homografija 3
- statistika homografije u HML-u
- Lema u HML-u (samo N, V, A) 25.103
- Razlicitih oblika (obliklemaMSD) 1,534.209
- Jedinstvenih oblika (razlicnica) 482.332
- Jedinstvenih oblika s više MSD-ova 271.111
56,21 - unutarnje homografnih
- Prosjecan broj MSD-ova po homografnom
obliku 4,85 MSD-a/oblik - Jedinstvenih homografnih oblika s više lema
8366 1,73 - vanjski homografnih
- unutarnja homografija prevladava u leksikonu
- 56 svih jedinstvenih oblika je homografno
- govori nam nešto o isuviše uskoj definiciji MSD-a
- MSD oznake mogle bi biti jednostavnije od MTE
preporuka (?) - skup oznaka samo s podatcima o vrstama rijeci
mogao bi lako dosegnuti tocnost vecu od 95 - usp. Džeroski i dr. (2000) za slovenski
37Oznacavanje HNK homografija 4
- statistika homografije u pilot-korpusu prije
razrješenja homografa - Pojavnica u korpusu 501.264
- Pojavnica sraženo s HML-om 279.613 55,78
- Homografnih pojavnica 36.636 13,06
- Prosjecan broj MSD-ova po homografnom
obliku 4,42 MSD-a/oblik - Homografnih pojavnica s više lema 3.628
1,30 - vanjski homografnih
- usporedba s prethodnom tablicom
- homografija je u HML-u znatno prisutnija nego u
korpusu (56 13) - u leksikonu postoji in potentia dok se u stvarnom
tekstu realiziraju samo neki od svih oblika - prosjecan broj MSD-ova po homografnom obliku
gotovo je isti(4.85 4.42) - ovaj bi parametar mogao biti isti za oba jezicna
resursa - vanjska homografija opala je neznatno (1.74
1.30) - ovaj bi parametar takoder mogao biti isti za oba
jezicna resursa
38Oznacavanje HNK
- HML se popunjava s novim natuknicama
- postupak automatskoga proširivanja HML-a (Oliver
Tadic, LREC2004) - metode automatskoga ucenja paradigmi
- provjeren od prije na ruskome
- primjena na hrvatskome
- preliminarni rezultati dali ohrabrujuce rezultate
39Oznacavanje HNK razoblicenje
- uporaba lokalnih gramatika (regularnih gramatika)
za razoblicenje u stanovitim vrstama konstrukcija - nazivi, brojcani izrazi, izrazi za mjere
- vremenski i prostorni izrazi
- prijedložni izrazi ((u)P ((bližem)Adj
(gradu)N)NP)PP (Bekavac, 2006) - Intex i Unitex sustavi regularne gramatike,
transduktori - statistika POS / MSD kolokacijskih uzoraka
- u pilot-korpusu AN 40935 NN 21931 NAN 10033
AAN 5172 ANN 5021
40Oznacavanje HNK treniranje oznacivaca
- TNT oznacivac (Brants 2000), trigramski
statisticki oznacivac - dobro se nosi s velikih skupovima oznaka
- ocekivana velicina preko 2000 oznaka
- korišten u eksperimentima za slovenski (Džeroski
i dr. 2000) - moguc redizajn skupa oznaka dvo-stupanjsko
oznacavanje (?) - 1. stupanj skup oznaka sa širim kategorijama
(samo vrsta rijeci) - 2. stupanj finiji skup oznaka
- npr. hrvatski pasivni participi
- dio glagolske paradigme
- Rukavice su bile bacene na stol.
- adjektivizirani participi ? dijelovi pridjevske
paradigme - Bacene rukavice ležale su na stolu.
- visoka cestota ? mnogo rucnog razrješavanja
homografa - rješenje uvodenje medukategorije (npr.
participa) i prepuštanje razrješenja homografa na
sljedecoj razini obradbe
41Sintakticko oznacavanje HNK HOBS
- izgradnja Hrvatske ovisnosne banke stabala (HOBS)
- preuzeta metodologija iz Praške ovisnosne banke
stabala (PDT) - 1. oznacavanje analitickoga sloja
- 2. oznacavanje tektogramatickoga sloja
- rucno oznacavanje ovisnosnih sintaktickih
funkcija - korpus CW2000
- alat TrEd (Tree editor) Petra Pajasa (PDT)
- na hnk.ffzg.hr/hobs
- opis banke
- primjeri gt50 recenica
- ?
42Perspektive
- HNK
- daljnje povecanje na 200 Mw do 2010.
- ukljucivanje POS / MSD podataka u korpus (bez
razoblicenja vec 2006.) - HML
- proširiti leksikon oblika novim lemama
- dovršiti model leksikona osnova i generirati
osnove (dugorocan plan) - POS / MSD oznacavanje HNK
- razvitak lokalnih gramatika i njihova primjena u
razrješenju homografa - treniranje oznacivaca na ostalim vrstama tekstova
- MZOŠ-u u ožujku prijavljen program
Racunalnolingvisticki modeli i jezicne
tehnologije za hrvatski jezik s 5 projekata - Hrvatski jezicni resursi i njihovo oznacavanje
- Hrvatska racunalna sintaksa
- Leksicka semantika u izgradnji hrvatskoga
WordNeta - Informacijska tehnologija u prevodenju hrvatskoga
i ucenju jezika - Otkrivanje znanja u hrvatskim dokumentima
43Hrvatski nacionalni korpus
- Marko Tadic(marko.tadic_at_ffzg.hr, hnk.ffzg.hr/mt)
- Odsjek za lingvistiku, Filozofski
fakultetSveucilište u Zagrebu (hnk.ffzg.hr) - Sveucilište u Grazu, 2006-04-04