Title:
1Õppijakeele korpused ja keeleõpe
- Pille Eslon
- Tallinna ülikool
- pille.eslon_at_tlu.ee
2Mis on õppijakeel?
- Õppijakeel (learner language) P.S.Corder
- Seoses teise keele / võõrkeele omandamisega
(second / foreign language aquisition) - Kesksel kohal keelevea mõiste (error)
- Tugineb veaanalüüsile (error analysis)
- Vahekeel (interlanguage) L.Selinker
- Biheivioristlik keelekäsitlus ja
interferentsiteooria - Kesksel kohal lähtekeele negatiivne / positiivne
ülekanne (transfer) - Tugineb lähte- ja sihtkeele kontrastiivanalüüsile
(contrastive analysis) - Keelevariant, mida õppijad sihtkeeles loovad
3Mis on õppijakeelekorpus?
- Õppijakeelekorpus (learner corpus, learner
corpora) vahekeele korpus (interlanguage
corpora) teie keele korpus (L2 corpora) - elektrooniline keeleressurss
- teise keele / võõrkeeleõppija loodud autentsete
kirjalike tekstide või suulise kõnekeele näidete
elektrooniline kogu, milles keelevead on
klassifitseeritud ja märgendatud - korpuse töötlemisel saab kasutada
standardtarkvara, kombineerida ja täiendada
olemasolevaid keeletehnoloogilisi rakendusi
4Õppijakeelekorpusi maailmas inglise sihtkeelega
ÕK (English LC)
- 1980ndad - European Science Foundation Second
Language Data Bank - Cambridge Learner Corpus
- Longman Learners Corpus
- Interntional Corpus of Learners English (ICLE) -
http//cecl.fltr.ucl.ac.be/ http//cecl.fltr.ucl.
ac.be/Cecl-Projects/Icle/icle.htm - Antwerp Corpus of Institutional Discourse
- Corpus of English by Japanese Learners
- jt
5MITTE-INGLISE SIHTKEELEGA ÕK (non-English LC)
- Skandinaavias 1970ndad Rootsi sihtkeelega SSM
korpus (Svenska som Målspråk) - ASU (Andraspråkets StrukturUtveckling korpus)
- SVANTE korpus
- CrossCheck (Svensk grammatikkontroll för
andraspråksskribenter) - ASK (Language learner corpus of Norwegian as a
second language) - Prantsuse keel FRIDA ja FreeText jt
6Õppijakeelekorpuste kasutamisest
- Uurimistöö eesmärgil, et viia vastavusse õppija
vajadused ja keeleõpe - nt Louvaini Ülikooli ICLE
- Uppsala Ãœlikooli USE
- Kommertseesmärgid
- Cambridge Learner Corpus
- Longman Learners Corpus
- Uurimistöö kommerts
- FRIDA ja FreeText arvutipõhine keeleõpe
õppijakorpus (computer assisted language
learning)
7Eesti võimalusetest
- Tallinna Ãœlikooli Eesti vahekeele korpus
- Loodud uurimistöö ja eesti keele kui teise keele
/ võõrkeele õppe eesmärkidel perspektiivis
rakendada õppijakorpusena - On vene emakeelega õppijate eesti sihtkeele
kirjalike tekstide kogu, mida kavas täiendada
suulise kõne näidetega (ideaal 50 50 pole
reaalne, nt British National Corpus 10 suulise
keelekasutuse materjale ja 90 kirjalikke tekste,
kuna neid raske ühtse standardi alla viia ja
oamvahel siduda S.Granger) - Sisaldab metainfot õppija- ja tekstide kohta
8- Info teksti koostaja kohta (sugu, vanus, emakeel,
kodune keel, päritolupiirkond Eestis või mjal
maailmas, sotsiaalne taust, keeletase) koostaja
isikuandmeid pole võimalik tuvastada olemas
koostaja nõusolek teksti kasutamiseks korpuses - Andmed teksti kohta (maht sõnades ja lausetes,
teksti liik, teksti koostamise laad) - Info teksti sisestaja ja märgendajate kohta
avalikustatud sisestaja nimi, märgendajate nimed
avalikkuse eest varjul
9- Tekstide maht 50 1000 sõnet
- Kontrollkorpus, millel katsetatkse erinevaid
programme 500000 sõnet - Vene lähtekeelega õpilaste eesti sihtkeele
näidete hulk 1, 5 miljonit sõnet allkorpused
soome, rootsi, inglise ja saksa lähtekeelega
õppijatekstidest eesmärk eesti õppijakeele
lingvistiliste universaalide väljatoomine
10- Kasutajaliides teeb korpuse Internetis vabalt
kättesaadavaks, teavet ei tohi kasutada
kommertseesmärkidel - Töötab konkordantsileidja, sõna- ja vormisageduse
statistika, märgendatud vigu saab näha vealiigiti
ning kitsamas kontekstis, vajadusel
terviktekstis - Dokumentide ja andmete esitamiseks on kasutatud
XML-formaadi XHTML-versiooni, märgendite
hierarhias on tarvitusel XPATH-keel - Korpuses loodud võimalus individuaalseks
uurimistööks
11Veamärgendus
- Alus mitmemõõteline lingvistiline veataksonoomia
(Eslon 2006b 1417 Eslon Metslang 2007
106112) - Eristatakse veaklasse (1 18), vealiike
(leksikaalsed, leksikaagrammatilised,
morfonoloogilised, morfoloogilised,
morfosüntaktilised, süntaktilised,
kommunikatiivsed, sõnatuletuslikud Proovi
kätt!), alamliike, nende alamliike jne
12Veaklassid
- Semantika Grammatika Pragmaatika
- tekst 1 2 3
- lause 4 5 6
- sõnaüh. 7 8 9
- sõna 10 11 12
- morfeem 13 14 15
- grafeem 16 17 18
13Veaklasside näited
- 1 grafeem semantika (need inimesed on laiad
/ laisad, grafeem s eristab sõnu) - 2 grafeem grammatika (maja tagasi on õue /
õu, grafeem e eristab käändevorme) - 3 grafeem pragmaatika (K-Järvelt /
Kohtla-Järvelt, väljendustava vastu eksimine) - 4 morfeem semantika (nad andsid mulle tarku
selles õppeaines / tarkust selles õppeaines,
morfeemi ärajätt on sõnu eristav tunnus) - 5 morfeem grammatika (Sa oskasid palju
huvitavaid faktid ajaloost / sa tead palju
huvitavaid fakte ajaloost, mineviku ajavormi
kasutamine ei sobi kokku edastatava
informatsiooni sisuga) jne
14Vealiikide, alamliikide ja nende jaotumise näide
- Morfonoloogilised
- Astmevaheldus
- seoses sõnatuletusega
- seoses vormimoodustusega
- tüvevaheldus ja supletiivsed tüved
- deminutiivsete liidete kasutamine
15Märgendatud teksti näide
- Minu unistuste auto (1) gtgt.ltlt
- Minu unistuste auto peab olema (2) gtgtmoodsusltlt,
(3) gtgtkiirusltlt , ilus Sellepärast mulle ei
meeldi (4) gtgtvanad autod ja liiga (5)
gtgtväikedltltltlt . Tahan, et minu auto oleks (6)
gtgtmugavusltlt ja (7) gtgtpehmed istmedltlt . (8) gtgtAuto
peab olema taskukohaneltlt , et ma saaksin (9)
gtgtostaltlt . Ei taha, et oleks raske (10)
gtgtjuhimineltlt (11) gtgt,ltlt suur kütusekulu.
16Märgendatud vigade alamliigid
- Tekstis märgendatud vealiigid
- (1) Interpunktuatsioonivead
- (2) Vale sõnaliigi kasutamine
- (3) Vale sõnaliigi kasutamine
- (4) Sõnajärg ja lause teatestruktuur
- (5) Omadussõna käändevormide moodustamine ja
kasutamine - (6) Vale sõnaliigi kasutamine
- (7) Verbirektsioon
- (8) Semantiline seos sõnade vahel
- (9) Tegevuse transitiivsus / intransitiivsus
- (10) Vale sõnaliigi kasutamine
- (11) Sidendite kasutamine olenevalt seose
semantikast
17Metainfo
- Informant Tekst
- Sugu naine Tüüp vastkys
- Vanus kuni 40a Sõnu 47
- Elukoht Ida-Virumaa Lauseid 5
- Sots. teenistuja Vigu kokku 11
- Emakeel vene Erinevaid 8
- Kodus vene
- Haridus kesk
- Tase A
- Abivahendid ei
-
18Sõna- ja vormisagedus
- Sagedus Eesti õppijakeel Eesti kirjakeel
Sagedus - 13939 Ja Ja 27214
- 13295 On On 19184
- 5553 Et Ei 13810
- 5091 Ei Et 12314
- 5087 Ma Ta 10170
- 4073 Oli Oli 8861
- 3882 Eesti Kui 8599
- 3835 See Ka 6191
- 3556 Kui See 6114
- 2991 Ka Oma 5329
- 2478 Oma Aga 5274
- 2340 Aga Ma 4454
- 2337 Ta Ning 4409
- 2230 Väga Mis 4391 jne
19Sõnavormide tähestikuline järjekord sõna aasta
vormid ja tuletised
- aasta 269, aastaaeg 4, aastaajast 1, aastaarv 1,
aastaarve 3, aastaas 1, aastad 28, aastade 1,
aastaga 8, aastaid 15, aastail 5, aastak 1,
aastaks 19, aastakssee 1, aastakäikude 1,
aastakümned 1, aastakümneid 5, aastakümnetel 3,
aastal 486, aastale 3, aastalt 25, aastana 1,
aastane 56, aastani 19, aastapäeva 1, aastapäeval
1, aastapäevale 4, aastas 44, aastasadade 1,
aastasajaks 2, aastased 2, aastaseks 2, aastaselt
1, aastasena 3, aastast 51, aastastele 4, aastat
327, aastate 36, aastatega 2, aastatel 71,
aastateni 2, aastatesse 2, aastatest 1,
aastatkõrgkoolide 1, aastattel 1, aastatuh 3,
aastatuhande 6, aastatuhandeid 3, aastatuhandel
3, aastatuhandete 2, aastatuhat 3, aastavahetus
2, aastavahetuseks 1, aastavahetusel 1,
aastavahetuseprogrammid 1, aasttuh 3, aastunud
1, aatat 1
20Vigase vormi aastade kasutamisest
- Eesti vahekeele korpuses 1 kord
- TÃœKK 90ndate ajakirjanduskeel - puudub
- EKI puudub
- GOOGLE 208 dokumendist 58 esindatud
- Tudengijazz 2007
- Eelnevate aastade festivalidel on olnud
esinejaid ... Soomest, Rootsist, Norrast,
Saksamaalt, Prantsusmaalt, USAst, Lätist,
Leedust, Venemaalt, ...www.tudengijazz.ee/ - 9k
- Puhverdatud - Sarnased lehed - Software Engineering Center
- Hädaolukorra tekkimisel, mis võib esineda kord
paljude aastade jooksul, võivad taolised
abivahendid olla kas kadunud või kaotanud oma
töövõime. ...www.sec.ee/solutions2.php?id90id1
32id20id31lgeesti - 21k - Puhverdatud -
Sarnased lehed
21Korpuste kasutamisest keeleõppes
- Autentse keeleainese allikast automatiseeritud
interaktiivse õpikeskkonnani - Õppijakeelekorpused
- Keeleõppe tekstide korpused
- Õppijakorpused
- Kirjakeelekorpused
- Paralleel- ja tõlkekorpused
- Veebikeskkond
22Kirjakeelekorpused
- Keelekasutuse korpuspõhine lingvistiline analüüs
oluline teave sõnastike ja õppematerjalide
koostamiseks, ainekava korrigeerimiseks ja
sisuliseks täiendamiseks autentse materjaliga (nt
Kasik 2004, Kerge 2003, Kilgi2006, Metslang 2005)
- Korpuspõhine keeleõpe ühe- ja mitmekeelsed
sõnastikud, sagedussõnastikud, kollokatsioonide
nimistud, tasemeõppe modelleerimine jne
23Paralleel- ja tõlkekorpused
- Materjali kontrastiiv- ja tõlkeanalüüs
- Eesmärk
- leida tõlkimise ja õppijakeele universaale,
tüüpilisi leksikaalseid ja süntaktilisi vastavusi
/ mittevastavusi (nt A.Mauranen Käännösuomi ja
kääntämisen uiversaalit. Tutkimus
korpusainestolla) - välja töötada optimaalne tõlkijakoolituse ja
keeleõppe mudel, veenduda sõnastike ja
õppematerjalide sobivuses tõlkija ja keeleõppija
vajadustega (nt Jyväskylä paralleelkorpus, mida
tehti koostöös Oslo inglise-norra korpusega
K.Sajavaara ja S.Johansson) - uurida strateegiaid, mida inimene tekstiloomes ja
tõlkimisel kasutab
24Väljund
- Korpuslingvistiline tõlkeuurimus annab meetodi,
mille abil pääseda tõlke olemuseni - Süstemaatilise tõlkeanalüüsi rakendamine annab
keelte kõrvutamiseks sobiva meetodi, mis aitab
viia kontrastiivse keeleuurimise kvalitatiivselt
uuele tasandile (Jantunen Eskola 2002 202
Eslon 2006a 17, 19-20) - Saab jälgida kirjakeele arengusuundi
- Eelduseks normatiivsuse küsimuse lahendamine
- Väljundiks keele- ja kultuuriinterferentsi,
valede ja ebatäpsete tõlkevastete, kalkeerimise
jms vähendamine tõlkestrateegia valiku suunamine
(???????? 2003 31 McEnery Wilson 2001 72)
25Veebikeele uurimine
- Berghi näide sõnaotsing Taliban
- Coubildi 56 miljoni sõne seast leidis ta 40
konteksti, BNC 100 miljonist mitte ühtegi ja
Googleis - 1 890 000 näidet (Bergh 2005 2627)
- Veebikeele uurimise eelis representatiivsema
tulemuse saamine - selguvad antud hetkel keelele
omased, tüüpilised, kesksed nähtused ja
protsessid. Sellest ei saa oma töös mööda minna
ka keelekorraldajad - Veebikeele uuringute läbiviimise probleem seisneb
aga piisavalt kasutajasõbraliku vabavara
olemasolus
26Korpuste töötlemisest
- Standardiseeritud programmide ja statistiliste
meetodite kasutamine korpuspõhises uurimistöös - Oxford Concordance Program, Word Cruncher,
WordSmith Tools, MonoConc, Text Encoding
Initiative jt - Eesmärk leida keeles olevaid loomulikke
liigitusi, mis kajastuvad lingvistiliste andmete
arvutipõhises ja statistilises analüüsis mitte
tegeleda grammatiliste abstraktsioonidega (Abney
1995) - Õpikute sisu ja keele analüüs võrdluses
kirjakeele korpuse andmetega (Asser et al 2004)
väjund eesti kirjakeele sagedussõnastik (Kaalep
Muischnek 2002)
27Keeletehnoloogiline arendustöö
- Riiklik programm Eesti keele keeletehnoloogiline
tugi (2006 2010) - Ãœks kavandatavatest rakendustest
süntaksianalüüsil põhineva tarkvara, sh
automaatse grammatikakorrektori väljatöötamine - Keeleressursside mahu suurendamine ja uute
loomine (mitmekeelne paralleelkorpus, vigade
korpus) - Olemas 50000 sõnest koosnev vigade korpus
suurendada 200000ni teha Internetis
kättesaadavaks - Grammatikakorrektor, mis suudab leida rektsiooni
ja ühildumisvigu - Eesmärk analüüsida ebastandardseid tekste
28Interaktiivsed õppematerjalid ja õppekeskkonnad
- Virtual Language Centre või Eesti e-ülikoolid ja
e-kutsekoolid - e-õppe keskkonnad (nt WebCT, Moodle, IVA) ja
programmid e-kursuste loomiseks (nt Hot Potatoes,
Flickr jt) - Näide K.Uibu e-kursus Akadeemilise teksti
loomine (pälvis konkursil Aasta e-kursus 2006
eripreemia kodutööde mitmekesisuse ja disaini
eest)
29Järg
- Efant ja Kaunis külaline
- Eesti keel ja meel (Pangloss 2007)
- Laserplaadit 25 X EESTI
- CD-ROM Talk Now!, tehtud Antwerpeni ülikooli
mitmekeelse SMALLINC-projekti raames (Rammo
Tael 2004 156). - Eesti keele algõpet saab teostada ka
arvutiprogrammiga Oneness on-line language
training courses
30Viidatud kirjandus
- Abney, Steven 1996. Statistical Methods and
Linguistics. The Balancing Act combining
symbolic and statistical approaches to language /
Ed. by Judith L. Klavans Philip Resnik.
Cambridge MIT Press, http//www.vinartus.net/spa/
95c.pdf, 8.07.2007. - Asser, Hiie Kaalep, Heiki-Jaan Linnas, Siret
Mikk, Jaan Muischnek, Kadri Songe, Merje
Uibo, Heli 2004. Õpikute keerukuse analüüs
arvutitel. Toimiv keel II. Töid
rakenduslingvistika alalt / Toim. M.-M.Sepper,
J.Lepasaar. TPÜ eesti filoloogia osakonna
toimetised 3. Tallinn TPÜ Kirjastus, 72 84. - Bergh, Gunnar 2005. Min(d)ing English language
data on the Web What can Google tell us? ICAME
Journal. Computers in English Linguistics 29, 25
46, http//icame.uib.no/ij29-page25-46.pdf,
14.07.2007. - Eslon, Pille Metslang, Helena 2007. Õppijakeel
ja eesti vahekeele korpus. Eesti
Rakenduslingvistika Ãœhingu Aastaraamat (III), 99
116. - Eslon, Pille 2006a. Analoogiast keelte
kõrvutamisel. Keel ja Kirjandus 1, 15 24. - Eslon, Pille 2006b. Eesti vahekeele korpusest
korrelatsioonigrammatikani. Eesti
Rakenduslingvistika Ãœhingu aastaraamat 2 / Toim.
H.Metslang, M.Langemets. Tallinn EKS. Lk. 11
24.
31- Granger, Sylviane 1998. The computer learner
corpus A versatile new source of data for SLA
research. Learner English on computer / Ed. by
S.Granger. London Longman, 3 18. - Granger, Sylviane 2003. Error-tagged learner
corpora and CALL a promising synergy. CALICO
Journal 20(3), 465 480, http//selene.lib.jyu.fi
8080/julpu/9513915425.pdf, 19.09.2007. - Granger, Sylviane 2004. Computer Learner Corpus
Research Current Status and Future Prospects.
Applied Corpus Linguistics. A Multidimensional
Perspective / Ed. by U.Connor T.A.Upton.
Amsterdam / New York Rodopi, 123 145. - Jantunen, Jarmo Harri Eskola, Sari 2002.
Käänössuomi kielivarianttina syntaktisia ja
leksikaalisia erityispiirteitä. Virittäjä 2,
184 207. - Kaalep, Heiki-Jaan Muischnek, Kadri 2002. Eesti
kirjakeele sagedussõnastik. Tartu TÜ Kirjastus. - Mauranen, Anna Kujamäki, Pekka (Eds) 2004.
Translation Universals Do They Exist? Amsterdam
Benjamins. - Â
32Jätk
- McEnery, Tony Wilson, Andrew 2001. Corpus
linguistics / 2nd Ed. Edinburgh Edinburgh
University Press. - ????????, ?????? 2003. ???????????? ???????
?????????????? ??????? ??????? ??????????? ?
??????????? ?????????? ? ???????????????
????????????? ????????????? (?? ???????
??????-???????? ????????????? ???????
?????????????? ???????). Acta Universitatis
Tamperensis 956. Tamepere University Press,
http//acta.uta.fi/pdf/951-44-5754-4.pdf,
9.09.2007. - Pravec, Norma A. 2002. Survey of learner Corpora.
ICAME Journal ? 26, pp. 81 114,
http//icame.uib.no/ij26/pravec.pdf, 11.09.2007. - Rammo, Sirje Tael, Maarika 2004. Eesti keele
õppematerjalid CD-ROMil. Emakeel ja teised
keeled IV. (Tartu ülikooli eesti keele
(võõrkeelena) õppetooli toimetised 3. Tartu TÜ
Kirjastus, 156 163.