- PowerPoint PPT Presentation

About This Presentation
Title:

Description:

ppijakeele korpused ja keele pe Pille Eslon Tallinna likool pille.eslon_at_tlu.ee Mis on ppijakeel? ppijakeel (learner language) P.S.Corder Seoses teise ... – PowerPoint PPT presentation

Number of Views:44
Avg rating:3.0/5.0
Slides: 33
Provided by: Esl83
Category:
Tags: learner

less

Transcript and Presenter's Notes

Title:


1
Õppijakeele korpused ja keeleõpe
  • Pille Eslon
  • Tallinna ülikool
  • pille.eslon_at_tlu.ee

2
Mis on õppijakeel?
  • Õppijakeel (learner language) P.S.Corder
  • Seoses teise keele / võõrkeele omandamisega
    (second / foreign language aquisition)
  • Kesksel kohal keelevea mõiste (error)
  • Tugineb veaanalüüsile (error analysis)
  • Vahekeel (interlanguage) L.Selinker
  • Biheivioristlik keelekäsitlus ja
    interferentsiteooria
  • Kesksel kohal lähtekeele negatiivne / positiivne
    ülekanne (transfer)
  • Tugineb lähte- ja sihtkeele kontrastiivanalüüsile
    (contrastive analysis)
  • Keelevariant, mida õppijad sihtkeeles loovad

3
Mis on õppijakeelekorpus?
  • Õppijakeelekorpus (learner corpus, learner
    corpora) vahekeele korpus (interlanguage
    corpora) teie keele korpus (L2 corpora)
  • elektrooniline keeleressurss
  • teise keele / võõrkeeleõppija loodud autentsete
    kirjalike tekstide või suulise kõnekeele näidete
    elektrooniline kogu, milles keelevead on
    klassifitseeritud ja märgendatud
  • korpuse töötlemisel saab kasutada
    standardtarkvara, kombineerida ja täiendada
    olemasolevaid keeletehnoloogilisi rakendusi

4
Õppijakeelekorpusi maailmas inglise sihtkeelega
ÕK (English LC)
  • 1980ndad - European Science Foundation Second
    Language Data Bank
  • Cambridge Learner Corpus
  • Longman Learners Corpus
  • Interntional Corpus of Learners English (ICLE) -
    http//cecl.fltr.ucl.ac.be/ http//cecl.fltr.ucl.
    ac.be/Cecl-Projects/Icle/icle.htm
  • Antwerp Corpus of Institutional Discourse
  • Corpus of English by Japanese Learners
  • jt

5
MITTE-INGLISE SIHTKEELEGA ÕK (non-English LC)
  • Skandinaavias 1970ndad Rootsi sihtkeelega SSM
    korpus (Svenska som Målspråk)
  • ASU (AndrasprÃ¥kets StrukturUtveckling korpus)
  • SVANTE korpus
  • CrossCheck (Svensk grammatikkontroll för
    andraspråksskribenter)
  • ASK (Language learner corpus of Norwegian as a
    second language)
  • Prantsuse keel FRIDA ja FreeText jt

6
Õppijakeelekorpuste kasutamisest
  • Uurimistöö eesmärgil, et viia vastavusse õppija
    vajadused ja keeleõpe
  • nt Louvaini Ãœlikooli ICLE
  • Uppsala Ãœlikooli USE
  • Kommertseesmärgid
  • Cambridge Learner Corpus
  • Longman Learners Corpus
  • Uurimistöö kommerts
  • FRIDA ja FreeText arvutipõhine keeleõpe
    õppijakorpus (computer assisted language
    learning)

7
Eesti võimalusetest
  • Tallinna Ãœlikooli Eesti vahekeele korpus
  • Loodud uurimistöö ja eesti keele kui teise keele
    / võõrkeele õppe eesmärkidel perspektiivis
    rakendada õppijakorpusena
  • On vene emakeelega õppijate eesti sihtkeele
    kirjalike tekstide kogu, mida kavas täiendada
    suulise kõne näidetega (ideaal 50 50 pole
    reaalne, nt British National Corpus 10 suulise
    keelekasutuse materjale ja 90 kirjalikke tekste,
    kuna neid raske ühtse standardi alla viia ja
    oamvahel siduda S.Granger)
  • Sisaldab metainfot õppija- ja tekstide kohta

8
  • Info teksti koostaja kohta (sugu, vanus, emakeel,
    kodune keel, päritolupiirkond Eestis või mjal
    maailmas, sotsiaalne taust, keeletase) koostaja
    isikuandmeid pole võimalik tuvastada olemas
    koostaja nõusolek teksti kasutamiseks korpuses
  • Andmed teksti kohta (maht sõnades ja lausetes,
    teksti liik, teksti koostamise laad)
  • Info teksti sisestaja ja märgendajate kohta
    avalikustatud sisestaja nimi, märgendajate nimed
    avalikkuse eest varjul

9
  • Tekstide maht 50 1000 sõnet
  • Kontrollkorpus, millel katsetatkse erinevaid
    programme 500000 sõnet
  • Vene lähtekeelega õpilaste eesti sihtkeele
    näidete hulk 1, 5 miljonit sõnet allkorpused
    soome, rootsi, inglise ja saksa lähtekeelega
    õppijatekstidest eesmärk eesti õppijakeele
    lingvistiliste universaalide väljatoomine

10
  • Kasutajaliides teeb korpuse Internetis vabalt
    kättesaadavaks, teavet ei tohi kasutada
    kommertseesmärkidel
  • Töötab konkordantsileidja, sõna- ja vormisageduse
    statistika, märgendatud vigu saab näha vealiigiti
    ning kitsamas kontekstis, vajadusel
    terviktekstis
  • Dokumentide ja andmete esitamiseks on kasutatud
    XML-formaadi XHTML-versiooni, märgendite
    hierarhias on tarvitusel XPATH-keel
  • Korpuses loodud võimalus individuaalseks
    uurimistööks

11
Veamärgendus
  • Alus mitmemõõteline lingvistiline veataksonoomia
    (Eslon 2006b 1417 Eslon Metslang 2007
    106112)
  • Eristatakse veaklasse (1 18), vealiike
    (leksikaalsed, leksikaagrammatilised,
    morfonoloogilised, morfoloogilised,
    morfosüntaktilised, süntaktilised,
    kommunikatiivsed, sõnatuletuslikud Proovi
    kätt!), alamliike, nende alamliike jne

12
Veaklassid
  • Semantika Grammatika Pragmaatika
  • tekst 1 2 3
  • lause 4 5 6
  • sõnaüh. 7 8 9
  • sõna 10 11 12
  • morfeem 13 14 15
  • grafeem 16 17 18

13
Veaklasside näited
  • 1 grafeem semantika (need inimesed on laiad
    / laisad, grafeem s eristab sõnu)
  • 2 grafeem grammatika (maja tagasi on õue /
    õu, grafeem e eristab käändevorme)
  • 3 grafeem pragmaatika (K-Järvelt /
    Kohtla-Järvelt, väljendustava vastu eksimine)
  • 4 morfeem semantika (nad andsid mulle tarku
    selles õppeaines / tarkust selles õppeaines,
    morfeemi ärajätt on sõnu eristav tunnus)
  • 5 morfeem grammatika (Sa oskasid palju
    huvitavaid faktid ajaloost / sa tead palju
    huvitavaid fakte ajaloost, mineviku ajavormi
    kasutamine ei sobi kokku edastatava
    informatsiooni sisuga) jne

14
Vealiikide, alamliikide ja nende jaotumise näide
  • Morfonoloogilised
  • Astmevaheldus
  • seoses sõnatuletusega
  • seoses vormimoodustusega
  • tüvevaheldus ja supletiivsed tüved
  • deminutiivsete liidete kasutamine

15
Märgendatud teksti näide
  • Minu unistuste auto (1) gtgt.ltlt
  • Minu unistuste auto peab olema (2) gtgtmoodsusltlt,
    (3) gtgtkiirusltlt , ilus Sellepärast mulle ei
    meeldi (4) gtgtvanad autod ja liiga (5)
    gtgtväikedltltltlt . Tahan, et minu auto oleks (6)
    gtgtmugavusltlt ja (7) gtgtpehmed istmedltlt . (8) gtgtAuto
    peab olema taskukohaneltlt , et ma saaksin (9)
    gtgtostaltlt . Ei taha, et oleks raske (10)
    gtgtjuhimineltlt (11) gtgt,ltlt suur kütusekulu.

16
Märgendatud vigade alamliigid
  • Tekstis märgendatud vealiigid
  • (1) Interpunktuatsioonivead
  • (2) Vale sõnaliigi kasutamine
  • (3) Vale sõnaliigi kasutamine
  • (4) Sõnajärg ja lause teatestruktuur
  • (5) Omadussõna käändevormide moodustamine ja
    kasutamine
  • (6) Vale sõnaliigi kasutamine
  • (7) Verbirektsioon
  • (8) Semantiline seos sõnade vahel
  • (9) Tegevuse transitiivsus / intransitiivsus
  • (10) Vale sõnaliigi kasutamine
  • (11) Sidendite kasutamine olenevalt seose
    semantikast

17
Metainfo
  • Informant Tekst
  • Sugu naine Tüüp vastkys
  • Vanus kuni 40a Sõnu 47
  • Elukoht Ida-Virumaa Lauseid 5
  • Sots. teenistuja Vigu kokku 11
  • Emakeel vene Erinevaid 8
  • Kodus vene
  • Haridus kesk
  • Tase A
  • Abivahendid ei

18
Sõna- ja vormisagedus
  • Sagedus Eesti õppijakeel Eesti kirjakeel
    Sagedus
  • 13939 Ja Ja 27214
  • 13295 On On 19184
  • 5553 Et Ei 13810
  • 5091 Ei Et 12314
  • 5087 Ma Ta 10170
  • 4073 Oli Oli 8861
  • 3882 Eesti Kui 8599
  • 3835 See Ka 6191
  • 3556 Kui See 6114
  • 2991 Ka Oma 5329
  • 2478 Oma Aga 5274
  • 2340 Aga Ma 4454
  • 2337 Ta Ning 4409
  • 2230 Väga Mis 4391 jne

19
Sõnavormide tähestikuline järjekord sõna aasta
vormid ja tuletised
  • aasta 269, aastaaeg 4, aastaajast 1, aastaarv 1,
    aastaarve 3, aastaas 1, aastad 28, aastade 1,
    aastaga 8, aastaid 15, aastail 5, aastak 1,
    aastaks 19, aastakssee 1, aastakäikude 1,
    aastakümned 1, aastakümneid 5, aastakümnetel 3,
    aastal 486, aastale 3, aastalt 25, aastana 1,
    aastane 56, aastani 19, aastapäeva 1, aastapäeval
    1, aastapäevale 4, aastas 44, aastasadade 1,
    aastasajaks 2, aastased 2, aastaseks 2, aastaselt
    1, aastasena 3, aastast 51, aastastele 4, aastat
    327, aastate 36, aastatega 2, aastatel 71,
    aastateni 2, aastatesse 2, aastatest 1,
    aastatkõrgkoolide 1, aastattel 1, aastatuh 3,
    aastatuhande 6, aastatuhandeid 3, aastatuhandel
    3, aastatuhandete 2, aastatuhat 3, aastavahetus
    2, aastavahetuseks 1, aastavahetusel 1,
    aastavahetuseprogrammid 1, aasttuh 3, aastunud
    1, aatat 1

20
Vigase vormi aastade kasutamisest
  • Eesti vahekeele korpuses 1 kord
  • TÃœKK 90ndate ajakirjanduskeel - puudub
  • EKI puudub
  • GOOGLE 208 dokumendist 58 esindatud
  • Tudengijazz 2007
  • Eelnevate aastade festivalidel on olnud
    esinejaid ... Soomest, Rootsist, Norrast,
    Saksamaalt, Prantsusmaalt, USAst, Lätist,
    Leedust, Venemaalt, ...www.tudengijazz.ee/ - 9k
    - Puhverdatud - Sarnased lehed
  • Software Engineering Center
  • Hädaolukorra tekkimisel, mis võib esineda kord
    paljude aastade jooksul, võivad taolised
    abivahendid olla kas kadunud või kaotanud oma
    töövõime. ...www.sec.ee/solutions2.php?id90id1
    32id20id31lgeesti - 21k - Puhverdatud -
    Sarnased lehed

21
Korpuste kasutamisest keeleõppes
  • Autentse keeleainese allikast automatiseeritud
    interaktiivse õpikeskkonnani
  • Õppijakeelekorpused
  • Keeleõppe tekstide korpused
  • Õppijakorpused
  • Kirjakeelekorpused
  • Paralleel- ja tõlkekorpused
  • Veebikeskkond

22
Kirjakeelekorpused
  • Keelekasutuse korpuspõhine lingvistiline analüüs
    oluline teave sõnastike ja õppematerjalide
    koostamiseks, ainekava korrigeerimiseks ja
    sisuliseks täiendamiseks autentse materjaliga (nt
    Kasik 2004, Kerge 2003, Kilgi2006, Metslang 2005)
  • Korpuspõhine keeleõpe ühe- ja mitmekeelsed
    sõnastikud, sagedussõnastikud, kollokatsioonide
    nimistud, tasemeõppe modelleerimine jne

23
Paralleel- ja tõlkekorpused
  • Materjali kontrastiiv- ja tõlkeanalüüs
  • Eesmärk
  • leida tõlkimise ja õppijakeele universaale,
    tüüpilisi leksikaalseid ja süntaktilisi vastavusi
    / mittevastavusi (nt A.Mauranen Käännösuomi ja
    kääntämisen uiversaalit. Tutkimus
    korpusainestolla)
  • välja töötada optimaalne tõlkijakoolituse ja
    keeleõppe mudel, veenduda sõnastike ja
    õppematerjalide sobivuses tõlkija ja keeleõppija
    vajadustega (nt Jyväskylä paralleelkorpus, mida
    tehti koostöös Oslo inglise-norra korpusega
    K.Sajavaara ja S.Johansson)
  • uurida strateegiaid, mida inimene tekstiloomes ja
    tõlkimisel kasutab

24
Väljund
  • Korpuslingvistiline tõlkeuurimus annab meetodi,
    mille abil pääseda tõlke olemuseni
  • Süstemaatilise tõlkeanalüüsi rakendamine annab
    keelte kõrvutamiseks sobiva meetodi, mis aitab
    viia kontrastiivse keeleuurimise kvalitatiivselt
    uuele tasandile (Jantunen Eskola 2002 202
    Eslon 2006a 17, 19-20)
  • Saab jälgida kirjakeele arengusuundi
  • Eelduseks normatiivsuse küsimuse lahendamine
  • Väljundiks keele- ja kultuuriinterferentsi,
    valede ja ebatäpsete tõlkevastete, kalkeerimise
    jms vähendamine tõlkestrateegia valiku suunamine
    (???????? 2003 31 McEnery Wilson 2001 72)

25
Veebikeele uurimine
  • Berghi näide sõnaotsing Taliban
  • Coubildi 56 miljoni sõne seast leidis ta 40
    konteksti, BNC 100 miljonist mitte ühtegi ja
    Googleis
  • 1 890 000 näidet (Bergh 2005 2627)
  • Veebikeele uurimise eelis representatiivsema
    tulemuse saamine - selguvad antud hetkel keelele
    omased, tüüpilised, kesksed nähtused ja
    protsessid. Sellest ei saa oma töös mööda minna
    ka keelekorraldajad
  • Veebikeele uuringute läbiviimise probleem seisneb
    aga piisavalt kasutajasõbraliku vabavara
    olemasolus

26
Korpuste töötlemisest
  • Standardiseeritud programmide ja statistiliste
    meetodite kasutamine korpuspõhises uurimistöös
  • Oxford Concordance Program, Word Cruncher,
    WordSmith Tools, MonoConc, Text Encoding
    Initiative jt
  • Eesmärk leida keeles olevaid loomulikke
    liigitusi, mis kajastuvad lingvistiliste andmete
    arvutipõhises ja statistilises analüüsis mitte
    tegeleda grammatiliste abstraktsioonidega (Abney
    1995)
  • Õpikute sisu ja keele analüüs võrdluses
    kirjakeele korpuse andmetega (Asser et al 2004)
    väjund eesti kirjakeele sagedussõnastik (Kaalep
    Muischnek 2002)

27
Keeletehnoloogiline arendustöö
  • Riiklik programm Eesti keele keeletehnoloogiline
    tugi (2006 2010)
  • Ãœks kavandatavatest rakendustest
    süntaksianalüüsil põhineva tarkvara, sh
    automaatse grammatikakorrektori väljatöötamine
  • Keeleressursside mahu suurendamine ja uute
    loomine (mitmekeelne paralleelkorpus, vigade
    korpus)
  • Olemas 50000 sõnest koosnev vigade korpus
    suurendada 200000ni teha Internetis
    kättesaadavaks
  • Grammatikakorrektor, mis suudab leida rektsiooni
    ja ühildumisvigu
  • Eesmärk analüüsida ebastandardseid tekste

28
Interaktiivsed õppematerjalid ja õppekeskkonnad
  • Virtual Language Centre või Eesti e-ülikoolid ja
    e-kutsekoolid
  • e-õppe keskkonnad (nt WebCT, Moodle, IVA) ja
    programmid e-kursuste loomiseks (nt Hot Potatoes,
    Flickr jt)
  • Näide K.Uibu e-kursus Akadeemilise teksti
    loomine (pälvis konkursil Aasta e-kursus 2006
    eripreemia kodutööde mitmekesisuse ja disaini
    eest)

29
Järg
  • Efant ja Kaunis külaline
  • Eesti keel ja meel (Pangloss 2007)
  • Laserplaadit 25 X EESTI
  • CD-ROM Talk Now!, tehtud Antwerpeni ülikooli
    mitmekeelse SMALLINC-projekti raames (Rammo
    Tael 2004 156).
  • Eesti keele algõpet saab teostada ka
    arvutiprogrammiga Oneness on-line language
    training courses

30
Viidatud kirjandus
  • Abney, Steven 1996. Statistical Methods and
    Linguistics. The Balancing Act combining
    symbolic and statistical approaches to language /
    Ed. by Judith L. Klavans Philip Resnik.
    Cambridge MIT Press, http//www.vinartus.net/spa/
    95c.pdf, 8.07.2007.
  • Asser, Hiie Kaalep, Heiki-Jaan Linnas, Siret
    Mikk, Jaan Muischnek, Kadri Songe, Merje
    Uibo, Heli 2004. Õpikute keerukuse analüüs
    arvutitel. Toimiv keel II. Töid
    rakenduslingvistika alalt / Toim. M.-M.Sepper,
    J.Lepasaar. TPÜ eesti filoloogia osakonna
    toimetised 3. Tallinn TPÜ Kirjastus, 72 84.
  • Bergh, Gunnar 2005. Min(d)ing English language
    data on the Web What can Google tell us? ICAME
    Journal. Computers in English Linguistics 29, 25
    46, http//icame.uib.no/ij29-page25-46.pdf,
    14.07.2007.
  • Eslon, Pille Metslang, Helena 2007. Õppijakeel
    ja eesti vahekeele korpus. Eesti
    Rakenduslingvistika Ãœhingu Aastaraamat (III), 99
    116.
  • Eslon, Pille 2006a. Analoogiast keelte
    kõrvutamisel. Keel ja Kirjandus 1, 15 24.
  • Eslon, Pille 2006b. Eesti vahekeele korpusest
    korrelatsioonigrammatikani. Eesti
    Rakenduslingvistika Ãœhingu aastaraamat 2 / Toim.
    H.Metslang, M.Langemets. Tallinn EKS. Lk. 11
    24.

31
  • Granger, Sylviane 1998. The computer learner
    corpus A versatile new source of data for SLA
    research. Learner English on computer / Ed. by
    S.Granger. London Longman, 3 18.
  • Granger, Sylviane 2003. Error-tagged learner
    corpora and CALL a promising synergy. CALICO
    Journal 20(3), 465 480, http//selene.lib.jyu.fi
    8080/julpu/9513915425.pdf, 19.09.2007.
  • Granger, Sylviane 2004. Computer Learner Corpus
    Research Current Status and Future Prospects.
    Applied Corpus Linguistics. A Multidimensional
    Perspective / Ed. by U.Connor T.A.Upton.
    Amsterdam / New York Rodopi, 123 145.
  • Jantunen, Jarmo Harri Eskola, Sari 2002.
    Käänössuomi kielivarianttina syntaktisia ja
    leksikaalisia erityispiirteitä. Virittäjä 2,
    184 207.
  • Kaalep, Heiki-Jaan Muischnek, Kadri 2002. Eesti
    kirjakeele sagedussõnastik. Tartu TÜ Kirjastus.
  • Mauranen, Anna Kujamäki, Pekka (Eds) 2004.
    Translation Universals Do They Exist? Amsterdam
    Benjamins.
  •  

32
Jätk
  • McEnery, Tony Wilson, Andrew 2001. Corpus
    linguistics / 2nd Ed. Edinburgh Edinburgh
    University Press.
  • ????????, ?????? 2003. ???????????? ???????
    ?????????????? ??????? ??????? ??????????? ?
    ??????????? ?????????? ? ???????????????
    ????????????? ????????????? (?? ???????
    ??????-???????? ????????????? ???????
    ?????????????? ???????). Acta Universitatis
    Tamperensis 956. Tamepere University Press,
    http//acta.uta.fi/pdf/951-44-5754-4.pdf,
    9.09.2007.
  • Pravec, Norma A. 2002. Survey of learner Corpora.
    ICAME Journal ? 26, pp. 81 114,
    http//icame.uib.no/ij26/pravec.pdf, 11.09.2007.
  • Rammo, Sirje Tael, Maarika 2004. Eesti keele
    õppematerjalid CD-ROMil. Emakeel ja teised
    keeled IV. (Tartu ülikooli eesti keele
    (võõrkeelena) õppetooli toimetised 3. Tartu TÜ
    Kirjastus, 156 163.
Write a Comment
User Comments (0)
About PowerShow.com