Corpus multilingue: strumento di osservazione e strategie d'uso IN CONTESTI DIDATTICI - PowerPoint PPT Presentation

About This Presentation
Title:

Corpus multilingue: strumento di osservazione e strategie d'uso IN CONTESTI DIDATTICI

Description:

Title: Corpus multilingue: strumento di osservazione e strategie d'uso IN CONTESTI DIDATTICI Author: sabrina Last modified by: sabrina Created Date – PowerPoint PPT presentation

Number of Views:79
Avg rating:3.0/5.0
Slides: 37
Provided by: sabr214
Category:

less

Transcript and Presenter's Notes

Title: Corpus multilingue: strumento di osservazione e strategie d'uso IN CONTESTI DIDATTICI


1
Corpus multilingue strumento di osservazione
e strategie d'uso IN CONTESTI DIDATTICI
  • Sabrina Aulitto
  • Università Cattolica del Sacro Cuore di Milano

2
Linee guida
  1. Note introduttive
  2. Definire un corpus
  3. Il contenuto del corpus
  4. Corpus-Didattica un binomio possibile?
  5. Strumenti informatici
  6. Proposta di studio applicato
  7. Conclusioni

3
1. Note introduttive
  • La linguistica computazionale studia tecniche di
    rappresentazione e modalità di elaborazione, di
    espressione linguistiche al fine di riprodurre su
    macchina alcune capacità linguistiche tipiche
    degli essere umani
  • Riconoscimento della correttezza di frasi
  • Generazioni di frasi
  • Comprensione del significato di frasi.
  • M. Benedetti, Introduzione alla linguistica
    computazionale, in Formare i Formatori. Una
    proposta di aggiornamento per gli insegnanti di
    lingua, a cura di M. Negri, A. Villamira e J.
    Villar, Roma, FrancoAngeli, 1999, p102.

4
1. Note introduttive
  • Una delle discipline che affonda le sue radici
    nelle origini della linguistica computazionale
    stessa è la linguistica dei corpora, la quale si
    occupa del trattamento del linguaggio naturale ai
    fini della produzione di lessici di testi
    specifici, di concordanze e di studi statistici.
  • G. Williams, Introduction ,  TEXTE ET CORPUS,
    3, août, 2008, Actes des Journées de la
    linguistique de Corpus 2007, p. 23.

5
  • Grandi corpora di testi sono da tempo per i
    linguisti uno strumento duso quotidiano
  • poiché hanno contribuito e contribuiscono
    allarricchimento di database finalizzati a scopi
    di ricerca e didattica.
  • I principali tipi di corpora adoperati per
    finalità di ricerca descrittiva e pedagogica sono
    innanzitutto corpora bilingui e multilingui che
    a loro volta si distinguono in corpora paralleli
    e corpora comparabili

6
  • 2. DEFINIRE UN CORPUS
  • Un corpus parallelo comprende testi sia nella
    loro lingua originaria, sia in traduzioni in
    unaltra lingua. Un corpus comparabile non
    contiene, invece, testi in traduzione, ma testi
    in originale in lingue diverse.
  • I corpora comparabili permettono di confrontare
    due o più lingue rispetto allo stesso genere
    testuale o dominio tematico, dal momento che i
    testi sono tutti originali, i dati raccolti
    possiedono un maggior grado di naturalezza,
    evitando le artificiosità che talvolta conseguono
    dallopera di traduzione.


  • Cfr, A. Lenci, Testo e computer Elementi
    di linguistica computazionale, Carocci Roma,
    2005, pp.31-32.

7
  • In un corpus il numero di termini ne
    rappresenta la sua autenticità, conferendo a sua
    volta alle parole funzioni ben definite, in
    quanto possono essere analizzate secondo la
    classificazione seguente
  • La parola grafica ( sequenza di caratteri
    compresi tra due bianchi o segni di
    interpunzione)
  • Le occorrenze o word tokens (comprendono le
    forme flesse, quindi anche le occorrenze delle
    parole testuali)
  • Le parole o word types (si intendono le parole
    diverse tra loro).

8
  • In relazione a tale suddivisione un aspetto
    interessante da calcolare è lo studio della
    frequenza attraverso il rapporto tra il numero di
    types e il numero di tokens, che fornisce una
    misura della varietà lessicale di un testo.
  • La formula per calcolare il rapporto types/tokens
    ratio, è ottenuta automaticamente dai software
    che eseguono analisi statistiche sui testi.

9
ESEMPI DI CORPORA
  • Cobuild - Collins
  • Collins Birmingham University International
    Language Database è un fonademntale progetto di
    analisi lessicale computerizzato basato su
    coropora di lingua inglese, avviato nel 1980 dal
    prof. John Sinclair e i cui frutti dizionari,
    corsi di lingua, corpora elettonci di riferimento
    per gli apprendenti- sono stati a tuttoggi
    numerosi e apprezzati.
  • Per il suo utilizzo è necessario lacquisto di
    licenze relative alle diverse sezioni di cui è
    composto.

10
ESEMPI DI CORPORA
  • British National Corpus Oxford
  • E uno dei corpora più rappresentativi, in quanto
    conta 100 milioni di parole.
  • La raccolta cominciò nel 1991 e attualmente
    presenta sia testi scritti (90) che testi audio
    (10).
  • Il suo accesso non è libero, ma prevede un costo
    variabile in base alla sezione da consultare.

11
ESEMPI DI CORPORA
  • FRANTEXTE
  • E un corpus letterario realizzato dal centro di
    ricerca ATILF (Analyse et traitement informatique
    de la langue française) dellUniversité de Nancy.
  • La consultazione di questa base testuale è
    possibile attraverso un abbonamento.
  • Le possibilità di interrogazione del corpus
    vertono sulla ricerca di parole o intere
    espressioni allinterno delle opere letterarie
    raccolte.

12
3. Il contenuto del corpus
  • Corpus multilingue comparato, ricavato dalla
    raccolta di articoli tratti da dieci testate
    giornalistiche internazionali, le quali hanno
    prestato particolare interesse allo sviluppo
    delle problematiche affrontate dalla compagnia
    aerea italiana Alitalia relative allanno 2008.
  • Gli articoli sono stati acquisiti dal web e
    codificati.
  • Periodo, settembre - ottobre 2008
  • Numero complessivo degli articoli 364
  • Numero di tokens 161.863.
  • Numero di types 17. 119.

13
  • I quotidiani consultati per la realizzazione del
    corpus si riferiscono a tre codici linguistici
    diversi
  • per la lingua italiana sono stati scelti i
    quotidiani come La Repubblica, Il sole 24 ore
    e Milano-Finanza
  • Per la lingua francese Les échos, Le parisien
    e Le figaro
  • Per la lingua inglese Times-online,
    Guardian, Financial-Time e International
    Herald Tribune.

14
  • Un corpus multilingue con queste caratteristiche
    implica altresì lanalisi degli impieghi diversi
    che esso può avere ai fini di ricerche di
    linguistica applicata o come supporto didattico
    per corsi di lingua orientati verso lo studio del
    linguaggio di specialità, economico-finaziario,
    in dimensioni linguistiche e prospettive
    culturali diverse.

15
4. Corpus-Didattica un binomio possibile?
  • Lidea del possibile connubio corpus-didattica è
    legata ad un approccio esplorativo, in cui gli
    studenti cercano di analizzare i fenomeni e di
    verificarli nella prassi linguistica.
  • La disponibilità di ampie basi di dati
    linguistici e di programmi di concordanze per
    analizzarli, consente oggi di affrontare tale
    complessità con qualche strumento in più.

16
  • DEFINIRE GLI OBIETTIVI
  • Lobiettivo primario della realizzazione del
    nostro corpus si pone dunque in una prospettiva
    di tipo didattico, e parte da unipotesi di
    somministrazione di una raccolta di testi
    inerenti ad un unico campo di indagine, ad un
    campione di studenti che abbia buone competenze
    relative alla tre dimensioni linguistiche scelte.

17
testo e corpus
  • Partendo dallanalisi del nostro obiettivo
    primario, orientato verso lespletamento di
    questo corpus ai fini didattici, è importante
    sottolineare, come precisa Elena Tognini
    Bonelli, che un corpus presenta una serie di
    parametri che lo distingue dal singolo testo,
    come la sua lettura frammentaria e verticale e
    non per intero e orizzontale come nel caso del
    testo singolo, in più il corpus offre
    informazioni circa la langue mentre il testo è
    un esempio di parole.

18
  • Quindi, come può un corpus, con queste tratti
    distintivi risultare un utile e proficuo supporto
    didattico?
  • FINALITA
  • Esercizi di lettura e comprensione del testo o
    dei testi somministrati
  • Acquisizione di una competenza interrogativa
  • Identificazione de profilo lessicale (
    collocation)
  • Identificazione delle regolarità lessico-
    grammaticali (colligation)
  • Considerazioni riguardanti il campo semantico
    comune (preferenza semantica)
  • Considerazioni riguardanti le realizzazioni
    pragmatiche (prosodia semantica) dove la prosodia
    semantica rappresenta lelemento più importante
    nello studio dei rapporti tra contesto e
    funzione.
  • Acquisizione di un linguaggio di tipo
    specialistico in relazione ad un settore
    specifico.

19
5. Strumenti informatici
  • Nella fase applicativa dello studio di un corpus
    è necessario lutilizzo di programmi di
    concordanze che permettono di analizzare un
    corpus in diverse prospettive
  • 1. La frequenza
  • 2. Ricerca delle concordanze
  • 3. Ricerca delle collocazioni
  • 4. Ricerca dei clusters.

20
Esempi di programmi di concordanze
  • I programmi di concordanze sono disponibili in
    rete sia attraverso free download o attraverso
    lacquisto di una licenza.
  • Alla prima categoria appartengono i programmi
    come Antconc, Monoconc, Paraconc, Kwic.
  • Alla seconda Wordsmith Tools

21
Funzioni e utilizzo
  • ANTCONC 3.2 w
  • Generare file in TXT
  • Inserire file nel programma
  • Indicare il termine per la ricerca
  • Scegliere il tipo di ricerca
  • Concordance, Concordance plot, File view,
  • Clusters, Collocates, Word Iist
  • Lanciare la ricerca
  • Analizzare loutput.

22
  • PUNTI DI SVILUPPO
  • Per raggiungere tali obiettivi la nostra analisi
    si è soffermata sullo studio delle frequenze,
    delle concordanze, delle collocazioni e dei
    clusters o segmenti ripetuti estratti dal corpus.
  • In relazione a quanto finora precisato, il
    nostro percorso verso il raggiungimento delle
    finalità proposte è partito dallanalisi di
    cinque lemmi rispettivamente
  • in lingua italiana accordo, offerta, partner,
    piano, trattativa
  • in lingua francese accord, offre, partenaire,
    plan, négotiations
  • in lingua inglese agreement, offer, partners,
    plan, negotiations.

23
i Obiettivo Ricerca delle Frequenze
  • Tabella n. 1
  • Lanalisi rivela una disomogeneità dellimpiego
    dei cinque lemmi nei tre singoli sub-corpus, in
    cui spesso compare uno squilibrio tra le
    frequenze dei termini nelle diverse lingue.
  • Un caso interessante da analizzare è quello del
    lemma agreement, che nelle testate giornalistiche
    inglesi è utilizzato 46 volte, un numero
    inferiore rispetto allequivalente italiano
    accordo (164) e allequivalente francese accord
    (190).

24
1. STUDIO DI UN CASO Agreement
  • Si potrebbe ipotizzare lutilizzo di un suo
    sinonimo. Dalla ricerca delle rispettive
    similarità semantiche si evince che il sinonimo
    che presenta più semi in comune con agreement è
    pact, il quale si ripete una sola volta in tutto
    il corpus inglese, due volte in quello italiano,
    patto e quattro volte in quello francese, pacte.
  • E chiaro che limpiego di sinonimi non fornisce
    una spiegazione sufficiente a tale fenomeno, in
    realtà la disparità potrebbe anche essere dovuta
    al modo in cui è espressa la notizia e al paese
    in cui si vive linformazione.

25
  • UNIONS E ACCORD
  • Unions con 261 occorrenze
  • Possibile motivazione la tematica della
    mobilitazione dei sindacati è stata maggiormente
    affrontata dalle testate giornalistiche inglesi
    contrariamente le testate giornalistiche francesi
    presentano il lemma syndicat solo 32 volte
  • Una notevole frequenza del termine accord (196),
    nella stampa francese, anche del suo sinonimo
    alliance (92 volte), che potrebbe essere motivata
    dal coinvolgimento della Francia nelle trattativa
    tra Alitalia e Air France.

26
IIObiettivo concoradanze e collocazioni
  • Individuazione dellhabitat linguistico in cui
    ricorrono i lemmi selezionati. (Tabella. 2)
  • Ai fini didattici la visualizzazione delle
    concordanze e delle collocazioni, oltre a
    comunicare unidea di testo e di testi
    frammentaria, (presentando lelenco di tutte le
    parole presenti nel corpus, quante volte e come
    si collocano allinterno della loro stringa di
    appartenenza), permette allo studente di
    acquisire delle competenze, attraverso una
    metodologia innovativa di analisi testuale,
    prevalentemente concentrata sullo studio
    dellimpiego del lessico in un dato contesto.

27
  • Tali applicazioni, consentono di visualizzare la
    fitta rete semantica relativa ad un termine dato,
    evidenziandone la sua contestualizzazione, i suoi
    sinonimi e i sinonimi dei verbi o aggettivi ad
    esso associabili, al fine di raggiungere delle
    competenze linguistiche approfondite in un
    settore specifico comparativamente in tre lingue.
  • Analisi dei sintagmi verbali, estrapolati dalla
    ricerca delle concordanze, appartenenti ai cinque
    lemmi selezionati a partire dal corpus italiano.
  • Individuare se nel corpus di lingua francese e
    nel corpus di lingua inglese esistono sintagmi
    corrispondenti o ulteriori alternative. (Tabella.
    2, 3,4,5,6)

28
  • Dallanalisi dei dati ricavati dalle cinque
    tabelle è percepibile una limitata corrispondenza
    di lemmi nelle tre lingue, in quanto non si
    tratta di corpora paralleli, bensì di corpora
    comparabili. Potremmo considerare un corpus
    comparabile come un serie di testi aperti e non
    particolarmente pigri, dai quali è possibile
    trarre spunto per numerose esercitazioni in aula,
    come colmare le corrispondenze mancanti nelle
    tabelle, completando il panorama relativo ai
    sintagmi verbali dei lemmi scelti.

29
  • Potrebbe essere interessante effettuare la
    medesima operazione di completamento analizzando
    i sintagmi nominali, oppure le preposizioni che
    seguono tale lemma, in modo da poter identificare
    il profilo semantico e sintattico di una serie di
    unità linguistiche selezionate.
  • Unaltra possibile applicazioni
  • - realizzazione di banche dati, relative ad un
    settore linguistico di specialità come quello
    economico-finanziario in tre codici linguistici
    diversi.

30
III obiettivo ricerca dei clusters
  • Risulta, altresì, interessante e utile ai fini di
    un apprendimento mirato, unanalisi comparata dei
    clusters e delle collocazioni, che prevede
    lestrapolazione di singoli lemmi ( per lo studio
    delle collocazioni) e di segmenti o gruppi di
    parole ( per lanalisi dei clusters) che si
    ripetono in un corpus, visualizzati attraverso
    un programma di concordanze.

31
  • Collocazioni e Clusters
  • Una ricerca per clusters analizza in un corpus
    gli spezzoni di testo che ricorrono più volte, a
    seconda della loro lunghezza in parole. La
    differenza con le collocazioni è evidente i
    clusters prevedono che i segmenti ripetuti siano
    adiacenti e che la loro sequenza non sia
    interrotta da nessun altro elemento, e
    costituiscono per questo un tipo di relazione più
    stretta quello di collocazione, è un concetto
    più ampio, che comprende sia i segmenti adiacenti
    che cooccorrenze di una parola in prossimità di
    altre, in base alla definizione della lunghezza
    del contesto.
  • (A. Lenci Testo e computer Elementi di
    linguistica computazionale)

32
STUDIO DI UN CASO STAMPA
  • Nel caso del nostro corpus abbiamo estratto dal
    software i clusters e le collocazioni
    corrispondenti al lemma stampa.
  • Tra i clusters abbiamo, conferenza stampa,
    comunicato stampa, agenzie di stampa, sala
    stampa, fra le collocazioni abbiamo le
    preposizioni o i verbi che accompagnano lunità
    linguistica stampa.
  • Una proposta didattica può essere quella di
    individuare i clusters equivalenti nei diversi
    codici linguistici. (Tabella. 7)

33
  • Nel nostro caso la ricerca automatica, con
    laiuto del software AntConc, rivela lassenza di
    clusters equivalenti per i segmenti individuati
    in lingua italiana, nel sub-corpus francese
    mentre un solo risultato nel sub-corpus inglese
    con press conference.
  • Si potrebbe quindi proporre anche in questo caso
    un tipo di esercitazione che richieda la ricerca
    delle traduzioni equivalenti dei clusters del
    lemma stampa nelle tre lingue.
  • Anche questesercitazione di scorporazione e
    frammentazione di un corpus, fornisce unanalisi
    della lingua che permette di acquisire una
    maggiore padronanza del lessico contestualizzato,
    oltre che di visualizzare il modo in cui
    co-occorrono allinterno del corpus.

34
CONCLUSIONI
  • In generale, le proposte di esplorazione del
    linguaggio in una dimensione plurilingue
    richiamano ad unidea di interattività e di
    costruzione di regole e significati a partire da
    esempi non predefiniti, ma ricavati dallo
    studente attraverso il supporto dei mezzi
    informatici, un approccio che favorisce lo
    sviluppo di abilità autonome di apprendimento.

35
  • Quindi è noto come in questo contesto lanalisi
    dei dati linguistici tragga vantaggio
    dallapporto delle nuove tecnologie, le quali
    dispongono di molteplici strumenti di indagine
    per lo sviluppo di diverse competenze e abilità,
    dalle nozioni di grammatica generica
    allapprofondimento dellappropriatezza
    contestuale, quale la lingua di specialità e
    infine lacquisizione di una tale proprietà di
    linguaggio, dovuta alla mole infinita di dati
    linguistici a disposizione, che tende a colmare
    quelle comuni lacune che differenziano
    unapprendente da un nativo.

36
  • Il possibile connubio tra didattica e
    limpiego di corpora come strumento di
    apprendimento, permette di raggiungere una nuova
    concezione della lingua e una nuova concezione
    della didattica, come facendo leva su una
    risorsa che si avvale dell abilità e della
    proprietà di un singolo individuo di disporre di
    vari tipi di competenze linguistiche in codici
    diversi.
Write a Comment
User Comments (0)
About PowerShow.com