Building machine translation systems for indigenous languages - PowerPoint PPT Presentation

1 / 47
About This Presentation
Title:

Building machine translation systems for indigenous languages

Description:

Building machine translation systems for indigenous languages. Ariadna Font Llitj s (Carnegie ... Entendemos como lenguas con escasos recursos desde el punto de ... – PowerPoint PPT presentation

Number of Views:77
Avg rating:3.0/5.0
Slides: 48
Provided by: reside7
Category:

less

Transcript and Presenter's Notes

Title: Building machine translation systems for indigenous languages


1
Building machine translation systems for
indigenous languages
  • Ariadna Font Llitjós (Carnegie Mellon University)
  • aria_at_cs.cmu.edu
  • Roberto Aranovich (University of Pittsburgh)
  • roa6_at_pitt.edu
  • Lori Levin (Carnegie Mellon University)
  • lsl_at_cs.cmu.edu

2
Objetivo del artículo
  • El artículo describe la cooperación entre un
    equipo de lingüistas computacionales
    pertenecientes al Projecto Avenue (Language
    Technologies Institute, Carnegie Mellon
    University) y dos comunidades aborígenes de
    América Latina, la comunidad mapuche de Chile y
    la comunidad quechua de Perú.

3
The Avenue Project
  • El principal objetivo del Projecto Avenue es el
    desarrollo, en forma rápida y accesible
    económicamente, de tecnologías lingüísticas para
    lenguas con escasos recursos.
  • Entendemos como lenguas con escasos recursos
    desde el punto de vista de las tecnologías
    lingüísticas a aquellas que carecen de bases de
    datos significativas en formato electrónico y de
    hablantes nativos entrenados en lingüística
    computacional.

4
Tecnologías lingüísticas
  • Entre las tecnologías en desarrollo se
    encuentran
  • Bases de datos en formatos electrónicos
    estandarizados.
  • Diccionarios electrónicos.
  • Correctores ortográficos.
  • Analizadores morfológicos automáticos.
  • Sistemas de traducción automática.

5
Cooperación institucional (mapudungún)
  • Las instituciones que han cooperado en la
    producción de tecnologías lingüísticas para el
    mapudungún son
  • El Projecto Avenue.
  • El Ministerio de Educación de Chile.
  • El Instituto de Estudios Indígenas, Universidad
    de la Frontera (UFRO).

6
El mapudungún
  • Lengua aglutinante y polisintética hablada en el
    sur de Chile y Argentina.
  • Hay 900.000 mapuches, de los cuales al menos
    300.000 son hablantes activos de la lengua.

7
Características del mapudungún (1)
  • Dos características distintivas de esta lengua
    son la aglutinación (es decir, la posibilidad de
    formar palabras complejas adosando múltiples
    afijos a una misma raíz) y, aunque en menor
    grado, la polisíntesis, proceso que implica la
    incorporación de núcleos léxicos libres o ligados
    a un verbo.

8
Características del mapudungún (2)
  • Ejemplo
  • kofke-tu-la-ya-y
  • pan-VERB-NEG-FUT-IND/3S
  • El no comerá pan

9
Base de datos electrónica (1)
  • Base de datos paralela en formato electrónico
    (200.000 palabras de texto y 120 horas de
    transcripción de conversación).
  • Es una base de datos paralelos (en mapudungún y
    español).
  • La base de datos textual está constituida por
    textos históricos y periodísticos actuales
    (periódico Nuestros Pueblos, CONADI, Chile).
  • La base de datos oral está constituida por la
    transcripción de 120 dialogos, de una hora cada
    uno.

10
Base de datos electrónica (2)
  • Las conversaciones están limitadas al campo
    semántico de la salud primaria y preventiva.
  • Las conversaciones reflejan distintos dialectos
    del mapudungún (lafkenche, nguluche, pewenche).
  • Todos los participantes son hablantes nativos, de
    entre 21 y 75 años de edad.
  • Los diálogos fueron grabados con una grabadora
    Sony DAT (48kHz) y micrófonos estereofónicos
    digitales Sony.

11
Base de datos electrónica (3)
  • Las grabaciones fueron convertidas en archivos
    wave utilizando el programa CoolEdit 2000 v.1.1.
    (http//www.syntrillium.com/cooledit)
  • La herramienta de transcripción utilizada fue
    TransEdit v.1.1. beta 10, que sincroniza el texto
    transcripto con el archivo wave.
  • Se utilizó para la transcripción una convención
    ortográfica de 28 letras desarrollada por el
    IEI-UFRO. Este alfabeto es compatible con los
    símbolos disponibles en los teclados de
    computadora en español.

12
Base de datos electrónica (4)
  • Algunos ejemplos de tópicos de conversación en
    la base de datos
  • I. Mantención de la salud y enfermedades
  • 1. Chumkeymi tami külfünküleal. (Cómo hace para
    mantenerse as de bien.)
  • 2. Rüfkünungey am tami amulngen kiñe machimew.
  • (Es verdad que el médico lo mandó donde una
    machi.)
  • ...

13
Base de datos electrónica (5)
  • II. Embarazo - Niepeklen
  • 1.Tunten püñeñ dew nieymi. (Cuántos hijos ha
    tenido.)
  • 2.Tunten mongeley. (Cuántos estn vivos.)
  • 3.Chumngekefui tami niepüñekülen,
    kutrankawkefuimi kam femkelafuimi.
  • (Cómo eran sus embarazos. Tuvo algún
    problema.)

14
Base de datos electrónica (6)
  • III. Las enfermedades - Puke kutran
  • 1. Chumngey tami kutran. (En qué consiste su
    enermedad.)
  • 2. Chem. üy niey tami kutran ? (Cómo se llama su
    enfermad?)
  • 3. Chem. Dewmangekey pelontual chem. Kutran niel?
  • (Qué tipo de exámenes se necesitan para
    efectuar el diagnostico?)

15
Corrector ortográfico (1)
  • Prototipo de corrector ortográfico para textos en
    mapudungún.
  • Funciona en el entorno OpenOffice, un editor de
    texto de distribución gratuita disponible en
    internet (www.openoffice.org)
  • Subraya los posibles errores y propone un menú de
    posibles alternativas. También permite incorporar
    nuevas palabras al diccionario.

16
Corrector ortográfico (2)
  • El corrector funciona sobre la base de dos
    archivos
  • a. Una lista de raíces (5.234) y palabras
    (53.094).
  • b. Una lista de grupos de sufijos (1.303).

17
e
18
Diccionarios (1)
  • Diccionario (léxico para el sistema de traducción
    automática).
  • Proyecto de diccionario on-line sobre la base de
    las palabras extraídas de la base de datos oral.
  • Palabras segmentadas en raíz-grupo de sufijos y
    con ejemplos de uso.

19
Diccionarios (2)
  • Kelluaeteu kellu-a-eteu.ayudar-futuro-a.mi / /.
    el que me va a ayudar Katripache tañi kimün tati,
    peñi, feynga puulu iñche, iñche tañi lipang,
    iñche tañi kelluaeteu ta tüfa pipingeynga (Es
    conocimiento de la gente de afuera pues, hermano,
    entonces cuando llegué yo, mi brazo, éste es el
    que me va a ayudar, decía y decía)
    nmlch-nmpll1_x_0033_nmpll_00. Ec/Rh/Fc. Ec/
    Rh20-12-02.

20
Analizador morfológico (1)
  • El programa segmenta la raíz y el complejo de
    sufijos y obtiene la información gramatical
    relevante de cada morfema.
  • El léxico morfológico contiene aproximadamente
    1670 raíces y 105 sufijos.

21
Analizador morfológico (2)
  • Ejemplo
  • kofketulayay ? kofketu-la-ya-y
  • negación
  • tiempo futuro
  • persona 3
  • número sg
  • modo indicativo

22
Sistema Avenue de Traducción mapudungún-español
(Rule Based)
  • Léxico mapuche
  • (raíces y morfemas)

Analizador morfológico mapuche
Input oración/frase/palabra mapuche
Grámatica de transferencia/ Léxico de
transferencia
Input segmentado morfológicamente/ rasgos
gramaticales especificados
Sistema de transferencia
Generador morfológico español
Estructura gramatical equivalente en
español (palabras no flexionadas rasgos
gramaticales)
Output oración/frase/palabra española
Léxico español (palabras flexionadas)
23
Un ejemplo
  • 83
  • sl perkefiñ Maria
  • tl DICEN QUE LA VI A MARÍA
  • tree lt((SBAR,1 (LITERAL "DICEN") (LITERAL "QUE")
    (S,3 (VP,3 (VBAR,6 (CLITIC,40 "LA") (TENSEBAR,1
    (V,41 "VI") ) ) (LITERAL "A") (NP,4 (NBAR,2
    (N,25 "MARÍA") ) ) ) ) ) )gt

24
Ejemplo perkefiñ
pe-rke-fi-ñ ver-REPORT-3O-1sS/IND
  • X0 ((REPORTATIVE )
  • (PERSON 1)
  • (NUMBER SG)
  • (MOOD IND)
  • (OBJECT
  • ((PERSON 3))))

25
Léxico de transferencia (1)
  • Estructura de las entradas léxicas
  • Raíz

V,4 VV pe -gt "ver" ( (X1Y1) ((y0
type) main) )
26
Léxico de transferencia (2)
VSUFF,23 VSuffVSuff rke -gt
( (X1Y1) ((x0 reportative) ) )
  • VSUFF,1
  • VSuffVSuff ñ -gt
  • (
  • (X1Y1)
  • ((x0 person) 1)
  • ((x0 number) sg)
  • ((x0 mood) ind)
  • )

VSUFF,56 VSuffVSuff fi -gt
( (X1Y1) ((x0 object person) 3) )
27
Gramática de transferencia (1)
  • Estructura de las reglas formalismo desarrollado
  • para transferir rasgos gramaticales, tanto de
  • los ítemes léxicos a los constituyentes
  • sintácticos y de la lengua fuente a la lengua
    meta.
  • Ejemplo
  • pl N with pluralizer PU (pu rukalas
    casasthe houses)

28
Estructura de las reglas
  • NBar,1 identificador
  • NBarNBar PART N -gt N especificación de
    los constituyentes
  • (
  • (X2Y1) alineación
  • ((X1 number) c pl) restricción
  • ((X0 number) (X1 number))
    transferencia
  • ((Y0 number) (X0 number)) de rasgos
  • ((Y1 number) (Y0 number))
  • ((Y0 gender) (Y1 gender)))
  • )

29
árbol
  • NBar(X0) NBar(Y0)
  • PART(X1) N(X2) N(Y1)

num
num
gen
num
30
Reglas que se aplican en perkefiñ
  • Problemas a resolver
  • 1. Concatenación de los sufijos
  • 2. Determinar el tiempo en mapudungún y
    transferirlo al español
  • 3. Insertar el clítico en la lengua meta
  • 4. Insertar la preposición a en la lengua meta
  • 5. Insertar el verbo modal y el subordinante que
    en la lengua meta

31
Concatenación de sufijos (1)
  • VSuffG,1
  • VSuffGVSuffG VSuff -gt
  • (
  • (X0 X1)
  • )
  • VSuffG
  • VSuff

rasgos
32
Concatenación de sufijos (2)
  • VSuffG,2
  • VSuffGVSuffG VSuffG VSuff -gt ""
  • (
  • (X0 X1)
  • (X0 X2)
  • )
  • VSuffG
  • VSuffG VSuff

rasgos
rasgos
33
Concatenación de sufijos (3)
  • VSuffG
  • VSuffG VSuff
  • VSuffG VSuff
  • -fi
  • VSuff
  • -rke

34
El tiempo en mapudungún (1)
  • Tiempo no marcado aspecto léxico no marcado
    aspecto externo no marcado
  • ? pasado (kellu-nayudé(I)helped)
  • Tiempo no marcado aspecto léxico estativo
  • ? presente (niye-nposeo(I)own)



35
El tiempo en mapudungún (2)
  • Tiempo no marcado aspecto léxico no marcado
  • aspecto externo habitual
  • ? presente (kellu-ke-nayudo(I)help)
  • Tiempo marcado (pe-a-nveré(I)will see)

36
Tiempo pasado
  • TenseBar,1
  • TenseBarTenseBar V VSuffG -gt V
  • (
  • (X1Y1)
  • ((X2 tense) UNDEFINED)
  • ((X1 lexicalaspect) UNDEFINED)
  • ((X2 aspect) (NOT habitual))
  • ((X2 tense) lt past)
  • (X0 X1)
  • (X0 X2)
  • (Y0 Y1)
  • )

37
Inserción del clítico
  • VBar,6
  • VBarVBar TenseBar -gt CLITIC V
  • (
  • (X1Y2)
  • ((X1 object person) c 3)
  • ((X0 person) (X1 person))
  • ((X0 number) (X1 number))
  • ((X0 object person) (X1 object person))
  • ((X0 object number) (X1 object number))
  • ((Y0 objmarker) Y1)
  • ((Y0 person) (X0 person))
  • ((Y0 number) (X0 number))
  • ((Y0 object person) (X0 object person))
  • ((Y0 object number) (X0 object number))
  • ((Y2 person) (Y0 person))
  • ((Y2 number) (Y0 number))
  • ((Y1 person) (Y0 object person))
  • ((Y1 number) (Y0 object number))
  • ((Y1 type) c personal)

38
Inserción de la preposición
  • transitive VP (human object)
  • pefiñ Mariala vi a María
  • VP,3 transitive VP (human object)
  • VPVP VBar NP -gt VBar "a" NP
  • (
  • (X1Y1)
  • (X2Y3)
  • ((X2 type) (NOT personal))
  • ((X2 human) c )
  • (X0 X1)
  • ((X0 object) X2)
  • (Y0 X0)
  • ((Y0 object) (X0 object))
  • (Y1 Y0)
  • (Y3 (Y0 object))
  • ((Y1 objmarker person) (Y3 person))
  • ((Y1 objmarker number) (Y3 number))
  • ((Y1 objmarker gender) (Y3 gender))

39
Inserción del verbo modal y el subordinante
  • Sbar,1
  • SbarSbar S -gt "Dicen" "que" S
  • (
  • (X1Y3)
  • ((X1 reportative) c )
  • (X0 X1)
  • (Y0 Y3)
  • )

40
Generador morfológico español
  • Funciona sobre la base de un léxico de formas
    flexionadas del español con todos sus rasgos
    especificados.
  • Ejemplo
  • altoAQ0FP0 altas
  • altoAQ0FS0 alta
  • altoAQ0MP0 altos
  • altoAQ0MS0 alto

41
Algunos problemas de traducción (1)
  • inverse agreement
  • 40
  • sl pe-e-n
  • tl ME VISTE
  • tree lt((S,3 (VP,1 (VBAR,5 (CLITIC,10 "ME")
    (TENSEBAR,1 (V,41 "VISTE") ) ) ) ) )gt

42
Algunos problemas de traducción (2)
  • deadjectival verbs
  • 48
  • sl fey küme-nge-y
  • tl ELLA ES BUENA
  • tree lt((S,6 (NP,1 (PRON,201 "ELLA") ) (VP,1
    (VBAR,7 (V,110 "ES") (TENSEBAR,20 (V,142
    "BUENA") ) ) ) ) )gt
  • tl ÉL ES BUENO
  • tree lt((S,6 (NP,1 (PRON,191 "ÉL") ) (VP,1
    (VBAR,7 (V,110 "ES") (TENSEBAR,20 (V,142
    "BUENO") ) ) ) ) )gt

43
Algunos problemas de traducción (3)
  • passive
  • 58
  • sl Kuan ayuda-nge-y
  • tl JUAN FUE AYUDADO
  • tree lt((S,5 (NP,4 (NBAR,2 (N,11 "JUAN") ) )
    (VP,1 (VBAR,3 (V,110 "FUE") (TENSEBAR,13 (V,82
    "AYUDADO") ) ) ) ) )gt

44
Algunos problemas de traducción (4)
  • causative verbs
  • 72
  • sl trem-üm-ün
  • tl HICE CRECER
  • tree lt((S,3 (VP,1 (VBAR,9 (V,130 "HICE")
    (TENSEBAR,13 (V,171 "CRECER") ) ) ) ) )gt

45
Algunos problemas de traducción (5)
  • denominal verbs
  • 73
  • sl asukar-tu-n
  • tl COMÍ AZÚCAR
  • tree lt((S,3 (VP,1 (VBAR,8 (V,120 "COMÍ")
    (TENSEBAR,15 (V,151 "AZÚCAR") ) ) ) ) )gt

46
Algunos problemas de traducción (6)
  • progressive aspect
  • 95
  • sl petu pe-yu
  • tl ESTAMOS VIENDO
  • tree lt((S,3 (VP,1 (VBAR,2 (V,100 "ESTAMOS")
    (TENSEBAR,13 (V,42 "VIENDO") ) ) ) ) )gt

47
Algunos problemas de traducción (7)
  • negation
  • 98
  • sl pe-la-n
  • tl NO VI
  • tree lt((S,3 (VP,2 (NEGP,1 (LITERAL "NO") (VBAR,1
    (TENSEBAR,13 (V,41 "VI") ) ) ) ) ) )gt
Write a Comment
User Comments (0)
About PowerShow.com