Building Machine Translation Systems for Indigenous Languages - PowerPoint PPT Presentation

1 / 47
About This Presentation
Title:

Building Machine Translation Systems for Indigenous Languages

Description:

Building Machine Translation Systems for Indigenous Languages. Ariadna Font Llitj s (Carnegie ... Comunidades abor genes de Am rica Latina (comunidad mapuche de ... – PowerPoint PPT presentation

Number of Views:46
Avg rating:3.0/5.0
Slides: 48
Provided by: reside7
Category:

less

Transcript and Presenter's Notes

Title: Building Machine Translation Systems for Indigenous Languages


1
Building Machine Translation Systems for
Indigenous Languages
  • Ariadna Font Llitjós (Carnegie Mellon University)
  • aria_at_cs.cmu.edu
  • Roberto Aranovich (University of Pittsburgh)
  • roa6_at_pitt.edu
  • Lori Levin (Carnegie Mellon University)
  • lsl_at_cs.cmu.edu

2
Cooperación
  • Lingüistas computacionales
  • (Language Technologies Institute, Carnegie
    Mellon University)
  • Comunidades aborígenes de América Latina
    (comunidad mapuche de Chile y comunidad quechua
    de Perú).

3
El Projecto Avenue
  • Desarrollar tecnologías lingüísticas para lenguas
    con escasos recursos en forma rápida y accesible
    económicamente.

4
Tecnologías lingüísticas
  • Bases de datos en formatos electrónicos
    estandarizados.
  • Diccionarios electrónicos.
  • Correctores ortográficos.
  • Analizadores morfológicos automáticos.
  • Sistemas de traducción automática.

5
Cooperación institucional (mapudungún)
  • Las instituciones que han cooperado en la
    producción de tecnologías lingüísticas para el
    mapudungún son
  • El Projecto Avenue.
  • El Ministerio de Educación de Chile.
  • El Instituto de Estudios Indígenas, Universidad
    de la Frontera (UFRO).

6
El mapudungún
  • Lengua aglutinante y polisintética hablada en el
    centro-sur de Chile y Argentina.
  • 900.000 mapuches.
  • Al menos 300.000 hablantes.

7
Sistema de traducción mapudungún-español basado
en reglas
  • Léxico mapuche
  • (raíces y morfemas)

Analizador morfológico mapuche
Input oración/frase/palabra mapuche
Grámatica de transferencia/ Léxico de
transferencia
Input segmentado morfológicamente/ rasgos
gramaticales especificados
Sistema de transferencia
Generador morfológico español
Estructura gramatical equivalente en
español (palabras no flexionadas rasgos
gramaticales)
Output oración/frase/palabra española
Léxico español (palabras flexionadas)
(Universidad Politécnica de Barcelona)
8
Un ejemplo
  • 83
  • sl pe-rke-fi-ñ Maria
  • ver-REPORT-3pO-1pSgS/IND
  • tl DICEN QUE LA VI A MARÍA
  • tree lt((SBAR,1 (LITERAL "DICEN") (LITERAL "QUE")
    (S,3 (VP,3 (VBAR,6 (CLITIC,40 "LA") (TENSEBAR,1
    (V,41 "VI") ) ) (LITERAL "A") (NP,4 (NBAR,2
    (N,25 "MARÍA") ) ) ) ) ) )gt

9
Segmentación morfológica(programa desarrollado
por Carlos Fasola)
pe-rke-fi-ñ ver-REPORT-3O-1sS/IND
  • ((REPORTATIVE )
  • (PERSON 1)
  • (NUMBER SG)
  • (MOOD IND)
  • (OBJECT
  • ((PERSON 3))))

10
Gramática de transferencia (1)
  • Formalismo desarrollado para manipular rasgos
    gramaticales (transferir, insertar, transformar).
  • Itemes léxicos ? constituyentes sintácticos.
  • Constituyentes sintácticos ? constituyentes
    sintácticos.
  • Lengua fuente ? lengua meta.

11
Ejemplo de reglapl N con pluralizador pu (pu
rukacasas)
  • NBar,1 identificador
  • NBarNBar PART N -gt N especificación de
    los constituyentes
  • (
  • (X2Y1) alineación
  • ((X1 number) c pl) restricción
  • ((X0 number) (X1 number))
    transferencia
  • ((Y0 number) (X0 number)) de rasgos
  • ((Y1 number) (Y0 number))
  • ((Y0 gender) (Y1 gender)))
  • )

12
Representación arbórea
  • NBar(X0) NBar(Y0)
  • PART(X1) N(X2) N(Y1)
  • pu ruka casas

num
num
gen
num
13
Reglas que se aplican en perkefiñ
  • Problemas a resolver
  • 1. Concatenación de los sufijos
  • 2. Determinar el tiempo en mapudungún y
    transferirlo al español
  • 3. Insertar el clítico en la lengua meta
  • 4. Insertar la preposición a en la lengua meta
  • 5. Insertar el verbo modal y el subordinante que
    en la lengua meta

14
Estructuras comparadas
  • O O
  • FV FV
  • V FN V O
  • pe-rke-fi-ñ Maria S VP
  • CL-V FP
  • P NP dicen que la vi a
    María

15
Concatenación de sufijos (1)
  • VSuffG,1
  • VSuffGVSuffG VSuff -gt
  • (
  • (X0 X1)
  • )
  • VSuffG
  • VSuff
  • -rke ( reportativo)

rasgos
16
Concatenación de sufijos (2)
  • VSuffG,2
  • VSuffGVSuffG VSuffG VSuff -gt ""
  • (
  • (X0 X1)
  • (X0 X2)
  • ) VSuffG
  • VSuffG VSuff
  • -rke -fi
  • (reportativo) (3pO)

rasgos
rasgos
17
Concatenación de sufijos (3)
  • VSuffG
  • VSuffG VSuff
  • rke-fi- -ñ
  • (reportativo, 3pO) (1pSgS/ind)

18
El tiempo en mapudungún (1)
  • Tiempo no marcado aspecto léxico no marcado
    aspecto externo no marcado
  • ? pasado (kellu-nayudé(I)helped)
  • Tiempo no marcado aspecto léxico estativo
  • ? presente (niye-nposeo(I)own)



19
El tiempo en mapudungún (2)
  • Tiempo no marcado aspecto léxico no marcado
  • aspecto externo habitual
  • ? presente (kellu-ke-nayudo(I)help)
  • Tiempo marcado (pe-a-nveré(I)will see)

20
Tiempo pasado
  • TenseBar,1
  • TenseBarTenseBar V VSuffG -gt V
  • (
  • (X1Y1)
  • ((X2 tense) UNDEFINED)
  • ((X1 lexicalaspect) UNDEFINED)
  • ((X2 aspect) (NOT habitual))
  • ((X0 tense) past)
  • (X0 X1)
  • (X0 X2)
  • (Y0 Y1)
  • )

21
Inserción del tiempo
  • TenseBar
  • V VSuffG

tense
22
Inserción del clítico (1)
  • VBar,6
  • VBarVBar TenseBar -gt CLITIC V
  • (
  • (X1Y2)
  • ((X1 object person) c 3)
  • ((X0 person) (X1 person))
  • ((X0 number) (X1 number))
  • ((X0 object person) (X1 object person))
  • ((X0 object number) (X1 object number))
  • ((Y0 objmarker) Y1)
  • ((Y0 person) (X0 person))
  • ((Y0 number) (X0 number))
  • ((Y0 object person) (X0 object person))
  • ((Y0 object number) (X0 object number))
  • ((Y2 person) (Y0 person))
  • ((Y2 number) (Y0 number))
  • ((Y1 person) (Y0 object person))
  • ((Y1 number) (Y0 object number))
  • ((Y1 type) c personal)

23
Inserción del clítico (2)
S AGR O AGR
  • VBar VBar
  • TenseBar CL V
  • la vi
  • V VSuffG
  • pe rke-fi-ñ

S AGR O AGR
S AGR
O AGR
S AGR O AGR
24
Inserción de la preposición (1)
  • transitive VP (human object)
  • pefiñ Mariala vi a María
  • VP,3 transitive VP (human object)
  • VPVP VBar NP -gt VBar "a" NP
  • (
  • (X1Y1)
  • (X2Y3)
  • ((X2 type) (NOT personal))
  • ((X2 human) c )
  • (X0 X1)
  • ((X0 object) X2)
  • (Y0 X0)
  • ((Y0 object) (X0 object))
  • (Y1 Y0)
  • (Y3 (Y0 object))
  • ((Y1 objmarker person) (Y3 person))
  • ((Y1 objmarker number) (Y3 number))
  • ((Y1 objmarker gender) (Y3 gender))

25
Inserción de la preposición (2)
  • VP VP
  • VBar NP VBar a NP
  • perkefiñ Maria la vi a María

agr
26
Inserción del verbo modal y el subordinante (1)
  • Sbar,1
  • SbarSbar S -gt "Dicen" "que" S
  • (
  • (X1Y3)
  • ((X1 reportative) c )
  • (X0 X1)
  • (Y0 Y3)
  • )

27
Inserción del verbo modal y el subordinante (2)
  • SBar SBar
  • S S
  • VP VP
  • VBar NP VBar a NP
  • perkefiñ Maria dicen que la
    vi a María

28
Generador morfológico español(Universidad
Politécnica de Cataluña)
  • Léxico de formas flexionadas del español con
    todos sus rasgos especificados
  • POS, type, gender, number.
  • Ejemplo
  • altoAQ0FP0 altas
  • altoAQ0FS0 alta
  • altoAQ0MP0 altos
  • altoAQ0MS0 alto

29
Algunos problemas de traducción (1)
  • Denominador común construcciones sintéticas
  • vs. construcciones analíticas
  • Concordancia inversa
  • pe-e-n
  • ver-INV(2pSgO)-1pSg/IND
  • ME VISTE

30
Algunos problemas de traducción (2)
  • Verbos deadjetivales
  • fey küme-nge-y
  • 3sPRO bueno-VERB-3pSg/IND
  • ELLA ES BUENA
  • ÉL ES BUENO
  • Voz pasiva
  • Kuan pe-nge-y
  • Juan ver-PAS-3pSg/IND
  • JUAN FUE VISTO

31
Algunos problemas de traducción (3)
  • Aspecto progresivo
  • petu pe-yu
  • DUR ver-1pDual/IND
  • ESTAMOS VIENDO
  • Negación
  • pe-la-n
  • ver-NEG-1pSg/IND
  • NO VI

32
Algunos problemas de traducción (4)
  • Problemas adicionales
  • Verbos denominales, causativos, aplicativos, etc.

33
Un ejemplo voz pasiva
S AGR tense
  • VBar VBar
  • TenseBar V V
  • fue visto/a
  • V VSuffG
  • ayuda ngey

S AGR tense
S AGR tense
tense
S AGR
34
Desarrollo de la gramática
  • Aproximadamente 100 reglas.
  • 60 sufijos en el léxico de transferencia.
  • Traducción de palabras complejas, frases y
    oraciones declarativas simples.

35
Próximos pasos
  • Desarrollar reglas para oraciones interrogativas.
  • Testear la gramática con diálogos simples.

36
  • Preguntas?

37
Base de datos electrónica (1)
  • Base de datos paralela en formato electrónico
    (200.000 palabras de texto y 120 horas de
    transcripción de conversación).
  • Es una base de datos paralelos (en mapudungún y
    español).
  • La base de datos textual está constituida por
    textos históricos y periodísticos actuales
    (periódico Nuestros Pueblos, CONADI, Chile).

38
Base de datos electrónica (2)
  • Las conversaciones están limitadas al campo
    semántico de la salud primaria y preventiva.
  • Las conversaciones reflejan distintos dialectos
    del mapudungún (lafkenche, nguluche, pewenche).
  • Todos los participantes son hablantes nativos, de
    entre 21 y 75 años de edad.

39
Base de datos electrónica (3)
  • Las grabaciones fueron convertidas en archivos
    wave.
  • Convención ortográfica de 28 letras desarrollada
    por el IEI-UFRO (alfabeto es compatible con los
    símbolos disponibles en los teclados de
    computadora en español).

40
Base de datos electrónica (4)
  • Fragmento de una conversación
  • I. Mantención de la salud y enfermedades
  • 1. Chumkeymi tami külfünküleal. (Cómo hace para
    mantenerse as de bien.)
  • 2. Rüfkünungey am tami amulngen kiñe machimew.
  • (Es verdad que el médico lo mandó donde una
    machi.)

41
Corrector ortográfico (1)
  • Prototipo de corrector ortográfico para textos en
    mapudungún.
  • Funciona en el entorno OpenOffice, un editor de
    texto de distribución gratuita disponible en
    internet (www.openoffice.org)
  • Subraya los posibles errores y propone un menú de
    posibles alternativas. También permite incorporar
    nuevas palabras al diccionario.

42
Corrector ortográfico (2)
  • El corrector funciona sobre la base de dos
    archivos
  • a. Una lista de raíces (5.234) y palabras
    (53.094).
  • b. Una lista de grupos de sufijos (1.303)
  • (ejemplo rke-fi-ñ /REPORT-3pO-1pSg/IND).

43
e
44
Diccionarios (1)
  • Proyecto de diccionario on-line sobre la base de
    las palabras extraídas de la base de datos oral
    (IEI-UFRO).
  • Palabras segmentadas en raíz-grupo de sufijos y
    con ejemplos de uso.

45
Diccionarios (2)
  • Kelluaeteu kellu-a-eteu.ayudar-futuro-a.mi / /.
    el que me va a ayudar Katripache tañi kimün tati,
    peñi, feynga puulu iñche, iñche tañi lipang,
    iñche tañi kelluaeteu ta tüfa pipingeynga (Es
    conocimiento de la gente de afuera pues, hermano,
    entonces cuando llegué yo, mi brazo, éste es el
    que me va a ayudar, decía y decía)
    nmlch-nmpll1_x_0033_nmpll_00. Ec/Rh/Fc. Ec/
    Rh20-12-02.

46
Analizador morfológico (1)
  • Desarrollado por Carlos Fasola
  • El programa segmenta la raíz y el complejo de
    sufijos y obtiene la información gramatical
    relevante de cada morfema.
  • El léxico morfológico contiene aproximadamente
    1670 raíces y 105 sufijos.

47
Analizador morfológico (2)
  • Ejemplo
  • kofketulayay ? kofketu-la-ya-y
  • negación
  • tiempo futuro
  • persona 3
  • número sg
  • modo indicativo
Write a Comment
User Comments (0)
About PowerShow.com