Title: Building Machine Translation Systems for Indigenous Languages
1Building Machine Translation Systems for
Indigenous Languages
- Ariadna Font Llitjós (Carnegie Mellon University)
- aria_at_cs.cmu.edu
- Roberto Aranovich (University of Pittsburgh)
- roa6_at_pitt.edu
- Lori Levin (Carnegie Mellon University)
- lsl_at_cs.cmu.edu
2Cooperación
- Lingüistas computacionales
- (Language Technologies Institute, Carnegie
Mellon University) - Comunidades aborígenes de América Latina
(comunidad mapuche de Chile y comunidad quechua
de Perú).
3El Projecto Avenue
- Desarrollar tecnologías lingüísticas para lenguas
con escasos recursos en forma rápida y accesible
económicamente.
4Tecnologías lingüísticas
- Bases de datos en formatos electrónicos
estandarizados. - Diccionarios electrónicos.
- Correctores ortográficos.
- Analizadores morfológicos automáticos.
- Sistemas de traducción automática.
5Cooperación institucional (mapudungún)
- Las instituciones que han cooperado en la
producción de tecnologías lingüísticas para el
mapudungún son - El Projecto Avenue.
- El Ministerio de Educación de Chile.
- El Instituto de Estudios Indígenas, Universidad
de la Frontera (UFRO).
6El mapudungún
- Lengua aglutinante y polisintética hablada en el
centro-sur de Chile y Argentina. -
- 900.000 mapuches.
- Al menos 300.000 hablantes.
7Sistema de traducción mapudungún-español basado
en reglas
- Léxico mapuche
- (raíces y morfemas)
Analizador morfológico mapuche
Input oración/frase/palabra mapuche
Grámatica de transferencia/ Léxico de
transferencia
Input segmentado morfológicamente/ rasgos
gramaticales especificados
Sistema de transferencia
Generador morfológico español
Estructura gramatical equivalente en
español (palabras no flexionadas rasgos
gramaticales)
Output oración/frase/palabra española
Léxico español (palabras flexionadas)
(Universidad Politécnica de Barcelona)
8Un ejemplo
- 83
- sl pe-rke-fi-ñ Maria
- ver-REPORT-3pO-1pSgS/IND
- tl DICEN QUE LA VI A MARÍA
- tree lt((SBAR,1 (LITERAL "DICEN") (LITERAL "QUE")
(S,3 (VP,3 (VBAR,6 (CLITIC,40 "LA") (TENSEBAR,1
(V,41 "VI") ) ) (LITERAL "A") (NP,4 (NBAR,2
(N,25 "MARÍA") ) ) ) ) ) )gt
9Segmentación morfológica(programa desarrollado
por Carlos Fasola)
pe-rke-fi-ñ ver-REPORT-3O-1sS/IND
- ((REPORTATIVE )
- (PERSON 1)
- (NUMBER SG)
- (MOOD IND)
- (OBJECT
- ((PERSON 3))))
10Gramática de transferencia (1)
- Formalismo desarrollado para manipular rasgos
gramaticales (transferir, insertar, transformar). - Itemes léxicos ? constituyentes sintácticos.
- Constituyentes sintácticos ? constituyentes
sintácticos. - Lengua fuente ? lengua meta.
11Ejemplo de reglapl N con pluralizador pu (pu
rukacasas)
- NBar,1 identificador
- NBarNBar PART N -gt N especificación de
los constituyentes - (
- (X2Y1) alineación
- ((X1 number) c pl) restricción
- ((X0 number) (X1 number))
transferencia - ((Y0 number) (X0 number)) de rasgos
- ((Y1 number) (Y0 number))
- ((Y0 gender) (Y1 gender)))
- )
12Representación arbórea
-
- NBar(X0) NBar(Y0)
- PART(X1) N(X2) N(Y1)
- pu ruka casas
num
num
gen
num
13Reglas que se aplican en perkefiñ
- Problemas a resolver
- 1. Concatenación de los sufijos
- 2. Determinar el tiempo en mapudungún y
transferirlo al español - 3. Insertar el clítico en la lengua meta
- 4. Insertar la preposición a en la lengua meta
- 5. Insertar el verbo modal y el subordinante que
en la lengua meta
14Estructuras comparadas
- O O
- FV FV
- V FN V O
- pe-rke-fi-ñ Maria S VP
- CL-V FP
- P NP dicen que la vi a
María
15Concatenación de sufijos (1)
- VSuffG,1
- VSuffGVSuffG VSuff -gt
- (
- (X0 X1)
- )
- VSuffG
-
- VSuff
- -rke ( reportativo)
rasgos
16Concatenación de sufijos (2)
- VSuffG,2
- VSuffGVSuffG VSuffG VSuff -gt ""
- (
- (X0 X1)
- (X0 X2)
- ) VSuffG
- VSuffG VSuff
-
- -rke -fi
- (reportativo) (3pO)
rasgos
rasgos
17Concatenación de sufijos (3)
- VSuffG
-
- VSuffG VSuff
- rke-fi- -ñ
- (reportativo, 3pO) (1pSgS/ind)
18El tiempo en mapudungún (1)
- Tiempo no marcado aspecto léxico no marcado
aspecto externo no marcado - ? pasado (kellu-nayudé(I)helped)
- Tiempo no marcado aspecto léxico estativo
- ? presente (niye-nposeo(I)own)
-
19El tiempo en mapudungún (2)
- Tiempo no marcado aspecto léxico no marcado
- aspecto externo habitual
- ? presente (kellu-ke-nayudo(I)help)
- Tiempo marcado (pe-a-nveré(I)will see)
20Tiempo pasado
- TenseBar,1
- TenseBarTenseBar V VSuffG -gt V
- (
- (X1Y1)
- ((X2 tense) UNDEFINED)
- ((X1 lexicalaspect) UNDEFINED)
- ((X2 aspect) (NOT habitual))
- ((X0 tense) past)
- (X0 X1)
- (X0 X2)
- (Y0 Y1)
- )
21Inserción del tiempo
tense
22Inserción del clítico (1)
- VBar,6
- VBarVBar TenseBar -gt CLITIC V
- (
- (X1Y2)
- ((X1 object person) c 3)
- ((X0 person) (X1 person))
- ((X0 number) (X1 number))
- ((X0 object person) (X1 object person))
- ((X0 object number) (X1 object number))
- ((Y0 objmarker) Y1)
- ((Y0 person) (X0 person))
- ((Y0 number) (X0 number))
- ((Y0 object person) (X0 object person))
- ((Y0 object number) (X0 object number))
- ((Y2 person) (Y0 person))
- ((Y2 number) (Y0 number))
- ((Y1 person) (Y0 object person))
- ((Y1 number) (Y0 object number))
- ((Y1 type) c personal)
23Inserción del clítico (2)
S AGR O AGR
- VBar VBar
- TenseBar CL V
- la vi
- V VSuffG
- pe rke-fi-ñ
S AGR O AGR
S AGR
O AGR
S AGR O AGR
24Inserción de la preposición (1)
- transitive VP (human object)
- pefiñ Mariala vi a María
- VP,3 transitive VP (human object)
- VPVP VBar NP -gt VBar "a" NP
- (
- (X1Y1)
- (X2Y3)
- ((X2 type) (NOT personal))
- ((X2 human) c )
- (X0 X1)
- ((X0 object) X2)
- (Y0 X0)
- ((Y0 object) (X0 object))
- (Y1 Y0)
- (Y3 (Y0 object))
- ((Y1 objmarker person) (Y3 person))
- ((Y1 objmarker number) (Y3 number))
- ((Y1 objmarker gender) (Y3 gender))
25Inserción de la preposición (2)
- VP VP
- VBar NP VBar a NP
- perkefiñ Maria la vi a María
agr
26Inserción del verbo modal y el subordinante (1)
- Sbar,1
- SbarSbar S -gt "Dicen" "que" S
- (
- (X1Y3)
- ((X1 reportative) c )
- (X0 X1)
- (Y0 Y3)
- )
27Inserción del verbo modal y el subordinante (2)
- SBar SBar
- S S
- VP VP
- VBar NP VBar a NP
- perkefiñ Maria dicen que la
vi a María
28Generador morfológico español(Universidad
Politécnica de Cataluña)
- Léxico de formas flexionadas del español con
todos sus rasgos especificados - POS, type, gender, number.
- Ejemplo
- altoAQ0FP0 altas
- altoAQ0FS0 alta
- altoAQ0MP0 altos
- altoAQ0MS0 alto
29Algunos problemas de traducción (1)
- Denominador común construcciones sintéticas
- vs. construcciones analíticas
- Concordancia inversa
- pe-e-n
- ver-INV(2pSgO)-1pSg/IND
- ME VISTE
30Algunos problemas de traducción (2)
- Verbos deadjetivales
- fey küme-nge-y
- 3sPRO bueno-VERB-3pSg/IND
- ELLA ES BUENA
- ÉL ES BUENO
- Voz pasiva
- Kuan pe-nge-y
- Juan ver-PAS-3pSg/IND
- JUAN FUE VISTO
31Algunos problemas de traducción (3)
- Aspecto progresivo
- petu pe-yu
- DUR ver-1pDual/IND
- ESTAMOS VIENDO
- Negación
- pe-la-n
- ver-NEG-1pSg/IND
- NO VI
32Algunos problemas de traducción (4)
- Problemas adicionales
- Verbos denominales, causativos, aplicativos, etc.
33Un ejemplo voz pasiva
S AGR tense
- VBar VBar
- TenseBar V V
- fue visto/a
- V VSuffG
- ayuda ngey
S AGR tense
S AGR tense
tense
S AGR
34Desarrollo de la gramática
- Aproximadamente 100 reglas.
- 60 sufijos en el léxico de transferencia.
- Traducción de palabras complejas, frases y
oraciones declarativas simples.
35Próximos pasos
- Desarrollar reglas para oraciones interrogativas.
- Testear la gramática con diálogos simples.
36 37Base de datos electrónica (1)
- Base de datos paralela en formato electrónico
(200.000 palabras de texto y 120 horas de
transcripción de conversación). - Es una base de datos paralelos (en mapudungún y
español). - La base de datos textual está constituida por
textos históricos y periodísticos actuales
(periódico Nuestros Pueblos, CONADI, Chile).
38Base de datos electrónica (2)
- Las conversaciones están limitadas al campo
semántico de la salud primaria y preventiva. - Las conversaciones reflejan distintos dialectos
del mapudungún (lafkenche, nguluche, pewenche). - Todos los participantes son hablantes nativos, de
entre 21 y 75 años de edad.
39Base de datos electrónica (3)
- Las grabaciones fueron convertidas en archivos
wave. - Convención ortográfica de 28 letras desarrollada
por el IEI-UFRO (alfabeto es compatible con los
símbolos disponibles en los teclados de
computadora en español).
40Base de datos electrónica (4)
- Fragmento de una conversación
- I. Mantención de la salud y enfermedades
- 1. Chumkeymi tami külfünküleal. (Cómo hace para
mantenerse as de bien.) - 2. Rüfkünungey am tami amulngen kiñe machimew.
- (Es verdad que el médico lo mandó donde una
machi.)
41Corrector ortográfico (1)
- Prototipo de corrector ortográfico para textos en
mapudungún. - Funciona en el entorno OpenOffice, un editor de
texto de distribución gratuita disponible en
internet (www.openoffice.org) - Subraya los posibles errores y propone un menú de
posibles alternativas. También permite incorporar
nuevas palabras al diccionario.
42Corrector ortográfico (2)
- El corrector funciona sobre la base de dos
archivos - a. Una lista de raíces (5.234) y palabras
(53.094). - b. Una lista de grupos de sufijos (1.303)
- (ejemplo rke-fi-ñ /REPORT-3pO-1pSg/IND).
-
43e
44Diccionarios (1)
- Proyecto de diccionario on-line sobre la base de
las palabras extraídas de la base de datos oral
(IEI-UFRO). - Palabras segmentadas en raíz-grupo de sufijos y
con ejemplos de uso.
45Diccionarios (2)
- Kelluaeteu kellu-a-eteu.ayudar-futuro-a.mi / /.
el que me va a ayudar Katripache tañi kimün tati,
peñi, feynga puulu iñche, iñche tañi lipang,
iñche tañi kelluaeteu ta tüfa pipingeynga (Es
conocimiento de la gente de afuera pues, hermano,
entonces cuando llegué yo, mi brazo, éste es el
que me va a ayudar, decía y decía)
nmlch-nmpll1_x_0033_nmpll_00. Ec/Rh/Fc. Ec/
Rh20-12-02.
46Analizador morfológico (1)
- Desarrollado por Carlos Fasola
- El programa segmenta la raíz y el complejo de
sufijos y obtiene la información gramatical
relevante de cada morfema. - El léxico morfológico contiene aproximadamente
1670 raíces y 105 sufijos. -
47Analizador morfológico (2)
- Ejemplo
- kofketulayay ? kofketu-la-ya-y
- negación
- tiempo futuro
- persona 3
- número sg
- modo indicativo