Une approche multi-disciplinaire pour le traitement automatique des langues peu dot - PowerPoint PPT Presentation

About This Presentation

Title:

Une approche multi-disciplinaire pour le traitement automatique des langues peu dot

Description:

Une approche multi-disciplinaire pour le traitement automatique des langues peu dot es Laurent Besacier Universit Joseph Fourier (Grenoble 1) – PowerPoint PPT presentation

Number of Views:228

Avg rating:3.0/5.0

Slides: 49

Provided by: EricCa71

Category:

more less

Transcript and Presenter's Notes

Title: Une approche multi-disciplinaire pour le traitement automatique des langues peu dot

1
Une approche multi-disciplinaire pour le
traitement automatique des langues peu dotées

Laurent Besacier
Université Joseph Fourier (Grenoble 1)
Laboratoire dInformatique de Grenoble
Equipe GETALP

2
Plan

Contexte Enjeux
La diversité linguistique
Objet
Une étude des langues abordée selon langle du
traitement automatique
Multidisciplinarité
Informatique, Signal, Phonétique, Linguistique de
terrain, etc.
Exemples
Sur des langues issues de quatre continents
Revitalisation dun langue peu dotée du sud-ouest
colombien

3
Plan

Contexte Enjeux
La diversité linguistique

We should treat language diversity as we treat
bio-diversity David Crystal, Language Death -
Cambridge CUP, 2000
4
Diversité des langues sur Internet
-Top-10 200 -Chinois 414 -Arabe
940 -Autres 440 (sauf top-10)
ITU 30/6/07
5
Diversité des systèmes décriture
6
Diversité des langues parlées
Langues les plus parlées dans le monde (source
www.ethnologue.com pris en 2007)
7
Diversité mais
-Quelques dizaines de langues nont plus quun
locuteur -500 langues avec lt500 locuteurs -1500
langues avec lt 1000 locuteurs -3000 langues avec
lt 10.000 -5000 langues avec lt 100.000 -96 des
langues parlées par seulement 4 de la
population mondiale
8
Diversité mais
-Quelques dizaines de langues nont plus quun
locuteur -500 langues avec lt500 locuteurs -1500
langues avec lt 1000 locuteurs -3000 langues avec
lt 10.000 -5000 langues avec lt 100.000 -96 des
langues parlées par seulement 4 de la
population mondiale
Enjeux patrimoniaux (documentation /
revitalisation des langues en danger)
9
Diversité mais
Source Human Language Technologies for Europe
, E.U., April 2006

Langues véhiculaires (lingua-franca) qui
prédominent
Nombreux contenus (texte, audio) produits par des
non natifs

10
Quelques technologies centrales pour aborder
cette diversité

Traduction automatique
Traduction, par une machine, dun texte en langue
source vers un texte en langue cible
Reconnaissance automatique de la parole
multilingue
Transcription, par une machine, dun
enregistrement (ou dun flux) contenant de la
parole
Speech-to-text
Doit être disponible pour un grand nombre de
langues
Doit prendre en compte les variétés dialectales,
les locuteurs non natifs, etc
Enjeux
Systèmes interactifs multilingues
Accès multilingue à linformation (et publication
multilingue dinformations)

11
Plan

Contexte Enjeux
La diversité linguistique
Objet
Une étude des langues abordée selon langle du
traitement automatique

12
Langues peu dotées définition

Langues présentant certaines, sinon toutes les
caractéristiques suivantes
manque dun système décriture unique ou dune
orthographe stable
www.omniglot.com seules 800 langues environ sur
6000 possèdent un système décriture
présence limitée sur le Web,
manque dexpertises linguistiques, phonétiques
manque de ressources pour le TALN
données linguistiques, corpus monolingues et
bilingues, dictionnaires électroniques,
thésaurus, analyseurs morphologiques/syntaxiques,
étiqueteurs, etc.

! Différent dune langue en danger mais
caractéristiques communes !
13
Langues peu dotées défis

Pour le traitement automatique
Proposer des techniques qui vont bien au-delà du
simple re-apprentissage des modèles
Systèmes phonologiques particuliers
Langue non écrite
Problèmes de segmentation en mots
Remise en cause des unités de modélisation
standard (mots/phonèmes)
Variantes dialectales
Présence massive de locuteurs non natifs
Alternance codique

14
Langues peu dotées défis

Pour les langues elle-mêmes
Outiller les langues
Aider les linguistes de terrain, les phonéticiens
Participer à la revitalisation de certaines
langues
ou à leur sauvegarde

15
Plan

Contexte Enjeux
La diversité linguistique
Objet
Une étude des langues abordée selon langle du
traitement automatique
Multidisciplinarité
Informatique, Signal, Phonétique, Linguistique de
terrain, etc.

16
Multidisciplinarité

Fossé entre experts de la langue (les locuteurs
eux-mêmes) et experts en technologies (les
développeurs de systèmes)
Nécessité demprunter des ressources et des
connaissances issues de langues proches
Appel aux dialectologues, aux phonéticiens
Accéder aux locuteurs / collecter des données
selon les règles élémentaires éthiques et
techniques
Linguistes de terrain, ethnologues, traducteurs
Revitalisation via lutilisation doutils daide
à lapprentissage
Enseignants des langues, didacticiens

17
Pour arriver où ?

Outiller les langues
Correcteurs orthographiques, transcription,
dictionnaires, etc.
Participer à leur revitalisation
Apprentissage des langues
ou à leur sauvegarde
Numérisation, accès, recherche dinformation
Humanités numériques
Proposer / aborder de nouveaux paradigmes /
questionnements
Modélisation multilingue pour la reconnaissance
automatique de la parole
Traduction de parole à partir dune langue non
écrite
Rôle de la technologie dans lévolution des
langues

18
Rôle de la technologie dans lévolution des
langues

Nicholas Ostler président de la fondation pour
les langues en danger (Foundation for Endangered
Languages)
The Last Lingua Franca English Until the Return
of Babel, by Nicholas Ostler Walker Co
A propos des technologies actuelles de traduction
automatique, lauteur indique
A technological revolution could save declining
tongues from extinction. Those who now neglect
their traditional regional language in favor of
English would no longer need a lingua franca to
access the same commercial and cultural
opportunities
Concept de langue virtuelle

19
Plan

Contexte Enjeux
La diversité linguistique
Objet
Une étude des langues abordée selon langle du
traitement automatique
Multidisciplinarité
Informatique, Signal, Phonétique, Linguistique de
terrain, etc.
Exemples
Langues issues de quatre continents
Revitalisation dun langue peu dotée du sud-ouest
colombien

20
Ressources nécessaires pour la RAP

Corpus textuels et de parole
Dictionnaire de prononciation
Modèles acoustiques
Modèles de langage

21
Modélisation acoustique translingue

FR/VN 63 couverture
Si plusieurs langues source (ex modèle
multilingue de 7 langues)
gt 87 couverture

Bénéfice dune couverture multilingue
22
Modélisation acoustique multilingue

Représentation des unités acoustiques (pour la
reconnaissance de parole) dans un espace
multilingue
Collection de HMMs
Appris sur des bases de parole multilingues
Modèles à large couverture représentant les
unités phonétiques des langues du monde
Mesures de similarité entre phonèmes (ou unités
plus complexes)
Amorçage (bootstrap) des modèles acoustiques pour
les langues peu dotées
Thèse Viet-Bac Le (juin 2006)
Adaptation de modèles à la parole non native
Thèse Tien-Ping Tan (juillet 2008)
Identification de laccent

23
Amorçage de modèles pour la reconnaissance
automatique du vietnamien
PI
VN
FR
FR
EN
EN
CH
Automatic Speech Recognition for
Under-Resourced Languages Application to
Vietnamese Language IEEE Transactions on ASL,
2009 (with Viet-Bac LE)
24
Exemple de résultats (2006)

Portabilité rapide dun système de reconnaissance
de parole vers le vietnamien et le khmer

Performance de RAP pour le vietnamien ( syllabes
correctes) Corpus de dialogue
chi,cro,fr,ge, jap,esp,turc
Même méthodologie appliquée au khmer système de
RAP développé en quelques semaines WA73.6 sur
des phrases lues
25
Exemple de résultats (2008)
Adaptation de modèles à la parole non native
vietnamien (L1) parlant français (L2)
26
Exemple de résultats (2009)

RI multilingue
http//www.thestarchallenge.sg/
Lancé par une compagnie singapourienne
50 participants dont le LIG (collaboration avec
MRIM)
LIG finaliste (top 5)
Contenus multilingues, fortement accentués
(singlish)
Recherche par API (requêtes constituées de
phonèmes de lAlphabet Phonétique International)
Utilisation dun modèle multilingue à large
couverture qui transcrit les documents selon
lalphabet phonétique international
Content-based search in multilingual audiovisual
documents using the International Phonetic
Alphabet., Multimedia Tools and Applications
Journal, 48(1)

27
Exemple de résultats (2010)

Aide à lanalyse dune langue en danger (Punu)
Travail similaire en cours sur le Mo-Piu (Vietnam)

Résultat de lalignement forcé du mot dilem?bi
confronté à lalignement de référence (ligne du
haut).
Using automatic speech recognition for
phonological purposes Study of Vowel Lenght in
Punu (Bantu B40). Laphon 12 (with Hadrien GELAS
al)
28
Exemple de résultats (2012)

Structure syllabique de la langue amharique et de
son système décriture
Unités CV pour la modélisation acoustique

Modèle Phonèmes Syllabes Hybride
WER 17,8 14,8 13,7
Syllable-Based and Hybrid Acoustic Models for
Amharic Speech Recognition. SLTU 2012 (avec M. Y.
Tachbelie, S. T. Abate S. Rossato)
29
Collecter des données langagières sur le Web

Collecte de données textuelles monolingues
parfois unique moyen de collecter des données
pour certaines langues
utile pour collecter des données sur un domaine
particulier
problèmes de remise en forme des données ex.
restauration des diacritiques pour le roumain
Collecte de données textuelles bilingues
Thèse de Thi-Ngoc-Diep Do
A partir de corpus comparables ou de corpus
partiellement parallèles
Itération de la boucle collecte-apprentissage
(non supervisé ou peu supervisé)

Enhancing Automatic Speech Recognition for
Romanian by Using Machine Translated and
Web-based Text Corpora SPECOM'2011 (avec H. Cocu
C. Burileanu)
Mining a comparable text corpus for a Vietnamese
French statistical machine translation
system, EACL/WMT 2009
30
Revitalisation dune langue en danger du
sud-ouest colombien

Projet Ecos-Nord avec DDL et Université du Cauca
Langues du sud-ouest colombien Nasa Yuwe (Paes)
et Nam Trik
Développement de technologies informatiques pour
compléter les outils informatiques didactiques
apprentissage autonome des langues (outils daide
à la prononciation).

Pronunciation Learning System for the 32 vowel
system of Nasa Yuwe Language. SLTU 2012 (avec
R. Naranjo, E. Marsico, F. Pellegrino T. Rojas)
31
Colombie Cauca
32
Contexte

Nasa deuxième plus grand groupe ethnique en
Colombie
Maintien de la tradition orale au fil du temps
La communauté Nasa est maintenant en train de
perdre l'usage de la langue
Efforts visant à revitaliser la langue
Unification de l'alphabet Nasa
Enseignement de la langue!
4 voyelles (A, E, I, U) chaque groupe subdivisé
en oral et nasal
4 modes darticulation des voyelles normal
(basic), coup de glotte (glottal stop), aspirée
(aspirated) et allongée (elongated), soit au
total 32 voyelles !
Forte confusion chez les apprenants

33
Description des voyelles
(Rojas, 2011) publication en espagnol
34
Premiers objectifs

Construire et optimiser un système de
classification de voyelles
Construire un prototype de CAPT (Système
dApprentissage de la Prononciation Assisté par
Ordinateur)
Mettre en place et appliquer des tests réels avec
des locuteurs natifs et des apprenants

35
(Rapide) Revue de lApprentissage de la
Prononciation Assisté par Ordinateur

Modèles fondés sur le calcul dun rapport de
vraisemblance (likelihood ratio test - LRT)
(Fraco et al 99).
Modèles fondés sur le calcul dune probabilité a
posteriori (Fraco et al 99).
Modèles de qualité de la prononciation (goodness
of pronunciation GOP) (Witt Young 00).
Modèles acoustico-phonetiques avec classifieurs
binaires (Troun et al. 09).

36
Corpus

Mots isolés contenant les voyelles cibles
Les apprenant participent à des exercices de
prononciation avec ces mots
Vocabulaire limité (250 mots)
Structure phonétique CV, VC, CVC, CCVCV
4224 enregistrements de locuteurs natifs
132 répetitions pour chacune des 32 voyelles
1088 enregistrements dapprenants (non natifs)
Les voyelles sont segmentées en utilisant la
technique DTW

37
Paramètres et Modèles Utilisés

Vecteurs de paramètres
30 coefficients LPC et énergie residuelle
Sous-échantillonage à 16 kHz (44kHz au départ)
K-plus proches voisins (K-nearest neighbor KNN)
3-NN distance euclidienne
Perceptron multi-couches (Multilayer perceptron
MLP)
16-25-25-8 or 16-25-25-2
Algo. de Levenberg-Marquardt
Modèles de Markov Cachés (HMM)
3 états

38
Expériences

Validation croisée (20-replis)
80 apprentissage / 20 test
Première expérience
Un classifieur pour chacun des 4 groupes de
voyelles (A, E, I, U)
Performances décevantes
Seconde expérience
Un classifieur (binaire) appris pour chaque
voyelle
106 occurences positives, 106 occurences
negatives pour chaque voyelle (Correct75)

39
Expériences

Troisième expérience
Utilisation du bagging
Connu pour être utile sur de petits corpus
Sélectionne aléatoirement n sous-ensembles de
données, et entraine 1 classifieur avec chaque
sous ensemble (n au total). Les n classifieurs
sont combinés par vote majoritaire (Kuncheva,
2004)
Accroissement du nombre doccurences negatives
de 106 à 742 par voyelle

40
Performance pour les groupes de voyelles A et E
(3è expérience)
41
Performance pour les groupes de voyelles I et U
(3è expérience)
Performance gt 80 avec bagging et ajout
dexemples négatifs
42
Prototype première évaluation
43
Distribution des scores non natifs vs natifs
5 locuteurs natifs 845 signaux 3 locuteurs non
natifs 1088 signaux scores normalisés entre 0
et 1
44
Analyse des confusions des apprenants non natifs
E
A
a a a? a ã ã' a? a?
a 14 1 1
a 2 10 1 1 1 1
a? 12 2 2
a 8 1 4 1 2
ã 1 1 2 4 7 1
ã' 1 1 2 1 11
a? 2 2 4 8
a? 7 2 1 4 2
e e' e? e ? ? e? ?
e 7 4 1 1 3
e' 3 9 2 2
e? 1 15
e 2 2 5 6
? 3 1 1 1 10
? 3 6 4 1 2
e? 3 2 11
? 3 2 3 3 5
I
U
i i' i? i i i' i? i
I 10 5 1
i' 10 3 2 1
i? 1 3 6 2 4
i 1 1 2 7 4 1
i 2 12 1 1
i' 1 2 13
i? 6 8 2
i 1 7 2 1 5
u u' u? u u u' u? u
u 14 2
u' 1 14 1
u? 4 8 1 2 1
u 2 1 8 3 2
u 7 2 5 1 1
u' 2 4 10
u? 3 2 1 1 8 1
u 8 2 4 2
45
Analysis des confusions du système

Pour les locuteurs non natifs, est-ce que les
confusions sont dues aux erreurs du système ou
aux erreurs de prononciation des apprenants ?
Pas encore analysé mais, si on insiste sur la
voyelle a (glottale)
38 signaux contenant un a
9 classés comme a
9 classés comme a (7 detections correctes
derreur dapprenant)
9 classés comme ã (2 detections correctes
derreur dapprenant)
6 classés comme ã' (non analysé)
3 classés comme a (non analysé)
2 classés comme ã (non analysé)

46
Discussion

Modèles pour les 32 voyelles du Nasa yuwe
Les taux de précision sont en moyenne supérieurs
à 80 pour les locuteurs natifs
MLP bagging sont les meilleurs classifieurs
binaires
Certaines confusions des apprenants ont pu être
mises en évidence grâce au processus automatique
Voyelles allongées vs normales

47
References

CASACUBERTA, F., VIDAL, E., AIBAR, P. (1991).
Decodificación Acústico Fonética mediante
plantillas subléxicas. Procesamiento del lenguaje
natural, Nº. 11. 265-274.
CRIC. (2000). Acerca de la unificación del
alfabeto Nasa yuwe. Revista C'ayu'ce número 4.
52-53.
CRIC. (2001). Cartilla Nasa yuwe Cartilla.
Consejo Regional Indígena del Cauca.
DUDA, O. HARD, R. STORK, P. (2000). Patter
Clasification. 2 Ed. Jhon Wiley Son.
MARSICO, E., ROJAS, T. (1998). Etude acoustique
préliminarire des 16 voyelles orales du Paez de
Talaga, langue amérindienne. XXII journees
detude sur la parole.
KUNCHEVA, L. (2004). Combining pattern
classifiers models and algorithms. Ed. Jhon
Wiley.
FRANCO, H., NEUMEYER, L., KIM, Y., RONEN, O.,
BRATT, H. (1999). Automatic detection of
phone-level mispronunciation for language
learning. In Proc. European Conference on Speech
Communication and Technology. 851854.
FREUND, Y. SCHAPIRE, R. (1997). A decision
theoretic generalization of On line learning and
an application to Boosting. Journal of computer
and system sciences 55, pp. 119-139.
HAYKIN, S. (1998). Neural Networks A
Comprehensive Foundation (2nd Edition), Prentice
Hall.
HUANG, X., ACERO, A., HON, H. (2001). Spoken
Language Processing. Prentice Hall. 290-303.
RABINER, L. JUANG, B.H. (1993). Fundamental
Speech Recognition, Prentice - Hall International
Inc.
SAKOE, H., CHIBA, S. (1978). Dynamic programming
optimization for spoken word recognition, IEEE
Trans. Acoust. Speech Signal Process. Vol.
ASSP-26, No. 1. 43-49.
TROUN, K., NERI, A., CUCCHIARINI, C., STRIK, H.
(2009). Automatic pronunciation error detection
an acoustic-phonetic approach. University of
Nijmegen. http//citeseerx.ist.psu.edu/.
WITT, S.M., YOUNG, S.J. (2000). Phone-level
pronunciation scoring and assessment for
interactive language learning. Speech Comm.
95108.