Title: Une approche multi-disciplinaire pour le traitement automatique des langues peu dot
1Une approche multi-disciplinaire pour le
traitement automatique des langues peu dotées
- Laurent Besacier
- Université Joseph Fourier (Grenoble 1)
- Laboratoire dInformatique de Grenoble
- Equipe GETALP
2Plan
- Contexte Enjeux
- La diversité linguistique
- Objet
- Une étude des langues abordée selon langle du
traitement automatique - Multidisciplinarité
- Informatique, Signal, Phonétique, Linguistique de
terrain, etc. - Exemples
- Sur des langues issues de quatre continents
- Revitalisation dun langue peu dotée du sud-ouest
colombien
3Plan
- Contexte Enjeux
- La diversité linguistique
We should treat language diversity as we treat
bio-diversity David Crystal, Language Death -
Cambridge CUP, 2000
4Diversité des langues sur Internet
-Top-10 200 -Chinois 414 -Arabe
940 -Autres 440 (sauf top-10)
ITU 30/6/07
5Diversité des systèmes décriture
6Diversité des langues parlées
Langues les plus parlées dans le monde (source
www.ethnologue.com pris en 2007)
7Diversité mais
-Quelques dizaines de langues nont plus quun
locuteur -500 langues avec lt500 locuteurs -1500
langues avec lt 1000 locuteurs -3000 langues avec
lt 10.000 -5000 langues avec lt 100.000 -96 des
langues parlées par seulement 4 de la
population mondiale
8Diversité mais
-Quelques dizaines de langues nont plus quun
locuteur -500 langues avec lt500 locuteurs -1500
langues avec lt 1000 locuteurs -3000 langues avec
lt 10.000 -5000 langues avec lt 100.000 -96 des
langues parlées par seulement 4 de la
population mondiale
Enjeux patrimoniaux (documentation /
revitalisation des langues en danger)
9Diversité mais
Source Human Language Technologies for Europe
, E.U., April 2006
- Langues véhiculaires (lingua-franca) qui
prédominent - Nombreux contenus (texte, audio) produits par des
non natifs
10Quelques technologies centrales pour aborder
cette diversité
- Traduction automatique
- Traduction, par une machine, dun texte en langue
source vers un texte en langue cible - Reconnaissance automatique de la parole
multilingue - Transcription, par une machine, dun
enregistrement (ou dun flux) contenant de la
parole - Speech-to-text
- Doit être disponible pour un grand nombre de
langues - Doit prendre en compte les variétés dialectales,
les locuteurs non natifs, etc - Enjeux
- Systèmes interactifs multilingues
- Accès multilingue à linformation (et publication
multilingue dinformations)
11Plan
- Contexte Enjeux
- La diversité linguistique
- Objet
- Une étude des langues abordée selon langle du
traitement automatique
12Langues peu dotées définition
- Langues présentant certaines, sinon toutes les
caractéristiques suivantes - manque dun système décriture unique ou dune
orthographe stable - www.omniglot.com seules 800 langues environ sur
6000 possèdent un système décriture - présence limitée sur le Web,
- manque dexpertises linguistiques, phonétiques
- manque de ressources pour le TALN
- données linguistiques, corpus monolingues et
bilingues, dictionnaires électroniques,
thésaurus, analyseurs morphologiques/syntaxiques,
étiqueteurs, etc.
! Différent dune langue en danger mais
caractéristiques communes !
13Langues peu dotées défis
- Pour le traitement automatique
- Proposer des techniques qui vont bien au-delà du
simple re-apprentissage des modèles - Systèmes phonologiques particuliers
- Langue non écrite
- Problèmes de segmentation en mots
- Remise en cause des unités de modélisation
standard (mots/phonèmes) - Variantes dialectales
- Présence massive de locuteurs non natifs
- Alternance codique
14Langues peu dotées défis
- Pour les langues elle-mêmes
- Outiller les langues
- Aider les linguistes de terrain, les phonéticiens
- Participer à la revitalisation de certaines
langues - ou à leur sauvegarde
15Plan
- Contexte Enjeux
- La diversité linguistique
- Objet
- Une étude des langues abordée selon langle du
traitement automatique - Multidisciplinarité
- Informatique, Signal, Phonétique, Linguistique de
terrain, etc.
16Multidisciplinarité
- Fossé entre experts de la langue (les locuteurs
eux-mêmes) et experts en technologies (les
développeurs de systèmes) - Nécessité demprunter des ressources et des
connaissances issues de langues proches - Appel aux dialectologues, aux phonéticiens
- Accéder aux locuteurs / collecter des données
selon les règles élémentaires éthiques et
techniques - Linguistes de terrain, ethnologues, traducteurs
- Revitalisation via lutilisation doutils daide
à lapprentissage - Enseignants des langues, didacticiens
17Pour arriver où ?
- Outiller les langues
- Correcteurs orthographiques, transcription,
dictionnaires, etc. - Participer à leur revitalisation
- Apprentissage des langues
- ou à leur sauvegarde
- Numérisation, accès, recherche dinformation
- Humanités numériques
- Proposer / aborder de nouveaux paradigmes /
questionnements - Modélisation multilingue pour la reconnaissance
automatique de la parole - Traduction de parole à partir dune langue non
écrite - Rôle de la technologie dans lévolution des
langues
18Rôle de la technologie dans lévolution des
langues
- Nicholas Ostler président de la fondation pour
les langues en danger (Foundation for Endangered
Languages) - The Last Lingua Franca English Until the Return
of Babel, by Nicholas Ostler Walker Co - A propos des technologies actuelles de traduction
automatique, lauteur indique - A technological revolution could save declining
tongues from extinction. Those who now neglect
their traditional regional language in favor of
English would no longer need a lingua franca to
access the same commercial and cultural
opportunities - Concept de langue virtuelle
19Plan
- Contexte Enjeux
- La diversité linguistique
- Objet
- Une étude des langues abordée selon langle du
traitement automatique - Multidisciplinarité
- Informatique, Signal, Phonétique, Linguistique de
terrain, etc. - Exemples
- Langues issues de quatre continents
- Revitalisation dun langue peu dotée du sud-ouest
colombien
20Ressources nécessaires pour la RAP
- Corpus textuels et de parole
- Dictionnaire de prononciation
- Modèles acoustiques
- Modèles de langage
21Modélisation acoustique translingue
- FR/VN 63 couverture
- Si plusieurs langues source (ex modèle
multilingue de 7 langues) - gt 87 couverture
Bénéfice dune couverture multilingue
22Modélisation acoustique multilingue
- Représentation des unités acoustiques (pour la
reconnaissance de parole) dans un espace
multilingue - Collection de HMMs
- Appris sur des bases de parole multilingues
- Modèles à large couverture représentant les
unités phonétiques des langues du monde - Mesures de similarité entre phonèmes (ou unités
plus complexes) - Amorçage (bootstrap) des modèles acoustiques pour
les langues peu dotées - Thèse Viet-Bac Le (juin 2006)
- Adaptation de modèles à la parole non native
- Thèse Tien-Ping Tan (juillet 2008)
- Identification de laccent
23Amorçage de modèles pour la reconnaissance
automatique du vietnamien
PI
VN
FR
FR
EN
EN
CH
Automatic Speech Recognition for
Under-Resourced Languages Application to
Vietnamese Language IEEE Transactions on ASL,
2009 (with Viet-Bac LE)
24Exemple de résultats (2006)
- Portabilité rapide dun système de reconnaissance
de parole vers le vietnamien et le khmer
Performance de RAP pour le vietnamien ( syllabes
correctes) Corpus de dialogue
chi,cro,fr,ge, jap,esp,turc
Même méthodologie appliquée au khmer système de
RAP développé en quelques semaines WA73.6 sur
des phrases lues
25Exemple de résultats (2008)
Adaptation de modèles à la parole non native
vietnamien (L1) parlant français (L2)
26Exemple de résultats (2009)
- RI multilingue
- http//www.thestarchallenge.sg/
- Lancé par une compagnie singapourienne
- 50 participants dont le LIG (collaboration avec
MRIM) - LIG finaliste (top 5)
- Contenus multilingues, fortement accentués
(singlish) - Recherche par API (requêtes constituées de
phonèmes de lAlphabet Phonétique International) - Utilisation dun modèle multilingue à large
couverture qui transcrit les documents selon
lalphabet phonétique international - Content-based search in multilingual audiovisual
documents using the International Phonetic
Alphabet., Multimedia Tools and Applications
Journal, 48(1)
27Exemple de résultats (2010)
- Aide à lanalyse dune langue en danger (Punu)
- Travail similaire en cours sur le Mo-Piu (Vietnam)
Résultat de lalignement forcé du mot dilem?bi
confronté à lalignement de référence (ligne du
haut).
Using automatic speech recognition for
phonological purposes Study of Vowel Lenght in
Punu (Bantu B40). Laphon 12 (with Hadrien GELAS
al)
28Exemple de résultats (2012)
- Structure syllabique de la langue amharique et de
son système décriture - Unités CV pour la modélisation acoustique
Modèle Phonèmes Syllabes Hybride
WER 17,8 14,8 13,7
Syllable-Based and Hybrid Acoustic Models for
Amharic Speech Recognition. SLTU 2012 (avec M. Y.
Tachbelie, S. T. Abate S. Rossato)
29Collecter des données langagières sur le Web
- Collecte de données textuelles monolingues
- parfois unique moyen de collecter des données
pour certaines langues - utile pour collecter des données sur un domaine
particulier - problèmes de remise en forme des données ex.
restauration des diacritiques pour le roumain - Collecte de données textuelles bilingues
- Thèse de Thi-Ngoc-Diep Do
- A partir de corpus comparables ou de corpus
partiellement parallèles - Itération de la boucle collecte-apprentissage
(non supervisé ou peu supervisé)
Enhancing Automatic Speech Recognition for
Romanian by Using Machine Translated and
Web-based Text Corpora SPECOM'2011 (avec H. Cocu
C. Burileanu)
Mining a comparable text corpus for a Vietnamese
French statistical machine translation
system, EACL/WMT 2009
30Revitalisation dune langue en danger du
sud-ouest colombien
- Projet Ecos-Nord avec DDL et Université du Cauca
- Langues du sud-ouest colombien Nasa Yuwe (Paes)
et Nam Trik - Développement de technologies informatiques pour
compléter les outils informatiques didactiques - apprentissage autonome des langues (outils daide
à la prononciation).
Pronunciation Learning System for the 32 vowel
system of Nasa Yuwe Language. SLTU 2012 (avec
R. Naranjo, E. Marsico, F. Pellegrino T. Rojas)
31Colombie Cauca
32Contexte
- Nasa deuxième plus grand groupe ethnique en
Colombie - Maintien de la tradition orale au fil du temps
- La communauté Nasa est maintenant en train de
perdre l'usage de la langue - Efforts visant à revitaliser la langue
- Unification de l'alphabet Nasa
- Enseignement de la langue!
- 4 voyelles (A, E, I, U) chaque groupe subdivisé
en oral et nasal - 4 modes darticulation des voyelles normal
(basic), coup de glotte (glottal stop), aspirée
(aspirated) et allongée (elongated), soit au
total 32 voyelles ! - Forte confusion chez les apprenants
33Description des voyelles
(Rojas, 2011) publication en espagnol
34Premiers objectifs
- Construire et optimiser un système de
classification de voyelles - Construire un prototype de CAPT (Système
dApprentissage de la Prononciation Assisté par
Ordinateur) - Mettre en place et appliquer des tests réels avec
des locuteurs natifs et des apprenants
35(Rapide) Revue de lApprentissage de la
Prononciation Assisté par Ordinateur
- Modèles fondés sur le calcul dun rapport de
vraisemblance (likelihood ratio test - LRT)
(Fraco et al 99). - Modèles fondés sur le calcul dune probabilité a
posteriori (Fraco et al 99). - Modèles de qualité de la prononciation (goodness
of pronunciation GOP) (Witt Young 00). - Modèles acoustico-phonetiques avec classifieurs
binaires (Troun et al. 09).
36Corpus
- Mots isolés contenant les voyelles cibles
- Les apprenant participent à des exercices de
prononciation avec ces mots - Vocabulaire limité (250 mots)
- Structure phonétique CV, VC, CVC, CCVCV
- 4224 enregistrements de locuteurs natifs
- 132 répetitions pour chacune des 32 voyelles
- 1088 enregistrements dapprenants (non natifs)
- Les voyelles sont segmentées en utilisant la
technique DTW
37Paramètres et Modèles Utilisés
- Vecteurs de paramètres
- 30 coefficients LPC et énergie residuelle
- Sous-échantillonage à 16 kHz (44kHz au départ)
- K-plus proches voisins (K-nearest neighbor KNN)
- 3-NN distance euclidienne
- Perceptron multi-couches (Multilayer perceptron
MLP) - 16-25-25-8 or 16-25-25-2
- Algo. de Levenberg-Marquardt
- Modèles de Markov Cachés (HMM)
- 3 états
38Expériences
- Validation croisée (20-replis)
- 80 apprentissage / 20 test
- Première expérience
- Un classifieur pour chacun des 4 groupes de
voyelles (A, E, I, U) - Performances décevantes
- Seconde expérience
- Un classifieur (binaire) appris pour chaque
voyelle - 106 occurences positives, 106 occurences
negatives pour chaque voyelle (Correct75)
39Expériences
- Troisième expérience
- Utilisation du bagging
- Connu pour être utile sur de petits corpus
- Sélectionne aléatoirement n sous-ensembles de
données, et entraine 1 classifieur avec chaque
sous ensemble (n au total). Les n classifieurs
sont combinés par vote majoritaire (Kuncheva,
2004) - Accroissement du nombre doccurences negatives
de 106 à 742 par voyelle
40Performance pour les groupes de voyelles A et E
(3è expérience)
41Performance pour les groupes de voyelles I et U
(3è expérience)
Performance gt 80 avec bagging et ajout
dexemples négatifs
42Prototype première évaluation
43Distribution des scores non natifs vs natifs
5 locuteurs natifs 845 signaux 3 locuteurs non
natifs 1088 signaux scores normalisés entre 0
et 1
44Analyse des confusions des apprenants non natifs
E
A
a a a? a ã ã' a? a?
a 14 1 1
a 2 10 1 1 1 1
a? 12 2 2
a 8 1 4 1 2
ã 1 1 2 4 7 1
ã' 1 1 2 1 11
a? 2 2 4 8
a? 7 2 1 4 2
e e' e? e ? ? e? ?
e 7 4 1 1 3
e' 3 9 2 2
e? 1 15
e 2 2 5 6
? 3 1 1 1 10
? 3 6 4 1 2
e? 3 2 11
? 3 2 3 3 5
I
U
i i' i? i i i' i? i
I 10 5 1
i' 10 3 2 1
i? 1 3 6 2 4
i 1 1 2 7 4 1
i 2 12 1 1
i' 1 2 13
i? 6 8 2
i 1 7 2 1 5
u u' u? u u u' u? u
u 14 2
u' 1 14 1
u? 4 8 1 2 1
u 2 1 8 3 2
u 7 2 5 1 1
u' 2 4 10
u? 3 2 1 1 8 1
u 8 2 4 2
45Analysis des confusions du système
- Pour les locuteurs non natifs, est-ce que les
confusions sont dues aux erreurs du système ou
aux erreurs de prononciation des apprenants ? - Pas encore analysé mais, si on insiste sur la
voyelle a (glottale) - 38 signaux contenant un a
- 9 classés comme a
- 9 classés comme a (7 detections correctes
derreur dapprenant) - 9 classés comme ã (2 detections correctes
derreur dapprenant) - 6 classés comme ã' (non analysé)
- 3 classés comme a (non analysé)
- 2 classés comme ã (non analysé)
46Discussion
- Modèles pour les 32 voyelles du Nasa yuwe
- Les taux de précision sont en moyenne supérieurs
à 80 pour les locuteurs natifs - MLP bagging sont les meilleurs classifieurs
binaires - Certaines confusions des apprenants ont pu être
mises en évidence grâce au processus automatique - Voyelles allongées vs normales
47References
- CASACUBERTA, F., VIDAL, E., AIBAR, P. (1991).
Decodificación Acústico Fonética mediante
plantillas subléxicas. Procesamiento del lenguaje
natural, Nº. 11. 265-274. - CRIC. (2000). Acerca de la unificación del
alfabeto Nasa yuwe. Revista C'ayu'ce número 4.
52-53. - CRIC. (2001). Cartilla Nasa yuwe Cartilla.
Consejo Regional Indígena del Cauca. - DUDA, O. HARD, R. STORK, P. (2000). Patter
Clasification. 2 Ed. Jhon Wiley Son. - MARSICO, E., ROJAS, T. (1998). Etude acoustique
préliminarire des 16 voyelles orales du Paez de
Talaga, langue amérindienne. XXII journees
detude sur la parole. - KUNCHEVA, L. (2004). Combining pattern
classifiers models and algorithms. Ed. Jhon
Wiley. - FRANCO, H., NEUMEYER, L., KIM, Y., RONEN, O.,
BRATT, H. (1999). Automatic detection of
phone-level mispronunciation for language
learning. In Proc. European Conference on Speech
Communication and Technology. 851854. - FREUND, Y. SCHAPIRE, R. (1997). A decision
theoretic generalization of On line learning and
an application to Boosting. Journal of computer
and system sciences 55, pp. 119-139. - HAYKIN, S. (1998). Neural Networks A
Comprehensive Foundation (2nd Edition), Prentice
Hall. - HUANG, X., ACERO, A., HON, H. (2001). Spoken
Language Processing. Prentice Hall. 290-303. - RABINER, L. JUANG, B.H. (1993). Fundamental
Speech Recognition, Prentice - Hall International
Inc. - SAKOE, H., CHIBA, S. (1978). Dynamic programming
optimization for spoken word recognition, IEEE
Trans. Acoust. Speech Signal Process. Vol.
ASSP-26, No. 1. 43-49. - TROUN, K., NERI, A., CUCCHIARINI, C., STRIK, H.
(2009). Automatic pronunciation error detection
an acoustic-phonetic approach. University of
Nijmegen. http//citeseerx.ist.psu.edu/. - WITT, S.M., YOUNG, S.J. (2000). Phone-level
pronunciation scoring and assessment for
interactive language learning. Speech Comm.
95108.
48- Merci de votre attention
- Pour en savoir plus
- http//pi.imag.fr