Une approche multi-disciplinaire pour le traitement automatique des langues peu dot - PowerPoint PPT Presentation

About This Presentation
Title:

Une approche multi-disciplinaire pour le traitement automatique des langues peu dot

Description:

Une approche multi-disciplinaire pour le traitement automatique des langues peu dot es Laurent Besacier Universit Joseph Fourier (Grenoble 1) – PowerPoint PPT presentation

Number of Views:228
Avg rating:3.0/5.0
Slides: 49
Provided by: EricCa71
Category:

less

Transcript and Presenter's Notes

Title: Une approche multi-disciplinaire pour le traitement automatique des langues peu dot


1
Une approche multi-disciplinaire pour le
traitement automatique des langues peu dotées
  • Laurent Besacier
  • Université Joseph Fourier (Grenoble 1)
  • Laboratoire dInformatique de Grenoble
  • Equipe GETALP

2
Plan
  • Contexte Enjeux
  • La diversité linguistique
  • Objet
  • Une étude des langues abordée selon langle du
    traitement automatique
  • Multidisciplinarité
  • Informatique, Signal, Phonétique, Linguistique de
    terrain, etc.
  • Exemples
  • Sur des langues issues de quatre continents
  • Revitalisation dun langue peu dotée du sud-ouest
    colombien

3
Plan
  • Contexte Enjeux
  • La diversité linguistique

 We should treat language diversity as we treat
bio-diversity  David Crystal, Language Death -
Cambridge CUP, 2000
4
Diversité des langues sur Internet
-Top-10 200 -Chinois 414 -Arabe
940 -Autres 440 (sauf top-10)
ITU 30/6/07
5
Diversité des systèmes décriture
6
Diversité des langues parlées
Langues les plus parlées dans le monde (source
www.ethnologue.com pris en 2007)
7
Diversité mais
-Quelques dizaines de langues nont plus quun
locuteur -500 langues avec lt500 locuteurs -1500
langues avec lt 1000 locuteurs -3000 langues avec
lt 10.000 -5000 langues avec lt 100.000 -96 des
langues parlées par seulement 4 de la
population mondiale
8
Diversité mais
-Quelques dizaines de langues nont plus quun
locuteur -500 langues avec lt500 locuteurs -1500
langues avec lt 1000 locuteurs -3000 langues avec
lt 10.000 -5000 langues avec lt 100.000 -96 des
langues parlées par seulement 4 de la
population mondiale
Enjeux patrimoniaux (documentation /
revitalisation des langues en danger)
9
Diversité mais
Source Human Language Technologies for Europe
, E.U., April 2006
  • Langues véhiculaires (lingua-franca) qui
    prédominent
  • Nombreux contenus (texte, audio) produits par des
    non natifs

10
Quelques technologies centrales pour aborder
cette diversité
  • Traduction automatique
  • Traduction, par une machine, dun texte en langue
    source vers un texte en langue cible
  • Reconnaissance automatique de la parole
    multilingue
  • Transcription, par une machine, dun
    enregistrement (ou dun flux) contenant de la
    parole
  • Speech-to-text
  • Doit être disponible pour un grand nombre de
    langues
  • Doit prendre en compte les variétés dialectales,
    les locuteurs non natifs, etc
  • Enjeux
  • Systèmes interactifs multilingues
  • Accès multilingue à linformation (et publication
    multilingue dinformations)

11
Plan
  • Contexte Enjeux
  • La diversité linguistique
  • Objet
  • Une étude des langues abordée selon langle du
    traitement automatique

12
Langues peu dotées définition
  • Langues présentant certaines, sinon toutes les
    caractéristiques suivantes
  • manque dun système décriture unique ou dune
    orthographe stable
  • www.omniglot.com seules 800 langues environ sur
    6000 possèdent un système décriture
  • présence limitée sur le Web,
  • manque dexpertises linguistiques, phonétiques
  • manque de ressources pour le TALN
  • données linguistiques, corpus monolingues et
    bilingues, dictionnaires électroniques,
    thésaurus, analyseurs morphologiques/syntaxiques,
    étiqueteurs, etc.

! Différent dune langue en danger mais
caractéristiques communes !
13
Langues peu dotées défis
  • Pour le traitement automatique
  • Proposer des techniques qui vont bien au-delà du
    simple re-apprentissage des modèles
  • Systèmes phonologiques particuliers
  • Langue non écrite
  • Problèmes de segmentation en mots
  • Remise en cause des unités de modélisation
    standard (mots/phonèmes)
  • Variantes dialectales
  • Présence massive de locuteurs non natifs
  • Alternance codique

14
Langues peu dotées défis
  • Pour les langues elle-mêmes
  • Outiller les langues
  • Aider les linguistes de terrain, les phonéticiens
  • Participer à la revitalisation de certaines
    langues
  • ou à leur sauvegarde

15
Plan
  • Contexte Enjeux
  • La diversité linguistique
  • Objet
  • Une étude des langues abordée selon langle du
    traitement automatique
  • Multidisciplinarité
  • Informatique, Signal, Phonétique, Linguistique de
    terrain, etc.

16
Multidisciplinarité
  • Fossé entre experts de la langue (les locuteurs
    eux-mêmes) et experts en technologies (les
    développeurs de systèmes)
  • Nécessité demprunter des ressources et des
    connaissances issues de langues proches
  • Appel aux dialectologues, aux phonéticiens
  • Accéder aux locuteurs / collecter des données
    selon les règles élémentaires éthiques et
    techniques
  • Linguistes de terrain, ethnologues, traducteurs
  • Revitalisation via lutilisation doutils daide
    à lapprentissage
  • Enseignants des langues, didacticiens

17
Pour arriver où ?
  • Outiller les langues
  • Correcteurs orthographiques, transcription,
    dictionnaires, etc.
  • Participer à leur revitalisation
  • Apprentissage des langues
  • ou à leur sauvegarde
  • Numérisation, accès, recherche dinformation
  • Humanités numériques
  • Proposer / aborder de nouveaux paradigmes /
    questionnements
  • Modélisation multilingue pour la reconnaissance
    automatique de la parole
  • Traduction de parole à partir dune langue non
    écrite
  • Rôle de la technologie dans lévolution des
    langues

18
Rôle de la technologie dans lévolution des
langues
  • Nicholas Ostler président de la fondation pour
    les langues en danger (Foundation for Endangered
    Languages)
  • The Last Lingua Franca English Until the Return
    of Babel, by Nicholas Ostler Walker Co
  • A propos des technologies actuelles de traduction
    automatique, lauteur indique
  •  A technological revolution could save declining
    tongues from extinction. Those who now neglect
    their traditional regional language in favor of
    English would no longer need a lingua franca to
    access the same commercial and cultural
    opportunities 
  • Concept de  langue virtuelle 

19
Plan
  • Contexte Enjeux
  • La diversité linguistique
  • Objet
  • Une étude des langues abordée selon langle du
    traitement automatique
  • Multidisciplinarité
  • Informatique, Signal, Phonétique, Linguistique de
    terrain, etc.
  • Exemples
  • Langues issues de quatre continents
  • Revitalisation dun langue peu dotée du sud-ouest
    colombien

20
Ressources nécessaires pour la RAP
  • Corpus textuels et de parole
  • Dictionnaire de prononciation
  • Modèles acoustiques
  • Modèles de langage

21
Modélisation acoustique translingue
  • FR/VN 63 couverture
  • Si plusieurs langues source (ex modèle
    multilingue de 7 langues)
  • gt 87 couverture

Bénéfice dune couverture multilingue
22
Modélisation acoustique multilingue
  • Représentation des unités acoustiques (pour la
    reconnaissance de parole) dans un espace
    multilingue
  • Collection de HMMs
  • Appris sur des bases de parole multilingues
  • Modèles à large couverture représentant les
    unités phonétiques des langues du monde
  • Mesures de similarité entre phonèmes (ou unités
    plus complexes)
  • Amorçage (bootstrap) des modèles acoustiques pour
    les langues peu dotées
  • Thèse Viet-Bac Le (juin 2006)
  • Adaptation de modèles à la parole non native
  • Thèse Tien-Ping Tan (juillet 2008)
  • Identification de laccent

23
Amorçage de modèles pour la reconnaissance
automatique du vietnamien
PI
VN
FR
FR
EN
EN
CH
 Automatic Speech Recognition for
Under-Resourced Languages Application to
Vietnamese Language  IEEE Transactions on ASL,
2009 (with Viet-Bac LE)
24
Exemple de résultats (2006)
  • Portabilité rapide dun système de reconnaissance
    de parole vers le vietnamien et le khmer

Performance de RAP pour le vietnamien ( syllabes
correctes) Corpus de dialogue
chi,cro,fr,ge, jap,esp,turc
Même méthodologie appliquée au khmer système de
RAP développé en quelques semaines WA73.6 sur
des phrases lues
25
Exemple de résultats (2008)
Adaptation de modèles à la parole non native
vietnamien (L1) parlant français (L2)
26
Exemple de résultats (2009)
  • RI multilingue
  • http//www.thestarchallenge.sg/
  • Lancé par une compagnie singapourienne
  • 50 participants dont le LIG (collaboration avec
    MRIM)
  • LIG finaliste (top 5)
  • Contenus multilingues, fortement accentués
    (singlish)
  • Recherche par API (requêtes constituées de
    phonèmes de lAlphabet Phonétique International)
  • Utilisation dun modèle multilingue à large
    couverture qui transcrit les documents selon
    lalphabet phonétique international
  • Content-based search in multilingual audiovisual
    documents using the International Phonetic
    Alphabet., Multimedia Tools and Applications
    Journal, 48(1)

27
Exemple de résultats (2010)
  • Aide à lanalyse dune langue en danger (Punu)
  • Travail similaire en cours sur le Mo-Piu (Vietnam)

Résultat de lalignement forcé du mot dilem?bi
confronté à lalignement de référence (ligne du
haut).
Using automatic speech recognition for
phonological purposes Study of Vowel Lenght in
Punu (Bantu B40). Laphon 12 (with Hadrien GELAS
al)
28
Exemple de résultats (2012)
  • Structure syllabique de la langue amharique et de
    son système décriture
  • Unités CV pour la modélisation acoustique

Modèle Phonèmes Syllabes Hybride
WER 17,8 14,8 13,7
Syllable-Based and Hybrid Acoustic Models for
Amharic Speech Recognition. SLTU 2012 (avec M. Y.
Tachbelie, S. T. Abate S. Rossato)
29
Collecter des données langagières sur le Web
  • Collecte de données textuelles monolingues
  • parfois unique moyen de collecter des données
    pour certaines langues
  • utile pour collecter des données sur un domaine
    particulier
  • problèmes de remise en forme des données ex.
    restauration des diacritiques pour le roumain
  • Collecte de données textuelles bilingues
  • Thèse de Thi-Ngoc-Diep Do
  • A partir de corpus comparables ou de corpus
    partiellement parallèles
  • Itération de la boucle collecte-apprentissage
    (non supervisé ou peu supervisé)

Enhancing Automatic Speech Recognition for
Romanian by Using Machine Translated and
Web-based Text Corpora SPECOM'2011 (avec H. Cocu
C. Burileanu)
Mining a comparable text corpus for a Vietnamese
French statistical machine translation
system, EACL/WMT 2009
30
Revitalisation dune langue en danger du
sud-ouest colombien
  • Projet Ecos-Nord avec DDL et Université du Cauca
  • Langues du sud-ouest colombien Nasa Yuwe (Paes)
    et Nam Trik
  • Développement de technologies informatiques pour
    compléter les outils informatiques didactiques
  • apprentissage autonome des langues (outils daide
    à la prononciation).

Pronunciation Learning System for the 32 vowel
system of Nasa Yuwe Language. SLTU 2012 (avec
R. Naranjo, E. Marsico, F. Pellegrino T. Rojas)
31
Colombie Cauca
32
Contexte
  • Nasa deuxième plus grand groupe ethnique en
    Colombie
  • Maintien de la tradition orale au fil du temps
  • La communauté Nasa est maintenant en train de
    perdre l'usage de la langue
  • Efforts visant à revitaliser la langue
  • Unification de l'alphabet Nasa
  • Enseignement de la langue!
  • 4 voyelles (A, E, I, U) chaque groupe subdivisé
    en oral et nasal
  • 4 modes darticulation des voyelles normal
    (basic), coup de glotte (glottal stop), aspirée
    (aspirated) et allongée (elongated), soit au
    total 32 voyelles !
  • Forte confusion chez les apprenants

33
Description des voyelles
(Rojas, 2011) publication en espagnol
34
Premiers objectifs
  • Construire et optimiser un système de
    classification de voyelles
  • Construire un prototype de CAPT (Système
    dApprentissage de la Prononciation Assisté par
    Ordinateur)
  • Mettre en place et appliquer des tests réels avec
    des locuteurs natifs et des apprenants

35
(Rapide) Revue de lApprentissage de la
Prononciation Assisté par Ordinateur
  • Modèles fondés sur le calcul dun rapport de
    vraisemblance (likelihood ratio test - LRT)
    (Fraco et al 99).
  • Modèles fondés sur le calcul dune probabilité a
    posteriori (Fraco et al 99).
  • Modèles de qualité de la prononciation (goodness
    of pronunciation GOP) (Witt Young 00).
  • Modèles acoustico-phonetiques avec classifieurs
    binaires (Troun et al. 09).

36
Corpus
  • Mots isolés contenant les voyelles cibles
  • Les apprenant participent à des exercices de
    prononciation avec ces mots
  • Vocabulaire limité (250 mots)
  • Structure phonétique CV, VC, CVC, CCVCV
  • 4224 enregistrements de locuteurs natifs
  • 132 répetitions pour chacune des 32 voyelles
  • 1088 enregistrements dapprenants (non natifs)
  • Les voyelles sont segmentées en utilisant la
    technique DTW

37
Paramètres et Modèles Utilisés
  • Vecteurs de paramètres
  • 30 coefficients LPC et énergie residuelle
  • Sous-échantillonage à 16 kHz (44kHz au départ)
  • K-plus proches voisins (K-nearest neighbor KNN)
  • 3-NN distance euclidienne
  • Perceptron multi-couches (Multilayer perceptron
    MLP)
  • 16-25-25-8 or 16-25-25-2
  • Algo. de Levenberg-Marquardt
  • Modèles de Markov Cachés (HMM)
  • 3 états

38
Expériences
  • Validation croisée (20-replis)
  • 80 apprentissage / 20 test
  • Première expérience
  • Un classifieur pour chacun des 4 groupes de
    voyelles (A, E, I, U)
  • Performances décevantes
  • Seconde expérience
  • Un classifieur (binaire) appris pour chaque
    voyelle
  • 106 occurences positives, 106 occurences
    negatives pour chaque voyelle (Correct75)

39
Expériences
  • Troisième expérience
  • Utilisation du bagging
  • Connu pour être utile sur de petits corpus
  • Sélectionne aléatoirement n sous-ensembles de
    données, et entraine 1 classifieur avec chaque
    sous ensemble (n au total). Les n classifieurs
    sont combinés par vote majoritaire (Kuncheva,
    2004)
  • Accroissement du nombre doccurences negatives
    de 106 à 742 par voyelle

40
Performance pour les groupes de voyelles A et E
(3è expérience)
41
Performance pour les groupes de voyelles I et U
(3è expérience)
Performance gt 80 avec bagging et ajout
dexemples négatifs
42
Prototype première évaluation
43
Distribution des scores non natifs vs natifs
5 locuteurs natifs 845 signaux 3 locuteurs non
natifs 1088 signaux scores normalisés entre 0
et 1
44
Analyse des confusions des apprenants non natifs
E
A
a a a? a ã ã' a? a?
a 14 1 1
a 2 10 1 1 1 1
a? 12 2 2
a 8 1 4 1 2
ã 1 1 2 4 7 1
ã' 1 1 2 1 11
a? 2 2 4 8
a? 7 2 1 4 2
e e' e? e ? ? e? ?
e 7 4 1 1 3
e' 3 9 2 2
e? 1 15
e 2 2 5 6
? 3 1 1 1 10
? 3 6 4 1 2
e? 3 2 11
? 3 2 3 3 5
I
U
i i' i? i i i' i? i
I 10 5 1
i' 10 3 2 1
i? 1 3 6 2 4
i 1 1 2 7 4 1
i 2 12 1 1
i' 1 2 13
i? 6 8 2
i 1 7 2 1 5
u u' u? u u u' u? u
u 14 2
u' 1 14 1
u? 4 8 1 2 1
u 2 1 8 3 2
u 7 2 5 1 1
u' 2 4 10
u? 3 2 1 1 8 1
u 8 2 4 2
45
Analysis des confusions du système
  • Pour les locuteurs non natifs, est-ce que les
    confusions sont dues aux erreurs du système ou
    aux erreurs de prononciation des apprenants ?
  • Pas encore analysé mais, si on insiste sur la
    voyelle a (glottale)
  • 38 signaux contenant un a
  • 9 classés comme a
  • 9 classés comme a (7 detections correctes
    derreur dapprenant)
  • 9 classés comme ã (2 detections correctes
    derreur dapprenant)
  • 6 classés comme ã' (non analysé)
  • 3 classés comme a (non analysé)
  • 2 classés comme ã (non analysé)

46
Discussion
  • Modèles pour les 32 voyelles du Nasa yuwe
  • Les taux de précision sont en moyenne supérieurs
    à 80 pour les locuteurs natifs
  • MLP bagging sont les meilleurs classifieurs
    binaires
  • Certaines confusions des apprenants ont pu être
    mises en évidence grâce au processus automatique
  • Voyelles allongées vs normales

47
References
  • CASACUBERTA, F., VIDAL, E., AIBAR, P. (1991).
    Decodificación Acústico Fonética mediante
    plantillas subléxicas. Procesamiento del lenguaje
    natural, Nº. 11. 265-274.
  • CRIC. (2000). Acerca de la unificación del
    alfabeto Nasa yuwe. Revista C'ayu'ce número 4.
    52-53.
  • CRIC. (2001). Cartilla Nasa yuwe Cartilla.
    Consejo Regional Indígena del Cauca.
  • DUDA, O. HARD, R. STORK, P. (2000). Patter
    Clasification. 2 Ed. Jhon Wiley Son.
  • MARSICO, E., ROJAS, T. (1998). Etude acoustique
    préliminarire des 16 voyelles orales du Paez de
    Talaga, langue amérindienne. XXII journees
    detude sur la parole.
  • KUNCHEVA, L. (2004). Combining pattern
    classifiers models and algorithms. Ed. Jhon
    Wiley.
  • FRANCO, H., NEUMEYER, L., KIM, Y., RONEN, O.,
    BRATT, H. (1999). Automatic detection of
    phone-level mispronunciation for language
    learning. In Proc. European Conference on Speech
    Communication and Technology. 851854.
  • FREUND, Y. SCHAPIRE, R. (1997). A decision
    theoretic generalization of On line learning and
    an application to Boosting. Journal of computer
    and system sciences 55, pp. 119-139.
  • HAYKIN, S. (1998). Neural Networks A
    Comprehensive Foundation (2nd Edition), Prentice
    Hall.
  • HUANG, X., ACERO, A., HON, H. (2001). Spoken
    Language Processing. Prentice Hall. 290-303.
  • RABINER, L. JUANG, B.H. (1993). Fundamental
    Speech Recognition, Prentice - Hall International
    Inc.
  • SAKOE, H., CHIBA, S. (1978). Dynamic programming
    optimization for spoken word recognition, IEEE
    Trans. Acoust. Speech Signal Process. Vol.
    ASSP-26, No. 1. 43-49.
  • TROUN, K., NERI, A., CUCCHIARINI, C., STRIK, H.
    (2009). Automatic pronunciation error detection
    an acoustic-phonetic approach. University of
    Nijmegen. http//citeseerx.ist.psu.edu/.
  • WITT, S.M., YOUNG, S.J. (2000). Phone-level
    pronunciation scoring and assessment for
    interactive language learning. Speech Comm.
    95108.

48
  • Merci de votre attention
  • Pour en savoir plus
  • http//pi.imag.fr
Write a Comment
User Comments (0)
About PowerShow.com