Title: Rouen, le 24 mai 2003
1Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Caroline Bouzon, Cyril Auran Daniel Hirst
Laboratoire Parole et Langage, UMR 6057 CNRS
Disponible sur le site http//www.lpl.univ-aix.fr
/EPG/
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
2Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Introduction
Recherches actuelles en linguistique et en
phonétique souvent fondées sur lanalyse de
corpus oraux
Problématique Alignement / Association
dactualité dans les études sur lintonation
(Session Spéciale de SP2002)
Segmentation au niveau phonétique
Intérêt particulier pour les corpus oraux
phonétisés et alignés au niveau des phonèmes
Méthodologie Aix-MARSEC
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
3Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Plan
Aix-MARSEC les origines
La méthodologie Aix-MARSEC Phonétisation
brute Optimisation de la phonétisation Alignemen
t automatique Autres niveaux danalyse Perspectiv
es et Conclusion
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
4Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Aix-MARSEC Les origines
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
5Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Aix-MARSEC les origines
MARSEC
SEC
Spoken English Corpus
MAchine Readable SEC
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
6Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Aix-MARSEC les origines
Spoken English Corpus
55 000 mots, 339 min. et 18 sec. Archives de la
BBC (années 1980) 11 styles de parole Parole
naturelle 53 locuteurs (17 locutrices et 36
locuteurs) Transcription orthographique Annotation
prosodique 14 symboles de type tonetic stress
marks
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
7Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Aix-MARSEC les origines
MAchine Readable Spoken English Corpus
Alignement temporel au niveau du mot et de
lunité intonative (mineure majeure)
Annotation prosodique les 14 symboles utilisés
pour le SEC sont remplacés par 14 symboles ASCII
(G. Knowles B. Williams) ?tonetic stress marks
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
8Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Aix-MARSEC les origines
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
9Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Aix-MARSEC les origines
Pré-traitements et homogénéisation du corpus
Suppression des fichiers son défectueux ou
étiquettes manquantes Conversion des fichiers
étiquettes au format textgrid
(Praat) Vérification et correction des étiquettes
de mot avec Praat (fenêtre minimale de
correction 50ms) Modification détiquettes dans
82 fichiers Marquage des fichiers modifiés par
ajout de mod dans le nom
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
10Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Aix-MARSEC les origines
Pré-traitements prédiction de la durée des
phonèmes Campbell (1992)
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
11Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Méthodologie Aix-MARSEC
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
12Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Méthodologie Aix-MARSEC
- Phonétisation brute
- Optimisation de la phonétisation
- Alignement automatique
- Autres niveaux danalyse
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
13Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Méthodologie Aix-MARSEC
Phonétisation brute
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
14Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Phonétisation brute
Méthode par dictionnaires
Fonctionnement général Recherche automatique
dans le dictionnaire de prononciation (Advanced
Learners Dictionary, Oxford University Press)
71 000 mots en entrée
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
15Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Phonétisation brute
Fonctions PERL traitant
- Chiffres et combinaisons de lettres chiffres
- Suites de majuscules (abréviations)
- Génitifs et les formes contractées
- Pluriel/3ème pers. sing. part. passé/prétérit
réguliers
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
16Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Phonétisation brute
Utilisation de quatre dictionnaires différents
Dictionnaire "général" Advanced Learners
Dictionary (formes phonologiques
sous-jacentes) Dictionnaire "mots inconnus"
(700 mots transcrits manuellement) Dictionnaire
"formes problématiques" (hésitations, coupures)
Dictionnaire "formes réduites"
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
17Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Phonétisation brute
Traitement des formes réduites
But améliorer la phonétisation
Création dun dictionnaire des formes réduites en
anglais à partir de OConnor (1967) et Faure
(1975) Condition de réduction absence de
marque prosodique (TSM) Exemple précédé
dune TSM, /and -gt transcrit /nd/ non précédé
dune TSM, and -gt transcrit /_at_nd/ (dictionnaire
de formes réduites)
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
18Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Phonétisation brute
Problèmes non résolus
- Doublons (mots avec deux entrées dans le
dictionnaire) - Exemples object, wind
- Aucune solution automatique (pas daccent
lexical, 1er cas) - mais possibilité de différenciation avec un
système de reconnaissance
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
19Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Méthodologie Aix-MARSEC
Optimisation de la phonétisation
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
20Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Optimisation de la phonétisation
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
21Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Optimisation de la phonétisation
Utilisation de règles contraintes Paramètres
intonatifs Paramètres temporels Paramètres
phonotactiques
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
22Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Optimisation de la phonétisation
1. Paramètres intonatifs présence / absence de
TSM
2. Paramètres temporels Seuil minimal
5ms Seuils pour certains phonèmes (Klatt,
1979) /t d/ 55ms /_at_/ 55ms /T/
110ms Transformé z z lt 0 ? élision z 0 ? pas
délision
3. Paramètres phonotactiques
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
23Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Optimisation de la phonétisation
Paramètres phonotactiques règles délision de
phonèmes
Littérature Jones (1990), Wells (1990) et
Gimson (réédité par Cruttenden,
1997) Observation dun échantillon des données
du corpus
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
24Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Optimisation de la phonétisation
Règles délision de phonèmes (1)
Si z lt 0, alors
Règle n1 élision du phonème /d/ dans and
Règle n2 élision de /h/ dans les formes he,
hed, hell, hes, his, him (position
non-initiale dUI TSM)
Règle n3 élision de /h/ dans la forme her
(mêmes conditions)
Règle n4 élision de /t/ dans le contexte /t/
/t-d/ (seuil)
Règle n5 élision de /d/ dans le contexte /d/
/t-d/, hors terminaison -ed /Id/
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
25Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Optimisation de la phonétisation
Règles délision de phonèmes (2)
Règle n6 élision de /t/ et /d/ dans le
contexte C1 /t-d/ C2 -/hj/
Règle n7 élision de /p/ dans le contexte /mp/
() C-/r-l-j/
Règle n8 élision de /k/ dans le contexte /Nk/
() ptksSTf
Règle n9 élision de /l/ dans le contexte /O/
/l/ () C
Règle n10 élision du phonème /T/ dans le
contexte C /T/ () /s/ (seuil)
Règle n11 élision dans le contexte /s/ /p -
t - k/ () /s/
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
26Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Optimisation de la phonétisation
Règles délision de phonèmes (3)
Règle n12 élision du schwa dans le contexte
/_at_/ /l - r/ voyelle réduite /I - _at_/
(seuil) mais évitement denchaînement /rl/ et
simplification des séquences /rr/ et /ll/
Règle n13 élision du schwa dans /k_at_n/'Syll en
position initiale (seuil)
Règle n14 élision du schwa dans lauxiliaire
de modalité can (seuil)
Règle n15 élision du schwa dans le contexte
/k-p/ /_at_/ /n/ (seuil)
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
27Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Optimisation de la phonétisation
4083 phonèmes élidés sur les 199.770 du corpus (
2 )
Évaluation des règles délision de
phonèmes (comparaison avec fichiers observés)
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
28Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Méthodologie Aix-MARSEC
Alignement automatique
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
29Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Alignement automatique
On considère généralement (Di Cristo et Hirst,
1997) quil faut 16 h pour transcrire et
aligner 1 minute de parole au niveau
phonématique
Soit 5280 heures pour les 5h30 du corpus (plus de
1 an et demi à raison de 10h par jour 7 jours par
semaine)
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
30Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Alignement automatique
Méthode
Alignement réalisé par Christophe Lévy et Pascal
Nocéra du Laboratoire dInformatique dAvignon
(cf. Nocéra et al., 2000)
Modèles de Markov Cachés (HMMs) entraînés sur le
corpus TIMIT
Alignement par application de lalgorithme
Viterbi contraint par la phonétisation ( force
Viterbi )
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
31Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Alignement automatique
Évaluation (1)
Absence de biais lié aux élisions lors de la
phase dalignement (Tests de Wilcoxon et de
Kolmogorov-Smirnov sous R)
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
32Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Alignement automatique
Évaluation (2)
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
33Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Méthodologie Aix-MARSEC
Autres niveaux danalyse
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
34Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Autres niveaux danalyse
Regroupements et alignements automatiques
Syllabes (Principe dAttaque Maximale Pulgram,
1970) Constituants syllabiques (Attaque, Noyau et
Coda) Pieds Accentuels (Abercrombie, 1967) Unités
rythmiques (Jassem, 1952) Mots Unités intonatives
(mineures majeures)
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
35Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Autres niveaux danalyse
Autres traitements (cf. Présentation D. Hirst, 22
mai 2003)
Application de lalgorithme MOMEL Codage des
points cibles par lalgorithme INTSINT
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
36Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Perspectives conclusion
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
37Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Perspectives et Conclusion
Amélioration de la phonétisation Nouvelles
règles (exemple the) Affinement des
contraintes Suppression fondée sur lalignement
automatique
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
38Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Perspectives et Conclusion
Amélioration de lalignement Utilisation de
modèles phonétiques plus adaptés Application
itérative dun algorithme de programmation
dynamique (DTW) (cf. Di
Cristo Hirst, 1997)
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
39Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Perspectives et Conclusion
Aix-MARSEC une méthodologie
Un système de phonétisation fiable (94,79 de
phonèmes prédits correctement)
Un système portable (scripts multi-plateformes
en langage Perl, dictionnaires modulaires)
Un ensemble doutils de génération de
granularités variables (regroupements
automatiques à divers niveaux)
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
40Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Perspectives et Conclusion
et un corpus - 5h30 de parole continue - 52
locuteurs - 11 styles de parole - 195.687
phonèmes, 88.794 syllabes, 54.083 mots -
alignement aux niveaux du phonème, constituant
syllabique, syllabe, mot, pied, unité rythmique,
cibles MOMEL/INTSINT, unité intonative (mineure /
majeure)
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003
41Illustration
42Phonétisation, alignement et association dans les
grands corpus oraux en anglais
Merci de votre attention ?
INTO 01 Intonation, Notation et Transcription
de lOral
Rouen, le 24 mai 2003