Title: Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains?
1Le traitement automatiquede la parole Comment
reproduire les processus physiologiques et
cognitifs humains?
- Ivan Magrin-Chagnolleau, CNRS
- Laboratoire Dynamique Du Langage, Lyon
- http//www.ddl.ish-lyon.cnrs.fr/
- ivan_at_ieee.org
2Plan
- Introduction aux processus de la communication
parlée - Analyse de la parole
- Synthèse de la parole
- Reconnaissance de la parole
- Reconnaissance du locuteur
31. Introduction aux processus de la communication
parlée
4Quelques segments dun signal
5Quelques propriétés du signal de parole
- La parole est quasi-stationnaire
- La parole est 70 du temps(pseudo-)périodique(br
uit ou silence le reste du temps) - La parole est un signal large bande(il remplit
toute la largeur de bande) - La parole est un signal à bande limitée(0-8000
Hz essentiellement)
6Anatomie de lappareil vocal (1)
7Anatomie de lappareil vocal (2)
8Anatomie de lappareil vocal (3)
9Fonctionnement acoustique de lappareil vocal
- Système acoustique excitateur résonateur
- Trois modes de fonctionnement
- Excitation glottique du conduit vocal
- Excitation du conduit vocal en un point de
constriction par un bruit découlement - Excitation du conduit vocal par une impulsion
acoustique
10Transcription phonétique du français
11Transcription phonétique du français
12Description acoustique de la parole
13Voyelles orales françaises
14Triangle vocalique
15Représentation acoustique (ex. 1)
16Représentation acoustique (ex. 2)
17Grille polaire de Maeda
18Coupes saggitales des voyelles
19Fonctions daires des voyelles
20Anatomie de loreille
21Les limites de loreille
- Loreille est à bande limitée
- Loreille est fausse sur des sons purs
- Loreille nest pas également sensible
- Loreille a une résolution en temps limitée
- Loreille a une résolution en fréquence limitée
222. Analyse de la parole
23Objectifs de lanalyse de parole
- Extraire des paramètres du signal de parole
- afin de
- Retirer linformation non pertinente
- Réduire la redondance
- Obtenir une représentation plus compacte
- Atteindre un niveau dabstraction plus élevé
- Définir des mesures de ressemblance simples
24Principes
- Prétraitement
- Découpage en trames
- Taille des trames
- Décalage entre trames
- Fenêtrage
- Extraction de paramètres acoustiques
25Principe dune analyse acoustique
26Paramètres acoustiques non spectraux
- Energie
- Fréquence fondamentale
- Taux de passage par zéro du signal
- Taux de passage par zéro de la dérivée du signal
27Lenveloppe spectrale
- Les approches conventionnelles
- visent à extraire des caractéristiques
- de lenveloppe spectrale.
- Analyse par banc de filtres
- Analyse par prédiction linéaire
- Coefficients cepstraux
28Analyse par banc de filtres (1)
29Analyse par banc de filtres (2)
30Analyse par banc de filtres (3)
31Analyse par prédiction linéaire (1)
- Modélisation de la parole sous forme
- dun filtre de prédiction linéaire
32Analyse par prédiction linéaire (2)
33Coefficients cepstraux
- On applique une transformée de Fourier inverse
sur le module du spectre logarithmique. - Les premiers coefficients caractérisent
lenveloppe spectrale.
34Linformation dynamique
- On représente linformation dynamique par la
dérivée première (vitesse) et la dérivée seconde
(accélération) des paramètres cepstraux?
paramètres deltas et deltas-deltas
353. Synthèse de la parole
36La synthèse, pour quoi faire ?
- Services de télécommunications
- Rendre toute information écrite disponible via le
téléphone (horaires de cinéma, horaires de train,
informations routières, état dun compte en
banque, dernière facture téléphonique, etc.) - Applications en bureautique
- Terminaux parlants, lecture des emails par la
voix, etc. - Applications dans les transports
- Information dans les automobiles, aide à
lexploitation des trains, lecture de cadrans
dans les avions, etc. - Aide aux personnes handicapées
- Un handicapé peut sexprimer par le biais dun
synthétiseur (cours du célèbre astrophysicien
Stephen Hawking) - Apprentissage des langues étrangères
- Dictionnaires électronique avec prononciation
intégrée, logiciels dapprentissage des langues
étrangères, traduction automatique, etc. - Livres et jouets parlants
- À lusage des enfants en bas âge
- Communication naturelle avec la machine
37Structure dun système de synthèse
SYNTHESE DE LA PAROLE A PARTIR DU TEXTE
TRAITEMENT DU LANGAGE NATUREL Formalismes
linguistiques Moteurs dinférence Inférences
logiques
TRAITEMENT DU SIGNAL NUMERIQUE Modèles
mathématiques Algorithmes Calculs numériques
Parole
Texte
Phonèmes
Prosodie
38Traitement du langage naturel
Texte
Pré-processeur
Analyseur morphologique
Analyseur contextuel
Structure de données
Analyseur syntaxique- prosodique
Phonétiseur
Générateur de prosodie
Phonèmes
Prosodie
39Analyse morpho-syntaxique
40Phonétisation (1)
41Phonétisation (2)
42Synthétiseur par prédiction linéaire
43Synthétiseur à formants
44Synthèse par règles (1)
45Synthèse par règles (2)
46Synthèse par concaténation dunités
47Quest-ce quun diphone ?
48Concaténation de diphones
49Prosodie la musique de la parole
50Exemples
- ICP-Grenoble (F), 1993
- CNET-Lannion (F), 1993 (TD-PSOLA)
- KTH-Stockholm (S), 1993
- LAIP-Lausanne (CH), 1996 (MBR PSO)
- University-Mons (B), 1993 (LPC)
- University-Mons (B), 1993 (MBE)
- University-Mons (B), 1993 (MBR PSO)
- University-Mons (B), 1993 (TD PSO)
51Liens Internet sur la synthèse
- http//tcts.fpms.ac.be/synthesis/mbrola.html
- http//www.bell-labs.com/project/tts/examples
- http//www.cstr.ed.ac.uk/projects/festival/
- http//www.research.att.com/projects/tts/
524. Reconnaissance de la parole
53Objectifs
- Transformer un signal de parole en
- Texte (dictée vocale, transcription)
- Action (commande vocale, systèmes de dialogue)
- Information indexée (annotation, indexation)
54Les sources de variabilité
- Les facteurs intra-locuteurs co-articulation,
variation dans la prononciation, etc. - Les facteurs inter-locuteurs physiologie, age,
sexe, psychologie, familiarité avec
lapplication, etc. - Lenvironnement bruit, micro, canal de
transmission, présence dautres locuteurs, etc.
55Variabilité intra- et inter-locuteur
56Variabilité intra-locuteur
57Typologie des systèmes
- Type de parole
- Taille du vocabulaire
- Niveau de dépendance par rapport aux locuteurs
- Environnement dutilisation
- Profil des utilisateurs potentiels
58Type de parole
- Mots isolés
- Mots connectés
- Détection de mots clés
- Parole contrainte
- Parole continue
- Parole spontanée
59Taille du vocabulaire
- Quelques mots (5 50)
- Petit vocabulaire (50 500)
- Vocabulaire moyen (500 5000)
- Grand vocabulaire (5000 50000)
- Très grand vocabulaire (gt 50000)
60Dépendance au locuteur
- Dépendant du locuteur le système fonctionne
correctement avec un utilisateur particulier - Adaptation au locuteur utilise quelques données
spécifiquesdun locuteur pour adapter le
systèmeà une nouvelle voix - Indépendant du locuteur le système fonctionne
avec nimporte quel utilisateur
61Environnement dutilisation
- Parole large-bande(ordinateur, etc.)
- Parole bande-étroite avec distorsion (téléphone,
etc.)
- Environnement calme (bureau micro-casque)
- Bruit de fond
62Profil des utilisateurs potentiels
- Utilisation professionnelle par des spécialistes
- Grand public
- Entraîné / naïf
- Fréquent / occasionnel
- Utilité
- Coopération
63Deux exemples
- Dictée vocale
- Parole continue
- Grand vocabulaire
- Adaptation au locuteur
- Bureaumicro-casque
- Utilisateurs dordinateurs
- Service téléphonique
- Détection de mots clés
- Quelques mots
- Indépendant du locuteur
- Parole téléphonique
- Grand public
64Système de reconnaissance de mots
65Programmation dynamique (DTW)
66Contraintes locales
67Contraintes locales exemple
68Modèle de Markov caché principe
69Modèles de Markov cachés (HMM)
70Viterbi exemple
71Algorithme de Viterbi exercice
72Les trois composantes dun système
- Les modèles acoustiques
- Pour transformer des paramètres acoustiques en
phonèmes (ou parfois directement des mots) - Le lexique
- Pour transformer une suite de phonèmes en mots
- Le modèle de langage
- Pour transformer une suite de mots en phrases
73Modèles acoustiques (1)
74Modèles acoustiques (2)
Le mot américain
75Modèles de langage
- A un instant donné, tous les mots nont pas la
même probabilité de présence - Le petit chat boit du
- Grammaires probabilistes toutes les phrases
sont possibles mais avec des probabilités
différentes - Grammaires à états finis partition binaire des
séquences de mots en séquences possibles et
séquences impossibles
76Modèle acoustique Modèle de langage
77Performances
78Recherche actuelle
795. Reconnaissance du locuteur
80Définition de la RAL
- Reconnaissance automatique du locuteur
(RAL)reconnaître lidentité dune personne à
partir dun enregistrement de sa voix à laide
dune technique entièrement automatique, et donc
reproductible.
81Un domaine pluri-disciplinaire
ergonomie
traitement du signal
phonétique
théorie de la décision
S T I C
RAL
S H S
théorie de linformation
linguistique
reconnaissance des formes
statistiques
probabilités
82Typologie des tâches
- Identification du locuteur en ensemble fermé
- Vérification du locuteur
- Identification du locuteur en ensemble ouvert
- Suivi de locuteurs
- Détection de changement de locuteur
- Segmentation par locuteurs
- Classes de locuteurs
- Adaptation au locuteur
83Niveau de dépendance au texte
- Systèmes à mot de passe individuel, fixe
- Systèmes à mot de passe commun, fixe
- Systèmes à vocabulaire fixe (ordre des mots
variables) - Systèmes à texte imprédictible (imposé par le
système) - Systèmes dépendant dun évènement phonétique
- Systèmes à texte totalement libre
84Typologie des erreurs
- Identification du locuteur en ensemble fermé
- Mauvaise classification
- NOMBRE DE LOCUTEURS
- Vérification du locuteur
- Fausse acceptation (non détection)
- Faux rejet (fausse alarme)
- EER (taux dégale erreur)
- SEUIL DE DECISION
85Empreinte ou signature ?
- Motivations
- Caractéristiques physiologiques
- Origine géographique
- Contexte socioculturel
- Difficultés
- Non reproductibilité (état de santé, facteurs
psychologiques, état émotionnel, âge, etc.) ?
dérive temporelle de la voix - Bruits ambiants, canal de transmission
- Modifications intentionnelles (masquage,
imitation) - ? pas dempreinte vocalemais plutôt une
signature vocale
86Et lhomme ?
- Lhomme nest pas particulièrement bon pour ce
type de tâche. - Il faut beaucoup dentraînement pour y arriver.
- Même sur des voix familières, on a parfois des
difficultés. - Cest encore plus dur à travers le téléphone.
- Quand cest possible, on utilise plutôt le visage.
87Les enjeux scientifiques de la RAL
- Quelles sont les informations utilisées par
lhomme pour reconnaître une voix ? - Faut-il utiliser les mêmes dans un système
automatique ? - Quelles sont les informations extractibles dun
enregistrement dune voix ? - Comment faire un modèle de locuteur ?
88Comment reconnaître une personne ?
- Quelles informations ?
- Spectrales (analyse acoustique)
- Phonétiques (façon de prononcer les sons)
- Idiolectales (façon dutiliser les mots)
- Prosodiques (intensité, hauteur, longueur)
- Comment les exploiter ?
- Modèles statistiques
- Réseaux de neurones
- Réseaux bayésiens
89Les enjeux applicatifs de la RAL
- Surtout vérification
- 3 grandes familles
- Applications sur site
- Applications télécoms
- Applications policières / judiciaires
- Mais aussi
- Organisation de linformation
- Jeux
- Etc.
90Applications sur site
- La personne doit être physiquement présente en un
lieu précis - Serrure vocale (pour des locaux, un compte
informatique, etc.) - Interactivité matérielle (retrait dargent à un
guichet automatique, etc.) - Environnement contrôlable
- Système dissuasif
- Lutilisateur peut porter sur lui ses
caractéristiques vocales - Possibilité de techniques additionnelles de
vérification de lidentité - Possibilité dintervention humaine
91Applications télécoms
- La vérification sopère à distance
- Accès à des services pour des abonnés (serveurs,
données, etc.) - Transactions à distance (opérations bancaires,
paiements par carte bancaire, etc.) - Signal de mauvaise qualité et fluctuant
- Dissuasion médiocre (anonymat)
- Les caractéristiques vocales doivent être
centralisées - Difficulté à implanter dautres techniques de
vérification de lidentité - Pas dintervention humaine possible
92Applications policières/judiciares
- Recherche de suspects, déléments de preuve, de
preuves, etc. - Tests auditifs par des experts
- Lecture de spectrogrammes par des experts
- Méthodes (semi-)automatiques
- Identification ou vérification
- Pas de contraintes de temps réel
- Très importante hétérogénéité des enregistrements
- Possibilité de modifications intentionnelles
- Indépendance au texte souhaitable
- ? Nécessité dune précaution extrêmepas toujours
garantie
93Mais aussi
- Organisation de linformation
- Structuration, archivage de documents sonores
- Navigation dans ces documents
- Jeux
- Augmenter linteractivité
- Utilisation de profils de joueurs
- Personnalisation des services
- Stocker un profil dutilisateur pour accéder plus
rapidement à des services
94Les enjeux applicatifs conclusion
- La technologie est prête pour des applications ne
nécessitant pas un niveau de sécurité très élevé. - Lergonomie peut pallier certaines faiblesses des
algorithmes. - La parole nest pas le moyen le plus robuste en
vérification de lidentité, mais cest lun des
plus naturels (avec la reconnaissance de visage). - Il est nécessaire dinformer largement les
milieux policiers et judiciaires des limites de
la reconnaissance du locuteur.
95Les enjeux stratégiques
- Ecoutes téléphoniques
- Protection de la démocratie ?
- Intrusion dans la vie privée ?
- Recherche de suspects / Authentification
- Le corbeau de laffaire Grégory
- La cassette Ben Laden
96Historique
- Trois étapes
- Reconnaissance par lécoute faite par des
experts (à partir de 1940) - Reconnaissance par la lecture de spectrogrammes
réalisée par des experts (de 1960 à 1970) - Reconnaissance par des systèmes automatiques (ou
pseudo-automatiques)(à partir de 1970)
97Reconnaissance par lécoute
98Reconnaissance par spectrogrammes
99Reconnaissance automatique
- Systèmes reposant sur des modélisations
statistiques - Ordres de grandeur pour la vérification (EER)
- En laboratoire
- Pour des applications commerciales
- Performances connues mais non publiques
- Jugées suffisantes pour quelques produits
pionniers - Pour des applications policières / judiciaires
- Performances évaluées ?
conditions idéales parole téléphonique(lignes fixes)
dépendant du texte lt0.1 0.5 à 2
indépendant du texte 0.5 à 1 5 à 10
100Composantes dun système
- Une phase dapprentissage
- Construction dun modèle de locuteur
- Une phase de test
- Comparaison entre un énoncé et un modèle de
locuteur
101Phase dapprentissage
analyse
signal
paramètres
modélisation
Dictionnaire de modèles de référence
identité
ENTREES
SORTIE
102Phase de test en identification
analyse
signal
paramètres
modélisation
ENTREE
comparaison
Scores
décision
SORTIE
103Phase de test en vérification
analyse
paramètres
modélisation
signal
comparaison
identité
ENTREES
Score
décision
SORTIE
104La phase de paramétrisation
105Paramètres danalyse
- Paramètres spectraux
- Analyse par banc de filtres ou analyse LPC
- Transformation cepstrale
- Paramètres delta (et delta-delta)
- Paramètres prosodiques
- (Log-énergie et) delta-Log-énergie
- Fréquence fondamentale
- Paramètres de durée
- ? Existe-t-il des paramètres spécifiquesà la
reconnaissance du locuteur?
106Modélisation
- Les précurseurs
- Programmation dynamique (DTW)
- Quantification vectorielle (VQ)
- Modèles de Markov cachés (HMM)
- Réseaux de neurones (NN)
- Modèles auto-régressifs vectoriels (ARVM)
- Modèles par mélange de Gaussiennes (GMM)
107Les précurseurs
- PRUZANSKY 1963
- Mesure de corrélation entre spectres à long terme
- ATAL 1968
- Utilisation de contours prosodiques normalisés
- BRICKER 1971
- Mesure de Mahalanobis sur spectres à long terme
108Programmation dynamique (DTW)
DODDINGTON 1974, ROSENBERG 1976, FURUI 1981, etc.
109Quantification vectorielle (VQ)
SOONG, ROSENBERG 1987
110Modèles de Markov cachés (HMM)
ROSENBERG 1990, TSENG 1992
111Modèles de Markov cachés (HMM)
PORITZ 1982, SAVIC 1990
112Modèles par mélange de Gaussiennes(GMM)
REYNOLDS 1995
113La phase de décision
- Calcul dun score
- Avec le modèle de locuteur considéré
- Avec un modèle du monde
- Rapport entre les deux scores
- Comparaison à un seuil
- Si supérieur au seuil, on accepte
- Si inférieur au seuil, on rejette
114Lévaluation
- EER fausse acceptation faux rejet
- Courbe DET
- Les évaluations NIST
115La caractérisation du locuteur à DDL
- Recherche dune technique danalyse du signal
plus adaptée - Amélioration des modèles statistiques et
recherche dalgorithmes plus efficaces pour les
apprendre - Intégration des informations prosodiques dans les
systèmes - Modélisation de la dérive temporelle de la voix
- Utilisation de la reconnaissance du locuteur dans
des tâches dindexation sonore
116Conclusion sur la RAL
- Domaine pluridisciplinaire nécessitant des
connaissances multiples - Bonnes performances sur des données propres et en
laboratoire, mais très insuffisantes pour des
domaines nécessitant un haut degré de sécurité ou
le domaine judiciaire - On peut parler de signature vocale mais pas
dempreinte vocale
117Perspectives de la RAL
- Améliorer les systèmes
- Nouvelles sources dinformation (prosodie)
- Analyse du signal plus adaptée
- Meilleurs modèles statistiques
- Robustesse (meilleure prise en compte de la
variabilité) - Etude de la dérive temporelle de la voix
- Autres tâches
- Segmentation par locuteurs
- Indexation par locuteurs
118Discussion sur une actualité récente
- La vérification didentité dans les milieux
judiciaires - Laffaire Grégory la cassette Ben Laden
- Des articles de journaux la semaine dernière
- La prise de position des scientifiques français
119Bibliographie
- R. Boite, H. Bourlard, T. Dutoit, J. Hancq, and
H. Leich. Traitement de la parole. Presses
Polytechniques Romandes. - Calliope. La parole et son traitement
automatique. Masson, 1989.