Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? - PowerPoint PPT Presentation

1 / 119

About This Presentation

Title:

Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains?

Description:

Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains? Ivan Magrin-Chagnolleau, CNRS Laboratoire Dynamique Du ... – PowerPoint PPT presentation

Number of Views:311

Avg rating:3.0/5.0

Slides: 120

Provided by: IvanMagri2

Category:

more less

Transcript and Presenter's Notes

Title: Le traitement automatique de la parole Comment reproduire les processus physiologiques et cognitifs humains?

1
Le traitement automatiquede la parole Comment
reproduire les processus physiologiques et
cognitifs humains?

Ivan Magrin-Chagnolleau, CNRS
Laboratoire Dynamique Du Langage, Lyon
http//www.ddl.ish-lyon.cnrs.fr/
ivan_at_ieee.org

2
Plan

Introduction aux processus de la communication
parlée
Analyse de la parole
Synthèse de la parole
Reconnaissance de la parole
Reconnaissance du locuteur

3
1. Introduction aux processus de la communication
parlée
4
Quelques segments dun signal
5
Quelques propriétés du signal de parole

La parole est quasi-stationnaire
La parole est 70 du temps(pseudo-)périodique(br
uit ou silence le reste du temps)
La parole est un signal large bande(il remplit
toute la largeur de bande)
La parole est un signal à bande limitée(0-8000
Hz essentiellement)

6
Anatomie de lappareil vocal (1)
7
Anatomie de lappareil vocal (2)
8
Anatomie de lappareil vocal (3)
9
Fonctionnement acoustique de lappareil vocal

Système acoustique excitateur résonateur
Trois modes de fonctionnement
Excitation glottique du conduit vocal
Excitation du conduit vocal en un point de
constriction par un bruit découlement
Excitation du conduit vocal par une impulsion
acoustique

10
Transcription phonétique du français
11
Transcription phonétique du français
12
Description acoustique de la parole
13
Voyelles orales françaises
14
Triangle vocalique
15
Représentation acoustique (ex. 1)
16
Représentation acoustique (ex. 2)
17
Grille polaire de Maeda
18
Coupes saggitales des voyelles
19
Fonctions daires des voyelles
20
Anatomie de loreille
21
Les limites de loreille

Loreille est à bande limitée
Loreille est fausse sur des sons purs
Loreille nest pas également sensible
Loreille a une résolution en temps limitée
Loreille a une résolution en fréquence limitée

22
2. Analyse de la parole
23
Objectifs de lanalyse de parole

Extraire des paramètres du signal de parole
afin de
Retirer linformation non pertinente
Réduire la redondance
Obtenir une représentation plus compacte
Atteindre un niveau dabstraction plus élevé
Définir des mesures de ressemblance simples

24
Principes

Prétraitement
Découpage en trames
Taille des trames
Décalage entre trames
Fenêtrage
Extraction de paramètres acoustiques

25
Principe dune analyse acoustique
26
Paramètres acoustiques non spectraux

Energie
Fréquence fondamentale
Taux de passage par zéro du signal
Taux de passage par zéro de la dérivée du signal

27
Lenveloppe spectrale

Les approches conventionnelles
visent à extraire des caractéristiques
de lenveloppe spectrale.
Analyse par banc de filtres
Analyse par prédiction linéaire
Coefficients cepstraux

28
Analyse par banc de filtres (1)
29
Analyse par banc de filtres (2)
30
Analyse par banc de filtres (3)
31
Analyse par prédiction linéaire (1)

Modélisation de la parole sous forme
dun filtre de prédiction linéaire

32
Analyse par prédiction linéaire (2)
33
Coefficients cepstraux

On applique une transformée de Fourier inverse
sur le module du spectre logarithmique.
Les premiers coefficients caractérisent
lenveloppe spectrale.

34
Linformation dynamique

On représente linformation dynamique par la
dérivée première (vitesse) et la dérivée seconde
(accélération) des paramètres cepstraux?
paramètres deltas et deltas-deltas

35
3. Synthèse de la parole
36
La synthèse, pour quoi faire ?

Services de télécommunications
Rendre toute information écrite disponible via le
téléphone (horaires de cinéma, horaires de train,
informations routières, état dun compte en
banque, dernière facture téléphonique, etc.)
Applications en bureautique
Terminaux parlants, lecture des emails par la
voix, etc.
Applications dans les transports
Information dans les automobiles, aide à
lexploitation des trains, lecture de cadrans
dans les avions, etc.
Aide aux personnes handicapées
Un handicapé peut sexprimer par le biais dun
synthétiseur (cours du célèbre astrophysicien
Stephen Hawking)
Apprentissage des langues étrangères
Dictionnaires électronique avec prononciation
intégrée, logiciels dapprentissage des langues
étrangères, traduction automatique, etc.
Livres et jouets parlants
À lusage des enfants en bas âge
Communication naturelle avec la machine

37
Structure dun système de synthèse
SYNTHESE DE LA PAROLE A PARTIR DU TEXTE
TRAITEMENT DU LANGAGE NATUREL Formalismes
linguistiques Moteurs dinférence Inférences
logiques
TRAITEMENT DU SIGNAL NUMERIQUE Modèles
mathématiques Algorithmes Calculs numériques
Parole
Texte
Phonèmes
Prosodie
38
Traitement du langage naturel
Texte
Pré-processeur
Analyseur morphologique
Analyseur contextuel
Structure de données
Analyseur syntaxique- prosodique
Phonétiseur
Générateur de prosodie
Phonèmes
Prosodie
39
Analyse morpho-syntaxique
40
Phonétisation (1)
41
Phonétisation (2)
42
Synthétiseur par prédiction linéaire
43
Synthétiseur à formants
44
Synthèse par règles (1)
45
Synthèse par règles (2)
46
Synthèse par concaténation dunités
47
Quest-ce quun diphone ?
48
Concaténation de diphones
49
Prosodie la musique de la parole
50
Exemples

ICP-Grenoble (F), 1993
CNET-Lannion (F), 1993 (TD-PSOLA)
KTH-Stockholm (S), 1993
LAIP-Lausanne (CH), 1996 (MBR PSO)
University-Mons (B), 1993 (LPC)
University-Mons (B), 1993 (MBE)
University-Mons (B), 1993 (MBR PSO)
University-Mons (B), 1993 (TD PSO)

51
Liens Internet sur la synthèse

http//tcts.fpms.ac.be/synthesis/mbrola.html
http//www.bell-labs.com/project/tts/examples
http//www.cstr.ed.ac.uk/projects/festival/
http//www.research.att.com/projects/tts/

52
4. Reconnaissance de la parole
53
Objectifs

Transformer un signal de parole en
Texte (dictée vocale, transcription)
Action (commande vocale, systèmes de dialogue)
Information indexée (annotation, indexation)

54
Les sources de variabilité

Les facteurs intra-locuteurs co-articulation,
variation dans la prononciation, etc.
Les facteurs inter-locuteurs physiologie, age,
sexe, psychologie, familiarité avec
lapplication, etc.
Lenvironnement bruit, micro, canal de
transmission, présence dautres locuteurs, etc.

55
Variabilité intra- et inter-locuteur
56
Variabilité intra-locuteur
57
Typologie des systèmes

Type de parole
Taille du vocabulaire
Niveau de dépendance par rapport aux locuteurs
Environnement dutilisation
Profil des utilisateurs potentiels

58
Type de parole

Mots isolés
Mots connectés
Détection de mots clés
Parole contrainte
Parole continue
Parole spontanée

59
Taille du vocabulaire

Quelques mots (5 50)
Petit vocabulaire (50 500)
Vocabulaire moyen (500 5000)
Grand vocabulaire (5000 50000)
Très grand vocabulaire (gt 50000)

60
Dépendance au locuteur

Dépendant du locuteur le système fonctionne
correctement avec un utilisateur particulier
Adaptation au locuteur utilise quelques données
spécifiquesdun locuteur pour adapter le
systèmeà une nouvelle voix
Indépendant du locuteur le système fonctionne
avec nimporte quel utilisateur

61
Environnement dutilisation

Parole large-bande(ordinateur, etc.)
Parole bande-étroite avec distorsion (téléphone,
etc.)

Environnement calme (bureau micro-casque)
Bruit de fond

62
Profil des utilisateurs potentiels

Utilisation professionnelle par des spécialistes
Grand public

Entraîné / naïf
Fréquent / occasionnel
Utilité
Coopération

63
Deux exemples

Dictée vocale
Parole continue
Grand vocabulaire
Adaptation au locuteur
Bureaumicro-casque
Utilisateurs dordinateurs

Service téléphonique
Détection de mots clés
Quelques mots
Indépendant du locuteur
Parole téléphonique
Grand public

64
Système de reconnaissance de mots
65
Programmation dynamique (DTW)
66
Contraintes locales
67
Contraintes locales exemple
68
Modèle de Markov caché principe
69
Modèles de Markov cachés (HMM)
70
Viterbi exemple
71
Algorithme de Viterbi exercice
72
Les trois composantes dun système

Les modèles acoustiques
Pour transformer des paramètres acoustiques en
phonèmes (ou parfois directement des mots)
Le lexique
Pour transformer une suite de phonèmes en mots
Le modèle de langage
Pour transformer une suite de mots en phrases

73
Modèles acoustiques (1)
74
Modèles acoustiques (2)
Le mot américain
75
Modèles de langage

A un instant donné, tous les mots nont pas la
même probabilité de présence
Le petit chat boit du
Grammaires probabilistes toutes les phrases
sont possibles mais avec des probabilités
différentes
Grammaires à états finis partition binaire des
séquences de mots en séquences possibles et
séquences impossibles

76
Modèle acoustique Modèle de langage
77
Performances
78
Recherche actuelle
79
5. Reconnaissance du locuteur
80
Définition de la RAL

Reconnaissance automatique du locuteur
(RAL)reconnaître lidentité dune personne à
partir dun enregistrement de sa voix à laide
dune technique entièrement automatique, et donc
reproductible.

81
Un domaine pluri-disciplinaire
ergonomie
traitement du signal
phonétique
théorie de la décision
S T I C
RAL
S H S
théorie de linformation
linguistique
reconnaissance des formes
statistiques
probabilités
82
Typologie des tâches

Identification du locuteur en ensemble fermé
Vérification du locuteur
Identification du locuteur en ensemble ouvert
Suivi de locuteurs
Détection de changement de locuteur
Segmentation par locuteurs
Classes de locuteurs
Adaptation au locuteur

83
Niveau de dépendance au texte

Systèmes à mot de passe individuel, fixe
Systèmes à mot de passe commun, fixe
Systèmes à vocabulaire fixe (ordre des mots
variables)
Systèmes à texte imprédictible (imposé par le
système)
Systèmes dépendant dun évènement phonétique
Systèmes à texte totalement libre

84
Typologie des erreurs

Identification du locuteur en ensemble fermé
Mauvaise classification
NOMBRE DE LOCUTEURS
Vérification du locuteur
Fausse acceptation (non détection)
Faux rejet (fausse alarme)
EER (taux dégale erreur)
SEUIL DE DECISION

85
Empreinte ou signature ?

Motivations
Caractéristiques physiologiques
Origine géographique
Contexte socioculturel
Difficultés
Non reproductibilité (état de santé, facteurs
psychologiques, état émotionnel, âge, etc.) ?
dérive temporelle de la voix
Bruits ambiants, canal de transmission
Modifications intentionnelles (masquage,
imitation)
? pas dempreinte vocalemais plutôt une
signature vocale

86
Et lhomme ?

Lhomme nest pas particulièrement bon pour ce
type de tâche.
Il faut beaucoup dentraînement pour y arriver.
Même sur des voix familières, on a parfois des
difficultés.
Cest encore plus dur à travers le téléphone.
Quand cest possible, on utilise plutôt le visage.

87
Les enjeux scientifiques de la RAL

Quelles sont les informations utilisées par
lhomme pour reconnaître une voix ?
Faut-il utiliser les mêmes dans un système
automatique ?
Quelles sont les informations extractibles dun
enregistrement dune voix ?
Comment faire un modèle de locuteur ?

88
Comment reconnaître une personne ?

Quelles informations ?
Spectrales (analyse acoustique)
Phonétiques (façon de prononcer les sons)
Idiolectales (façon dutiliser les mots)
Prosodiques (intensité, hauteur, longueur)
Comment les exploiter ?
Modèles statistiques
Réseaux de neurones
Réseaux bayésiens

89
Les enjeux applicatifs de la RAL

Surtout vérification
3 grandes familles
Applications sur site
Applications télécoms
Applications policières / judiciaires
Mais aussi
Organisation de linformation
Jeux
Etc.

90
Applications sur site

La personne doit être physiquement présente en un
lieu précis
Serrure vocale (pour des locaux, un compte
informatique, etc.)
Interactivité matérielle (retrait dargent à un
guichet automatique, etc.)
Environnement contrôlable
Système dissuasif
Lutilisateur peut porter sur lui ses
caractéristiques vocales
Possibilité de techniques additionnelles de
vérification de lidentité
Possibilité dintervention humaine

91
Applications télécoms

La vérification sopère à distance
Accès à des services pour des abonnés (serveurs,
données, etc.)
Transactions à distance (opérations bancaires,
paiements par carte bancaire, etc.)
Signal de mauvaise qualité et fluctuant
Dissuasion médiocre (anonymat)
Les caractéristiques vocales doivent être
centralisées
Difficulté à implanter dautres techniques de
vérification de lidentité
Pas dintervention humaine possible

92
Applications policières/judiciares

Recherche de suspects, déléments de preuve, de
preuves, etc.
Tests auditifs par des experts
Lecture de spectrogrammes par des experts
Méthodes (semi-)automatiques
Identification ou vérification
Pas de contraintes de temps réel
Très importante hétérogénéité des enregistrements
Possibilité de modifications intentionnelles
Indépendance au texte souhaitable
? Nécessité dune précaution extrêmepas toujours
garantie

93
Mais aussi

Organisation de linformation
Structuration, archivage de documents sonores
Navigation dans ces documents
Jeux
Augmenter linteractivité
Utilisation de profils de joueurs
Personnalisation des services
Stocker un profil dutilisateur pour accéder plus
rapidement à des services

94
Les enjeux applicatifs conclusion

La technologie est prête pour des applications ne
nécessitant pas un niveau de sécurité très élevé.
Lergonomie peut pallier certaines faiblesses des
algorithmes.
La parole nest pas le moyen le plus robuste en
vérification de lidentité, mais cest lun des
plus naturels (avec la reconnaissance de visage).
Il est nécessaire dinformer largement les
milieux policiers et judiciaires des limites de
la reconnaissance du locuteur.

95
Les enjeux stratégiques

Ecoutes téléphoniques
Protection de la démocratie ?
Intrusion dans la vie privée ?
Recherche de suspects / Authentification
Le corbeau de laffaire Grégory
La cassette Ben Laden

96
Historique

Trois étapes
Reconnaissance par lécoute faite par des
experts (à partir de 1940)
Reconnaissance par la lecture de spectrogrammes
réalisée par des experts (de 1960 à 1970)
Reconnaissance par des systèmes automatiques (ou
pseudo-automatiques)(à partir de 1970)

97
Reconnaissance par lécoute

Tests par paires

98
Reconnaissance par spectrogrammes
99
Reconnaissance automatique

Systèmes reposant sur des modélisations
statistiques
Ordres de grandeur pour la vérification (EER)
En laboratoire
Pour des applications commerciales
Performances connues mais non publiques
Jugées suffisantes pour quelques produits
pionniers
Pour des applications policières / judiciaires
Performances évaluées ?

conditions idéales parole téléphonique(lignes fixes)
dépendant du texte lt0.1 0.5 à 2
indépendant du texte 0.5 à 1 5 à 10
100
Composantes dun système

Une phase dapprentissage
Construction dun modèle de locuteur
Une phase de test
Comparaison entre un énoncé et un modèle de
locuteur

101
Phase dapprentissage
analyse
signal
paramètres
modélisation
Dictionnaire de modèles de référence
identité
ENTREES
SORTIE
102
Phase de test en identification
analyse
signal
paramètres
modélisation
ENTREE
comparaison
Scores
décision
SORTIE
103
Phase de test en vérification
analyse
paramètres
modélisation
signal
comparaison
identité
ENTREES
Score
décision
SORTIE
104
La phase de paramétrisation
105
Paramètres danalyse

Paramètres spectraux
Analyse par banc de filtres ou analyse LPC
Transformation cepstrale
Paramètres delta (et delta-delta)
Paramètres prosodiques
(Log-énergie et) delta-Log-énergie
Fréquence fondamentale
Paramètres de durée
? Existe-t-il des paramètres spécifiquesà la
reconnaissance du locuteur?

106
Modélisation

Les précurseurs
Programmation dynamique (DTW)
Quantification vectorielle (VQ)
Modèles de Markov cachés (HMM)
Réseaux de neurones (NN)
Modèles auto-régressifs vectoriels (ARVM)
Modèles par mélange de Gaussiennes (GMM)

107
Les précurseurs

PRUZANSKY 1963
Mesure de corrélation entre spectres à long terme
ATAL 1968
Utilisation de contours prosodiques normalisés
BRICKER 1971
Mesure de Mahalanobis sur spectres à long terme

108
Programmation dynamique (DTW)
DODDINGTON 1974, ROSENBERG 1976, FURUI 1981, etc.
109
Quantification vectorielle (VQ)
SOONG, ROSENBERG 1987
110
Modèles de Markov cachés (HMM)
ROSENBERG 1990, TSENG 1992
111
Modèles de Markov cachés (HMM)
PORITZ 1982, SAVIC 1990
112
Modèles par mélange de Gaussiennes(GMM)
REYNOLDS 1995
113
La phase de décision

Calcul dun score
Avec le modèle de locuteur considéré
Avec un modèle du monde
Rapport entre les deux scores
Comparaison à un seuil
Si supérieur au seuil, on accepte
Si inférieur au seuil, on rejette

114
Lévaluation

EER fausse acceptation faux rejet
Courbe DET
Les évaluations NIST

115
La caractérisation du locuteur à DDL

Recherche dune technique danalyse du signal
plus adaptée
Amélioration des modèles statistiques et
recherche dalgorithmes plus efficaces pour les
apprendre
Intégration des informations prosodiques dans les
systèmes
Modélisation de la dérive temporelle de la voix
Utilisation de la reconnaissance du locuteur dans
des tâches dindexation sonore

116
Conclusion sur la RAL

Domaine pluridisciplinaire nécessitant des
connaissances multiples
Bonnes performances sur des données propres et en
laboratoire, mais très insuffisantes pour des
domaines nécessitant un haut degré de sécurité ou
le domaine judiciaire
On peut parler de signature vocale mais pas
dempreinte vocale

117
Perspectives de la RAL

Améliorer les systèmes
Nouvelles sources dinformation (prosodie)
Analyse du signal plus adaptée
Meilleurs modèles statistiques
Robustesse (meilleure prise en compte de la
variabilité)
Etude de la dérive temporelle de la voix
Autres tâches
Segmentation par locuteurs
Indexation par locuteurs

118
Discussion sur une actualité récente

La vérification didentité dans les milieux
judiciaires
Laffaire Grégory la cassette Ben Laden
Des articles de journaux la semaine dernière
La prise de position des scientifiques français

119
Bibliographie

R. Boite, H. Bourlard, T. Dutoit, J. Hancq, and
H. Leich. Traitement de la parole. Presses
Polytechniques Romandes.
Calliope. La parole et son traitement
automatique. Masson, 1989.

Write a Comment

User Comments (0)