Title: Reconnaissance du locuteur
1Reconnaissance du locuteur
- Frédéric BIMBOT
- IRISA (CNRS INRIA)
- Projet METISS
2Plan de lexposé
- Définitions Motivations
- Typologie Fonctionnement
- Fondements Théoriques
- Evaluation des Performances
- Applications
- Conclusions
3Définitions
- Reconnaissance du locuteur
-
- Processus de décision utilisant des
caractéristiques du signal de parole pour
déterminer des éléments dinformation sur
lidentité du locuteur dun énoncé donné
- Vérification du locuteur ? acceptation / rejet
(authentification) - Identification du locuteur ? qui est-ce (1 parmi
N) ? - Caractérisation du locuteur ? à quelle catégorie
appartient X ?
4Motivations (et limitations)
- Existence de facteurs de spécificités de la voix
- morphologie du conduit vocal
- différences physiologiques / motrices
- facteurs socio-culturels
- SIGNATURE VOCALE
- Nombreuses sources de variabilité
- variabilité intra-locuteur (état de santé,
émotionnel, etc) - environnement (bruits ambiants, distorsions,
etc) - modifications intentionnelles (masquage,
imitation, ) - PAS DEMPREINTE VOCALE
5Typologie
- Tâches (et sous-tâches)
- identification
- vérification
- caractérisation
- segmentation
- détection
- dénombrement
- sélection
- Type de parole en entrée
- mot de passe commun
- mot de passe individuel
- DEPENDANTS DU TEXTE
- texte quelconque
- INDEPENDANTS DU TEXTE
- texte prompté
6Fonctionnement (vérification)
Parole
Acceptation Rejet
Vérification du Locuteur
Décision
Identité proclamée
Vérification Test dhypothèse binaire
Deux types derreur - fausse acceptation -
faux rejet
MODELISATION PROBABILISTE THEORIE DE LA DECISION
7Fondements théoriques(structure)
- 3 modes de fonctionnement
- installation (initialisation)
- apprentissage (entraînement)
- reconnaissance (accès)
- 4 modules
- analyse acoustique
- modélisation du locuteur
- calcul de score
- décision
8Fondements théoriques(principes généraux)
Analyse acoustique ? Coefficients Cepstraux
Deltas Modélisation ? Modèles de Markov
Cachés avec lois démission Multi-Gaussiennes C
alcul de score ? Rapport de Vraisemblance
Normalisation Décision ? Comparaison à un
Seuil (optimisé sur une population de
développement)
9Fondements théoriques(rapport de vraisemblance)
modèle du locuteur
seuil
score
modèle du non-locuteur
10De la théorie à la pratique (1)
- Robustesse aux conditions de prise de son et au
canal de transmission - Soustraction / Normalisation Spectrale
Cesptrale, - Faible volume et mauvaise représentativité des
données dapprentissage - Critère MAP, Apprentissage Discriminant, Modèles
de Dépendances, - Sélection du matériau sonore approprié dans
lénoncé de test - Détection dActivité Vocale, Vérification de
Qualité, Sélection de Pertinence,
11De la théorie à la pratique (2)
- Gestion des problèmes de dérive de la voix au
cours du temps - Adaptation Incrémentale,
- Résistance à la parole pré-enregistrée, Ã
limposture intentionnelle et au masquage - Détection de Parole Synthétique, Modèles de
Cohortes Proches, - Gestion du doute
- Mesures de Confiance, Décision Séquentielle
Multiple - Vérification dInformations Verbales, Re-Routage,
Service Multi-Niveaux,
12Evaluation (vérification)
- Courbe DET
- Detection Error Trade-off
- EER
- Equal Error Rate
- WER
- Weighted Error Rate
A
B
C
13Evaluation (exemple)
Evaluations NIST 2002
- Conversations spontanées
- Téléphone mobile
- 1 session dapprentissage
- (téléphone fixe)
Variantes de la plate-forme ELISA
14Performances(ordres de grandeur)
9
Switchboard mobile
6
Banca
Variabilité du contenu linguistique
M2VTS
1
Cave / Picasso
2,5
Variabilité des conditions denregistrement
15Applications
5 PROFILS 1) Contrôle dAccès Physique 2)
Sécurisation de Transactions à Distance 3)
Organisation de lInformation 4) Jeux,
Jouets 5) Criminalistique et Renseignement
16Applications (1)
Contrôle dAccès Physique
? Lutilisateur doit être présent en un lieu
précis
Exemples - protection de locaux - Â loginÂ
vocal - accès à des valeurs ou des biens
Environnement contrôlable Système
dissuasif Stockage sur carte à puce
MAIS Forte compétition dautres techniques
biométriques
? Intégration à des systèmes multi-modaux
17Applications (2)
Sécurisation de Transactions à Distance
? La vérification seffectue à distance (télécom)
Exemples - accès à des services télécom -
opérations bancaires au téléphone - commerce
électronique
MAIS Modalité la plus ergonomique dans bien
des cas
Environnement fluctuant Dissuasion
médiocre Centralisation des modèles
- Forte demande commerciale et existence de
prototypes - DIMINUER la fraude sans offenser les clients
MONITORING
18Applications (3)
Organisation de lInformation
? Annotation automatique de documents sonores
Exemples - archivage de documents audio -
sous-titrage automatique - navigation dans les
BD sonores - comptes-rendus automatiques
Contraintes de fonctionnement très
variables Traitements au vol ou en différé Grande
variabilité des connaissances a priori
- Secteur en plein essor, mais besoins à préciser
19Applications (4)
Jeux et Jouets
? Interaction vocale ludique
Exemples - jouets pour enfants /
compagnons - consoles de jeux / téléphones
mobiles - jeux sur CD-ROM
Reconnaissance du joueur Imitation / Jeux de
Rôle Détection de lEtat dEsprit
- Secteur en friche, Ã explorer
20Applications (5)
Criminalistique et Renseignement
Exemples - incarcération à domicile -
orientation denquête, recherche de suspects -
 expertise vocale judiciaire
- Extrême diversité des conditions dutilisation
- Absence dévaluation scientifique des procédés
utilisés - motion unanime de représentants des
scientifiques du domaine de la Communication
Parlée demandant  larrêt des expertises vocales
et la mise en place de procédures dévaluation de
leur fiabilité Â
- Secteur sociétal qui nécessite une extrême
prudence
21Conclusions
- Etat actuel du domaine
- Fondements théoriques bien maîtrisés
- Complémentarités technologiques et applicatives
avec la reconnaissance de parole - Bonne acceptabilité par lutilisateur
- Multiples secteurs dapplication (bien balisés
ou à développer) - Performances  alléchantesÂ
- Les efforts doivent porter sur
- Amélioration de la robustesse (R D)
- Intégration technologique, ergonomique et
applicative